Un développeur indépendant a mis au point un modèle de langage spécialisé dans le Rust, atteignant une accélération d’inférence de plus de 50 fois grâce à une approche d’attention hybride.
Ce projet, mené par un individu et documenté sur Codeberg sous le nom de Sisyphus, consiste en la création d’un petit modèle de langage (LLM) entièrement dédié au langage de programmation Rust. Contrairement aux approches de fine-tuning, ce modèle a été entraîné à partir de zéro, au niveau des octets, sur un corpus spécifique à Rust.
Le modèle compte 25,6 millions de paramètres et utilise une longueur de contexte de 512. Entraîné sur un corpus de 173,5 millions d’octets en 30 000 étapes avec une seule carte graphique RTX 4060 Ti de 8 Go, il a démontré une perte d’entraînement finale de 0,5834. L’innovation majeure réside dans son mécanisme d’inférence : une vitesse de 286,6 tokens par seconde a été atteinte grâce à une technique d’« Attention Hybride » combinée à un cache KV, soit 51,47 fois plus rapide qu’une attention complète.
Cette méthode d’attention hybride, dont le nom suggère une réponse aux coûts computationnels élevés des mécanismes d’attention traditionnels, ouvre des perspectives pour le développement de modèles de langage plus légers et performants. Elle pourrait s’avérer particulièrement pertinente pour des applications spécialisées ou des environnements aux ressources limitées. Ces avancées soulignent l’importance de l’optimisation architecturale pour l’avenir des modèles de langage.
Source : Reddit r/artificial
