Un développeur a mis au point un modèle de langage compact, spécialisé dans le code Rust, qui atteint une vitesse d’inférence 51 fois supérieure grâce à un mécanisme d’attention hybride.
Ce modèle, construit de zéro en PyTorch et entraîné au niveau octet, utilise un corpus de 173,5 Mo axé sur Rust. Il compte 25,6 millions de paramètres et une longueur de contexte de 512, ayant été entraîné sur une seule carte graphique RTX 4060 Ti 8 Go en 30 000 étapes. Les performances initiales affichent une perplexité de 2,15.
L’innovation majeure réside dans l’utilisation de la technique « HybridAttention » combinée à un cache KV. Cela permet une inférence à 286,6 tokens par seconde, soit 51,47 fois plus rapide qu’une approche d’attention complète. Ce projet, dont le code est disponible sur Codeberg, illustre la recherche de solutions pour des modèles de langage plus efficaces.
Cette approche pourrait ouvrir des perspectives pour le développement de modèles spécialisés et moins gourmands en ressources.
Source : Reddit r/artificial
