Un modèle de langage Rust optimise son inférence avec HybridAttention

Un modèle de langage Rust optimise son inférence avec HybridAttention

Un développeur a mis au point un modèle de langage compact, spécialisé dans le code Rust, qui atteint une vitesse d’inférence 51 fois supérieure grâce à un mécanisme d’attention hybride.

Ce modèle, construit de zéro en PyTorch et entraîné au niveau octet, utilise un corpus de 173,5 Mo axé sur Rust. Il compte 25,6 millions de paramètres et une longueur de contexte de 512, ayant été entraîné sur une seule carte graphique RTX 4060 Ti 8 Go en 30 000 étapes. Les performances initiales affichent une perplexité de 2,15.

L’innovation majeure réside dans l’utilisation de la technique « HybridAttention » combinée à un cache KV. Cela permet une inférence à 286,6 tokens par seconde, soit 51,47 fois plus rapide qu’une approche d’attention complète. Ce projet, dont le code est disponible sur Codeberg, illustre la recherche de solutions pour des modèles de langage plus efficaces.

Cette approche pourrait ouvrir des perspectives pour le développement de modèles spécialisés et moins gourmands en ressources.

Source : Reddit r/artificial

Catégories : Brèves IA
← Article précédentGoogle Gemini améliore l'orientation vers les ressources de santé mentaleArticle suivant →Attention hybride : un LLM Rust 50 fois plus rapide

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES