Une nouvelle approche d’attention hybride a permis d’accélérer l’inférence de petits modèles de code jusqu’à 50 fois, tout en maintenant une faible perte de perplexité.
Cette innovation, issue d’une modification des entrailles de PyTorch et Triton, propose une architecture d’attention spécifique. Elle combine une première couche linéaire, une couche intermédiaire quadratique et une dernière couche linéaire. Les tests ont montré une inférence nettement plus rapide avec un impact minime sur la perplexité du modèle.
Malgré ces gains architecturaux, l’étude a révélé que l’augmentation de la taille de l’ensemble de données était le facteur le plus déterminant pour la performance. Un modèle de langage de 25,6 millions de paramètres, axé sur Rust et de type décodeur GPT au niveau des octets, a été entraîné. L’extension du corpus de 31 Mo de sources Rust principales à 173 Mo, par l’ajout de centaines de « crates », a eu un impact supérieur aux modifications architecturales.
Cette observation souligne l’importance persistante de la quantité et de la qualité des données dans le développement des modèles d’IA, même face à des avancées architecturales significatives.
Source : Reddit r/MachineLearning
