Une nouvelle méthode nommée Orthrus promet d’accélérer significativement la génération de jetons pour les transformeurs autorégressifs, tout en optimisant l’utilisation de la mémoire.
Développée par des chercheurs, cette approche injecte un module d’attention par diffusion entraînable dans chaque couche d’un transformeur autorégressif existant et figé. Elle utilise deux « têtes » partageant un cache KV unique, permettant une gestion plus efficiente des ressources.
La tête de diffusion projette 32 jetons en parallèle, tandis que la tête autorégressive les vérifie lors d’un second passage, acceptant le préfixe le plus long correspondant. Cette conception garantit que la distribution de sortie reste identique à celle du modèle de base.
Les résultats préliminaires montrent une accélération jusqu’à 7,8 fois le nombre de jetons par passe avant (TPF) et environ 6 fois plus rapide en temps réel sur le benchmark MATH-500. L’efficacité est notable, avec seulement 16 % des paramètres entraînés et moins de 1 % de surcoût.
Cette avancée pourrait ouvrir la voie à des modèles de langage plus rapides et plus économes en ressources.
Source : Reddit r/MachineLearning