Orthrus : une méthode efficace pour la génération parallèle de jetons

Une nouvelle méthode nommée Orthrus promet d’accélérer significativement la génération de jetons pour les transformeurs autorégressifs, tout en optimisant l’utilisation de la mémoire.

Développée par des chercheurs, cette approche injecte un module d’attention par diffusion entraînable dans chaque couche d’un transformeur autorégressif existant et figé. Elle utilise deux « têtes » partageant un cache KV unique, permettant une gestion plus efficiente des ressources.

La tête de diffusion projette 32 jetons en parallèle, tandis que la tête autorégressive les vérifie lors d’un second passage, acceptant le préfixe le plus long correspondant. Cette conception garantit que la distribution de sortie reste identique à celle du modèle de base.

Les résultats préliminaires montrent une accélération jusqu’à 7,8 fois le nombre de jetons par passe avant (TPF) et environ 6 fois plus rapide en temps réel sur le benchmark MATH-500. L’efficacité est notable, avec seulement 16 % des paramètres entraînés et moins de 1 % de surcoût.

Cette avancée pourrait ouvrir la voie à des modèles de langage plus rapides et plus économes en ressources.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentGreg Brockman prend le contrôle des produits OpenAIArticle suivant →OpenAI réorganise sa direction pour se concentrer sur les agents d'IA

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES