Orthrus : une méthode efficace pour la génération parallèle de jetons
Une nouvelle méthode nommée Orthrus promet d’accélérer significativement la génération de jetons pour les transformeurs autorégressifs, tout en optimisant l’utilisation de la mémoire.