Performance record : 1000 tps avec Qwen3.6 27B sur V100

Un utilisateur du forum Reddit r/LocalLLaMA a rapporté avoir atteint une vitesse de génération de 1000 tokens par seconde (tps) avec le modèle Qwen3.6 27B, en utilisant des cartes graphiques V100.

Cette performance a été observée dans un scénario de charge maximale, impliquant 128 requêtes concurrentes. L’objectif était de déterminer le meilleur cas de figure possible pour cette configuration matérielle. Le modèle utilisé était le Qwen3.6 27B, un grand modèle de langage.

Pour une utilisation par un seul utilisateur, c’est-à-dire avec un lot de traitement (batch) de 1, la vitesse de génération se situait autour de 80 tps. La vitesse de traitement associée était de 3000 tps. Ces chiffres illustrent les capacités de traitement des modèles de langage sur des infrastructures GPU spécifiques.

Ces résultats mettent en lumière le potentiel d’optimisation des performances pour les grands modèles de langage, même sur des architectures GPU comme les V100, ouvrant des perspectives pour des applications nécessitant une haute réactivité ou un débit important.

Source : Reddit r/LocalLLaMA

Catégories : Brèves IA
← Article précédentSponsio : une couche déterministe pour fiabiliser les agents LLMArticle suivant →Bruno Patino : l'humanité face à la servitude numérique des IA

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES