Un utilisateur du forum Reddit r/LocalLLaMA a rapporté avoir atteint une vitesse de génération de 1000 tokens par seconde (tps) avec le modèle Qwen3.6 27B, en utilisant des cartes graphiques V100.
Cette performance a été observée dans un scénario de charge maximale, impliquant 128 requêtes concurrentes. L’objectif était de déterminer le meilleur cas de figure possible pour cette configuration matérielle. Le modèle utilisé était le Qwen3.6 27B, un grand modèle de langage.
Pour une utilisation par un seul utilisateur, c’est-à-dire avec un lot de traitement (batch) de 1, la vitesse de génération se situait autour de 80 tps. La vitesse de traitement associée était de 3000 tps. Ces chiffres illustrent les capacités de traitement des modèles de langage sur des infrastructures GPU spécifiques.
Ces résultats mettent en lumière le potentiel d’optimisation des performances pour les grands modèles de langage, même sur des architectures GPU comme les V100, ouvrant des perspectives pour des applications nécessitant une haute réactivité ou un débit important.
Source : Reddit r/LocalLLaMA