Le projet ExLlamaV3, axé sur l’optimisation des grands modèles de langage (LLM) pour un usage local, a récemment introduit des mises à jour majeures visant à accélérer leur vitesse d’inférence. Ces améliorations permettent de faire fonctionner des modèles plus complexes sur du matériel moins puissant.
Les développements récents incluent la prise en charge du modèle Gemma 4 et une efficacité de mise en cache accrue. L’intégration du support DFlash, il y a deux semaines, a démontré des gains de performance notables. Par exemple, pour les tâches de génération de code, la vitesse est passée de 55,98 tokens/seconde à 140,61 tokens/seconde, soit un facteur 2,51.
Ces avancées témoignent d’une recherche continue pour rendre les LLM plus accessibles et réactifs, ouvrant la voie à des applications plus exigeantes en temps réel sur des configurations locales.
Source : Reddit r/LocalLLaMA