La nouvelle version 0.2.0 de BeeLlama, un outil d’inférence pour modèles de langage, améliore significativement les performances sur une unique carte graphique RTX 3090. L’outil optimise l’utilisation de la mémoire via la technologie DFlash.
Avec cette mise à jour, des modèles comme Qwen 3.6 27B atteignent jusqu’à 164 tokens par seconde (soit 4,4 fois plus rapide), et Gemma 4 31B jusqu’à 177,8 tokens par seconde (4,93 fois plus rapide). Ces gains proviennent d’une meilleure gestion de la mémoire cache K/V et d’une exécution CUDA plus sûre.
BeeLlama 0.2.0 prend désormais en charge les GGUF DFlash avec l’architecture standard, tout en corrigeant des comportements liés à l’adaptation de la mémoire. L’outil propose également une fonctionnalité de vision pour Gemma 4.
Source : Reddit r/LocalLLaMA