La bibliothèque logicielle llama.cpp, utilisée pour exécuter des modèles de langage volumineux sur du matériel grand public, intègre une nouvelle optimisation visant à réduire sa consommation de mémoire vive vidéo (VRAM).
La modification, soumise sous forme de Pull Request par l’utilisateur am17an, consiste à employer un masque au format F16 pour l’attention factorisée (FA). Cette approche permettrait une économie d’espace mémoire sans compromettre significativement la précision des calculs.
Cette mise à jour, disponible dans la dernière version de llama.cpp, pourrait permettre aux utilisateurs de faire fonctionner des modèles plus grands ou d’améliorer les performances sur des configurations matérielles limitées en VRAM.
Source : Reddit r/LocalLLaMA