llama.cpp : une optimisation pour réduire l'usage de la VRAM - IA Actu

La bibliothèque logicielle llama.cpp, utilisée pour exécuter des modèles de langage volumineux sur du matériel grand public, intègre une nouvelle optimisation visant à réduire sa consommation de mémoire vive vidéo (VRAM).

La modification, soumise sous forme de Pull Request par l’utilisateur am17an, consiste à employer un masque au format F16 pour l’attention factorisée (FA). Cette approche permettrait une économie d’espace mémoire sans compromettre significativement la précision des calculs.

Cette mise à jour, disponible dans la dernière version de llama.cpp, pourrait permettre aux utilisateurs de faire fonctionner des modèles plus grands ou d’améliorer les performances sur des configurations matérielles limitées en VRAM.

Source : Reddit r/LocalLLaMA

llama.cpp : une optimisation pour réduire l’usage de la VRAM

Laisser un commentaire Annuler

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes