llama.cpp : une optimisation pour réduire l’usage de la VRAM

La bibliothèque logicielle llama.cpp, utilisée pour exécuter des modèles de langage volumineux sur du matériel grand public, intègre une nouvelle optimisation visant à réduire sa consommation de mémoire vive vidéo (VRAM).

La modification, soumise sous forme de Pull Request par l’utilisateur am17an, consiste à employer un masque au format F16 pour l’attention factorisée (FA). Cette approche permettrait une économie d’espace mémoire sans compromettre significativement la précision des calculs.

Cette mise à jour, disponible dans la dernière version de llama.cpp, pourrait permettre aux utilisateurs de faire fonctionner des modèles plus grands ou d’améliorer les performances sur des configurations matérielles limitées en VRAM.

Source : Reddit r/LocalLLaMA

Catégories : Brèves IA
← Article précédentAnthropic dévoile Opus 4.8, l'industrie anticipe un saut d'échelleArticle suivant →Adobe lance un agent IA conversationnel pour la création d'images

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES