Cloudflare réduit la taille des LLM sans perte de précision - IA Actu

Cloudflare a rendu public Unweight, un système de compression sans perte capable de réduire la taille des modèles de langage volumineux (LLM) de 15 à 22 %, sans altérer la précision de leurs réponses.

Sur le modèle Llama-3.1-8B de Meta, cet outil permet d’économiser environ 3 Go de VRAM, notamment grâce à la compression des poids MLP sur les GPU Nvidia H100. Les noyaux GPU ont été publiés sur GitHub, accompagnés d’une publication technique.

Cloudflare prévoit d’étendre cette technique de compression aux poids d’attention, ouvrant la voie à une optimisation accrue des ressources nécessaires au déploiement des LLM.

Source : Reddit r/LocalLLaMA

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes