Cloudflare a rendu public Unweight, un système de compression sans perte capable de réduire la taille des modèles de langage volumineux (LLM) de 15 à 22 %, sans altérer la précision de leurs réponses.
Sur le modèle Llama-3.1-8B de Meta, cet outil permet d’économiser environ 3 Go de VRAM, notamment grâce à la compression des poids MLP sur les GPU Nvidia H100. Les noyaux GPU ont été publiés sur GitHub, accompagnés d’une publication technique.
Cloudflare prévoit d’étendre cette technique de compression aux poids d’attention, ouvrant la voie à une optimisation accrue des ressources nécessaires au déploiement des LLM.
Source : Reddit r/LocalLLaMA