Cloudflare réduit la taille des LLM sans perte de précision

Cloudflare a rendu public Unweight, un système de compression sans perte capable de réduire la taille des modèles de langage volumineux (LLM) de 15 à 22 %, sans altérer la précision de leurs réponses.

Sur le modèle Llama-3.1-8B de Meta, cet outil permet d’économiser environ 3 Go de VRAM, notamment grâce à la compression des poids MLP sur les GPU Nvidia H100. Les noyaux GPU ont été publiés sur GitHub, accompagnés d’une publication technique.

Cloudflare prévoit d’étendre cette technique de compression aux poids d’attention, ouvrant la voie à une optimisation accrue des ressources nécessaires au déploiement des LLM.

Source : Reddit r/LocalLLaMA

Catégories : Brèves IA
← Article précédentICML 2026 : Forte variance des scores d'évaluation des articlesArticle suivant →L'App Store en plein essor : l'IA, moteur du renouveau ?

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES