NVIDIA quantifie le modèle Qwen3.6-35B-A3B d'Alibaba pour l'inférence - IA Actu

NVIDIA a rendu disponible une version quantifiée du modèle de langage Qwen3.6-35B-A3B d’Alibaba, optimisée pour des performances d’inférence accrues.

Baptisé nvidia/Qwen3.6-35B-A3B-NVFP4, ce modèle est une adaptation du Qwen3.6-35B-A3B original d’Alibaba. Ce dernier est un modèle de langage autorégressif qui s’appuie sur une architecture de transformeur optimisée, reconnu pour sa capacité à générer du texte.

La quantification a été effectuée par NVIDIA à l’aide de son Model Optimizer, en appliquant une méthode de quantification post-entraînement (Post Training Quantization). Cette approche a permis de convertir les poids du modèle au format de données NVFP4, spécifiquement conçu pour l’inférence avec vLLM.

L’objectif de cette opération est de réduire la taille du modèle et la consommation de mémoire, tout en maintenant une performance acceptable. Cette optimisation, qui cible les poids et les activations des couches linéaires, vise à rendre le déploiement de modèles complexes plus efficace sur diverses plateformes matérielles.

L’intégration de cette version optimisée dans l’écosystème Hugging Face ouvre de nouvelles perspectives pour l’accessibilité et l’utilisation des grands modèles de langage.

Source : Reddit r/LocalLLaMA

NVIDIA quantifie le modèle Qwen3.6-35B-A3B d’Alibaba pour l’inférence

Laisser un commentaire Annuler

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes