NVIDIA a rendu disponible une version quantifiée du modèle de langage Qwen3.6-35B-A3B d’Alibaba, optimisée pour des performances d’inférence accrues.
Baptisé nvidia/Qwen3.6-35B-A3B-NVFP4, ce modèle est une adaptation du Qwen3.6-35B-A3B original d’Alibaba. Ce dernier est un modèle de langage autorégressif qui s’appuie sur une architecture de transformeur optimisée, reconnu pour sa capacité à générer du texte.
La quantification a été effectuée par NVIDIA à l’aide de son Model Optimizer, en appliquant une méthode de quantification post-entraînement (Post Training Quantization). Cette approche a permis de convertir les poids du modèle au format de données NVFP4, spécifiquement conçu pour l’inférence avec vLLM.
L’objectif de cette opération est de réduire la taille du modèle et la consommation de mémoire, tout en maintenant une performance acceptable. Cette optimisation, qui cible les poids et les activations des couches linéaires, vise à rendre le déploiement de modèles complexes plus efficace sur diverses plateformes matérielles.
L’intégration de cette version optimisée dans l’écosystème Hugging Face ouvre de nouvelles perspectives pour l’accessibilité et l’utilisation des grands modèles de langage.
Source : Reddit r/LocalLLaMA