DeepSeek a récemment publié la version complète de son article technique sur le modèle V4, apportant des détails approfondis sur l’optimisation de l’efficacité.
Cette nouvelle publication fait suite à une version préliminaire d’avril et enrichit considérablement la documentation technique. Elle met en lumière des avancées significatives, notamment l’intégration de l’entraînement avec quantification consciente (QAT) en format FP4.
L’approche de DeepSeek consiste à appliquer le QAT FP4 directement lors des phases avancées de l’entraînement. Cette méthode cible spécifiquement les poids des experts MoE (Mixture-of-Experts), identifiés comme les principaux consommateurs de mémoire GPU, en les quantifiant en FP4. De plus, le chemin QK dans l’indexeur CSA utilise des activations FP4.
Ces optimisations permettent d’exécuter l’inférence directement sur les poids FP4. Un gain de vitesse de 2x a été observé sur le sélecteur QK, tout en maintenant une préservation de 99,7 % du rappel. Le tableau d’efficacité présenté dans l’article, notamment pour un contexte de 1M, est jugé particulièrement notable.
Ces développements soulignent la recherche continue d’une plus grande efficacité dans les grands modèles de langage.
Source : Reddit r/MachineLearning