Une analyse approfondie compare les performances de Gemma 2 9B auto-hébergé sur une carte NVIDIA L4 aux API cloud, mettant en lumière l’impact de la quantification FP8.
La migration des charges de travail de modèles de langage (LLM) de production des API cloud commerciales est souvent simplifiée à un compromis entre qualité et coût d’infrastructure. Pour dépasser ces moyennes isolées, une évaluation a été menée avec une charge de travail réelle : la prospection à froid et la réingénierie de profils contextuels pour une plateforme de génération de CV.
L’étude a benchmarké une version non quantifiée de Gemma 2 9B face à une variante optimisée en FP8, servie via vLLM, sur un unique GPU NVIDIA L4. L’objectif était d’examiner le « coût de préremplissage » lié à la quantification FP8 et les réalités de la mémoire vidéo (VRAM).
Ces travaux offrent une perspective concrète sur les défis et les avantages de l’auto-hébergement de LLM, au-delà des considérations théoriques.
Source : Reddit r/MachineLearning