Évaluation de Gemma 2 9B auto-hébergé : impact de la quantification FP8 sur NVIDIA L4
Une étude compare les performances de Gemma 2 9B auto-hébergé sur une NVIDIA L4 aux API cloud, analysant l’impact de la quantification FP8 et la VRAM.
Une étude compare les performances de Gemma 2 9B auto-hébergé sur une NVIDIA L4 aux API cloud, analysant l’impact de la quantification FP8 et la VRAM.