Les grands modèles de langage (LLM) montrent une nette dégradation dans leur capacité à suivre les instructions lorsqu’ils sont confrontés à des requêtes hostiles, selon une analyse portant sur 14 configurations de modèles.
Cette étude, menée sur des modèles de tailles variées (de 0,6 milliard à 123 milliards de paramètres) issus des familles Llama 3.1, Mistral et Qwen3, révèle une baisse significative des performances, indépendamment de l’architecture, du niveau de quantification (FP16 ou Q4 MLX), du type de routage (dense ou MoE) ou de l’échelle du modèle.
L’effet de l’hostilité se manifeste par une baisse moyenne de 7,4 points de pourcentage dans la classe des modèles de 7 à 8 milliards de paramètres, soit une chute relative d’environ 10%. Bien que cet impact diminue avec l’augmentation de la taille des modèles, il demeure notable même pour les plus grands d’entre eux, comme Mistral Large.
Source : Reddit r/MachineLearning