Le modèle de langage GLM 5.2 a surpassé Claude dans une série de benchmarks axés sur la cybersécurité, selon une analyse publiée par Semgrep. Ces tests évaluaient la capacité des modèles à identifier et à comprendre des vulnérabilités dans le code.
Semgrep, une plateforme d’analyse de code statique, a conçu ces benchmarks pour mesurer la performance des LLM dans la détection de failles de sécurité courantes. Les résultats suggèrent que GLM 5.2 démontre une compréhension plus fine des nuances du code lié à la sécurité que Claude.
Cette évaluation soulève des questions sur l’aptitude des modèles d’IA à assister les professionnels de la cybersécurité dans leurs tâches d’analyse et de prévention. L’évolution rapide des LLM pourrait redéfinir les outils disponibles pour sécuriser les infrastructures numériques.
Source : Hacker News (Algolia)