ServiceNow AI a lancé EVA-Bench Data 2.0, un nouveau benchmark open source destiné à évaluer les grands modèles de langage (LLM) dans des scénarios d’entreprise complexes et réalistes.
Ce cadre d’évaluation, disponible sur Hugging Face, se distingue par son approche axée sur l’utilisation d’outils externes. Il intègre 121 outils et 213 scénarios répartis sur trois domaines clés : l’informatique, les ressources humaines et la finance. L’objectif est de mesurer la capacité des LLM à interagir avec des systèmes externes pour résoudre des tâches concrètes.
EVA-Bench Data 2.0 vise à pallier les lacunes des benchmarks existants, souvent critiqués pour leur manque de complexité et leur éloignement des défis réels rencontrés en entreprise. En simulant des interactions avec des API et des bases de données, il offre une évaluation plus robuste de la performance des modèles dans des environnements professionnels.
Cette initiative de ServiceNow AI pourrait contribuer à l’amélioration de la fiabilité et de l’applicabilité des LLM pour des usages critiques en entreprise. Son caractère open source encourage la collaboration et l’adoption par la communauté de la recherche et du développement en intelligence artificielle.
Source : HuggingFace Blog