EVA-Bench Data 2.0 : un nouveau benchmark pour les LLM en entreprise

ServiceNow AI a lancé EVA-Bench Data 2.0, un nouveau benchmark open source destiné à évaluer les grands modèles de langage (LLM) dans des scénarios d’entreprise complexes et réalistes.

Ce cadre d’évaluation, disponible sur Hugging Face, se distingue par son approche axée sur l’utilisation d’outils externes. Il intègre 121 outils et 213 scénarios répartis sur trois domaines clés : l’informatique, les ressources humaines et la finance. L’objectif est de mesurer la capacité des LLM à interagir avec des systèmes externes pour résoudre des tâches concrètes.

EVA-Bench Data 2.0 vise à pallier les lacunes des benchmarks existants, souvent critiqués pour leur manque de complexité et leur éloignement des défis réels rencontrés en entreprise. En simulant des interactions avec des API et des bases de données, il offre une évaluation plus robuste de la performance des modèles dans des environnements professionnels.

Cette initiative de ServiceNow AI pourrait contribuer à l’amélioration de la fiabilité et de l’applicabilité des LLM pour des usages critiques en entreprise. Son caractère open source encourage la collaboration et l’adoption par la communauté de la recherche et du développement en intelligence artificielle.

Source : HuggingFace Blog

Catégories : Brèves IA
← Article précédentLeaders de l'IA appellent à protéger contre les armes biologiquesArticle suivant →ChatGPT franchit le cap du milliard d'utilisateurs mensuels

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES