Hugging Face et le Technology Innovation Institute (TII) des Émirats arabes unis ont lancé QIMMA, un classement dédié à l’évaluation qualitative des grands modèles de langage (LLM) arabes.
Ce nouveau tableau de bord vise à combler un manque crucial : l’absence d’une évaluation robuste et complète pour les LLM spécifiquement conçus pour la langue arabe. Les benchmarks existants peinent souvent à offrir la profondeur et la qualité nécessaires pour apprécier pleinement les performances de ces modèles.
QIMMA, dont le nom signifie « sommet » en arabe, met l’accent sur une approche « qualité d’abord », intégrant des évaluations humaines rigoureuses. Il mesure les capacités des modèles sur des tâches variées telles que la traduction, la synthèse, le raisonnement, la compréhension d’instructions et la génération de texte, en tenant compte de la pertinence culturelle et de la sécurité.
Des modèles comme Jais, Falcon et différentes versions de Llama sont déjà évalués sur cette plateforme. L’initiative conjointe de Hugging Face et du TII a pour objectif de stimuler le développement de LLM arabes de haute qualité et de fournir une ressource fiable pour la communauté de la recherche et du développement. Cette démarche pourrait significativement orienter l’amélioration des capacités linguistiques de l’IA dans le monde arabophone.
Source : HuggingFace Blog