benchmark - IA Actu - Actualité Intelligence Artificielle

Kimi K3 de Moonshot excelle en code frontend mais peine en maths complexes

19 juillet 2026

Le modèle chinois Kimi K3 de Moonshot a dominé le classement Code Arena: Frontend, surpassant Claude Fable 5 et GPT-5.6 Sol, mais affiche des lacunes en mathématiques complexes.

Une nouvelle évaluation révèle les défis de coordination des LLM multi-agents

14 juillet 2026

Un nouveau benchmark évalue la capacité des LLM à coordonner des actions complexes dans des mondes ouverts, montrant des performances limitées mais un potentiel pour Gemini 3.1 Pro.

Une startup prépare un benchmark IA pour l’estimation des coûts de construction

12 juillet 2026

Une startup développe un benchmark de données précis, validé par des experts, pour évaluer les modèles d’IA dans l’estimation des coûts de construction.

Ollama lève 65 M$ et atteint près de 9 millions d’utilisateurs

9 juillet 2026

Ollama, l’outil open source pour l’IA sur PC, a levé 65 millions de dollars et compte désormais près de 9 millions d’utilisateurs.

OpenAI alerte sur la fiabilité du benchmark de codage SWE-Bench Pro

8 juillet 2026

Une nouvelle analyse d’OpenAI révèle des problèmes de fiabilité et de précision dans SWE-Bench Pro, un benchmark de codage populaire pour les IA.

TRACE : Une mémoire hiérarchique open-source pour agents LLM

6 juillet 2026

Un nouveau système de mémoire hiérarchique open-source nommé TRACE a démontré une performance significativement supérieure pour les agents LLM, atteignant 82,5 % sur le benchmark MemoryAgentBench.

ScarfBench : un nouveau benchmark pour la migration d’applications Java par IA

30 juin 2026

IBM Research a lancé ScarfBench, un benchmark pour évaluer la capacité des agents d’IA à migrer des applications Java d’entreprise, une tâche complexe et coûteuse.

OpenAI lance GeneBench-Pro pour évaluer l’IA en génomique

30 juin 2026

OpenAI a lancé GeneBench-Pro, un nouveau banc d’essai pour évaluer les performances de l’IA en génomique, biologie et recherche scientifique avec des données réelles.

Hugging Face lance le classement FFASR pour l’ASR en conditions réelles

24 juin 2026

Hugging Face a lancé le classement FFASR, une nouvelle initiative pour évaluer les performances des modèles de reconnaissance automatique de la parole (ASR) dans des scénarios réels.

DeepSWE : Un nouveau benchmark pour évaluer la génération de code IA

24 juin 2026

Un nouveau banc d’essai, DeepSWE, a été introduit pour évaluer de manière plus rigoureuse les capacités de génération de code des modèles d’intelligence artificielle de pointe.

Rubriques

À propos

Légal

Mes sauvegardes