Les modèles d’intelligence artificielle démontrent une capacité à « résoudre » avec assurance des problèmes mathématiques qui n’ont en réalité aucune solution, selon un nouveau benchmark. Un consortium de 64 mathématiciens a développé SOOHAK, une nouvelle référence pour l’IA, comprenant 439 tâches manuscrites. Parmi celles-ci, 99 ont été délibérément conçues pour être insolubles.
Les tests révèlent que Gemini 3 Pro de Google se distingue sur les problèmes de niveau recherche, atteignant un taux de réussite de 30 %. Cependant, aucun modèle n’a dépassé les 50 % de succès pour identifier les tâches sans solution. L’augmentation de la puissance de calcul améliore la capacité des modèles à résoudre des problèmes, mais n’améliore pas leur aptitude à reconnaître l’absence de réponse.
Ce benchmark SOOHAK vise à mettre en lumière l’écart persistant entre quelques résultats spectaculaires et les compétences de recherche plus larges qui font encore défaut aux systèmes d’IA. Il souligne une limite fondamentale dans la compréhension contextuelle et la capacité de raisonnement des intelligences artificielles actuelles.
Cette observation soulève des questions quant à la fiabilité des modèles d’IA face à des situations ambiguës ou impossibles.
Source : The Decoder