Les modèles d’intelligence artificielle les plus récents, incluant GPT-5.5 d’OpenAI et Opus 4.7 d’Anthropic, présentent trois schémas d’erreurs de raisonnement systématiques. C’est ce que révèle une analyse approfondie menée par la fondation ARC Prize, expliquant leurs faibles performances sur des tâches que les humains résolvent aisément.
L’étude a consisté à analyser 160 exécutions de jeux de ces deux modèles sur le benchmark ARC-AGI-3. Les résultats ont montré que les systèmes d’IA restent en deçà de 1 % de réussite, malgré leur sophistication. Ces erreurs récurrentes empêchent une progression significative sur des problèmes nécessitant une compréhension plus abstraite.
Ces lacunes soulignent les défis persistants dans le développement d’une intelligence artificielle générale (AGI). Elles mettent en évidence que même les architectures les plus avancées peinent encore à reproduire la flexibilité cognitive et la capacité de raisonnement abstrait propres à l’humain.
Cette analyse offre un aperçu précieux des obstacles fondamentaux à surmonter pour que les IA puissent véritablement rivaliser avec l’intellect humain dans des contextes non spécifiques.
Source : The Decoder