Les agents d’intelligence artificielle peinent encore à réaliser des tâches en ligne du quotidien, selon ClawBench, une nouvelle évaluation. Ce banc d’essai mesure la performance de ces agents sur 153 actions concrètes, effectuées sur 144 sites web réels et actifs.
Le modèle le plus performant, Claude Sonnet 4.6, n’atteint qu’un taux de succès de 33,3 %. GLM-5 de Zhipu AI suit avec 24,2 %. Les tâches financières et académiques se révèlent plus aisées, tandis que celles liées aux voyages et au développement web posent davantage de difficultés.
Aucun agent n’a dépassé 50 % de réussite, soulignant l’écart entre les capacités actuelles des IA et les exigences des interactions en ligne complexes. Ces résultats interrogent sur la maturité des agents IA pour une adoption généralisée dans les activités numériques courantes.
Source : Reddit r/MachineLearning