Les agents IA peinent à accomplir des tâches en ligne courantes

Les agents d’intelligence artificielle peinent encore à réaliser des tâches en ligne du quotidien, selon ClawBench, une nouvelle évaluation. Ce banc d’essai mesure la performance de ces agents sur 153 actions concrètes, effectuées sur 144 sites web réels et actifs.

Le modèle le plus performant, Claude Sonnet 4.6, n’atteint qu’un taux de succès de 33,3 %. GLM-5 de Zhipu AI suit avec 24,2 %. Les tâches financières et académiques se révèlent plus aisées, tandis que celles liées aux voyages et au développement web posent davantage de difficultés.

Aucun agent n’a dépassé 50 % de réussite, soulignant l’écart entre les capacités actuelles des IA et les exigences des interactions en ligne complexes. Ces résultats interrogent sur la maturité des agents IA pour une adoption généralisée dans les activités numériques courantes.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentAnthropic a présenté son modèle d'IA Mythos à l'administration TrumpArticle suivant →Meta dépasse Google en revenus publicitaires : comment l'IA a redistribué les cartes du marché

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES