Les modèles d’intelligence artificielle de pointe, y compris GPT-4 et Claude 3 Opus, ont obtenu des scores inférieurs à 50 % sur ITBench-AA, le premier benchmark conçu pour évaluer leurs performances sur des tâches informatiques d’entreprise autonomes.
Développé conjointement par Artificial Analysis et IBM, ITBench-AA simule des opérations complexes du quotidien des professionnels de l’IT. Il couvre un éventail de scénarios allant du dépannage réseau à la configuration de systèmes, en passant par l’analyse de sécurité, nécessitant des capacités de raisonnement et d’exécution avancées.
Ces résultats soulignent les limitations actuelles des grands modèles de langage (LLM) lorsqu’il s’agit d’automatiser entièrement des fonctions critiques dans les environnements informatiques d’entreprise. Malgré leurs avancées, ils peinent encore à gérer la complexité, la précision et la fiabilité requises pour des agents autonomes.
Cette évaluation met en lumière l’importance de développer des modèles plus robustes et spécialisés, capables de comprendre et d’exécuter des instructions techniques complexes avec une grande fiabilité. Le chemin vers des agents IT entièrement autonomes reste encore à parcourir.
Source : HuggingFace Blog