Les modèles d’IA peinent sur ITBench-AA, le nouveau benchmark IT d’entreprise
Les modèles d’IA de pointe, tels que GPT-4 et Claude 3 Opus, obtiennent des scores inférieurs à 50 % sur ITBench-AA, le premier benchmark évaluant leurs capacités pour les tâches informatiques d’entreprise autonomes.