VAKRA : un nouveau benchmark pour évaluer le raisonnement des agents d’IA
IBM Research a lancé VAKRA, un benchmark évaluant la capacité des agents d’IA à raisonner et utiliser des outils, révélant leurs forces et faiblesses actuelles.
IBM Research a lancé VAKRA, un benchmark évaluant la capacité des agents d’IA à raisonner et utiliser des outils, révélant leurs forces et faiblesses actuelles.