VAKRA : un nouveau benchmark pour évaluer le raisonnement des agents d’IA
IBM Research a lancé VAKRA, un benchmark évaluant la capacité des agents d’IA à raisonner et utiliser des outils, révélant leurs forces et faiblesses actuelles.
IBM Research a lancé VAKRA, un benchmark évaluant la capacité des agents d’IA à raisonner et utiliser des outils, révélant leurs forces et faiblesses actuelles.
IBM Research et Hugging Face lancent ALTK-Evolve, un cadre permettant aux agents d’IA d’apprendre et de s’adapter en continu pendant leurs tâches.