DeepSWE : Un nouveau benchmark pour évaluer la génération de code IA

Un nouveau banc d’essai, DeepSWE, a été introduit pour évaluer de manière plus rigoureuse les capacités de génération de code des modèles d’intelligence artificielle de pointe.

Ce benchmark se distingue par plusieurs avancées significatives par rapport aux outils existants. Ses tâches sont entièrement originales, garantissant l’absence de contamination où les modèles auraient pu voir les solutions lors de leur pré-entraînement.

DeepSWE couvre une grande diversité, s’appuyant sur 91 dépôts de code et cinq langages de programmation différents. Il présente une complexité accrue du monde réel : bien que les invites soient plus courtes, les solutions requièrent une quantité de code et de jetons de sortie nettement supérieure à celles de SWE-bench Pro.

La vérification des solutions est également fiabilisée grâce à des validateurs écrits à la main, testant le comportement logiciel. Cette approche vise à fournir une évaluation plus précise de la performance des IA dans des scénarios de développement logiciel complexes. Reste à observer comment les modèles actuels se positionneront face à ces nouveaux défis.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentARM détaille sa stratégie pour l'IA physique et la robotiqueArticle suivant →Compétition IA : Bessent voit la Chine comme le "plus grand risque" pour les États-Unis

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES