Un nouveau banc d’essai, DeepSWE, a été introduit pour évaluer de manière plus rigoureuse les capacités de génération de code des modèles d’intelligence artificielle de pointe.
Ce benchmark se distingue par plusieurs avancées significatives par rapport aux outils existants. Ses tâches sont entièrement originales, garantissant l’absence de contamination où les modèles auraient pu voir les solutions lors de leur pré-entraînement.
DeepSWE couvre une grande diversité, s’appuyant sur 91 dépôts de code et cinq langages de programmation différents. Il présente une complexité accrue du monde réel : bien que les invites soient plus courtes, les solutions requièrent une quantité de code et de jetons de sortie nettement supérieure à celles de SWE-bench Pro.
La vérification des solutions est également fiabilisée grâce à des validateurs écrits à la main, testant le comportement logiciel. Cette approche vise à fournir une évaluation plus précise de la performance des IA dans des scénarios de développement logiciel complexes. Reste à observer comment les modèles actuels se positionneront face à ces nouveaux défis.
Source : Reddit r/MachineLearning