Un nouveau benchmark, le Structured Output Benchmark (SOB), a été introduit pour évaluer la précision des valeurs extraites par les modèles d’IA, au-delà de la simple conformité au schéma JSON.
Les benchmarks existants pour la sortie structurée se concentrent principalement sur le taux de réussite de la conformité au schéma et aux types JSON. Cependant, les problèmes les plus courants surviennent lorsque les valeurs extraites sont inexactes, comme un nombre de `total_price` erroné dans une facture ou un tableau mal ordonné en raison d’une mauvaise correspondance de dates.
Le SOB vise à combler cette lacune en mesurant sept métriques clés. Sa métrique principale est la « Précision des Valeurs » (Value Accuracy), qui exige une correspondance exacte des valeurs de feuille avec une vérité terrain vérifiée. Il évalue également le taux de réussite JSON (JSON Pass Rate), la sécurité des types (Type Safety) et le rappel de chemin (Path Recall).
Cette approche plus nuancée pourrait potentiellement améliorer la fiabilité des systèmes d’IA générant des données structurées.
Source : Reddit r/MachineLearning