Une nouvelle étude comparative révèle que des modèles de langage (LLM) plus anciens et moins coûteux surpassent souvent les modèles phares et plus récents pour les tâches de reconnaissance optique de caractères (OCR).
Cette recherche, menée par des experts en flux de travail d’extraction de documents, met en lumière une tendance où de nombreuses équipes surpaient les appels aux LLM en optant par défaut pour les modèles les plus récents et les plus grands, ou restent bloquées dans des pipelines OCR obsolètes.
Pour contrer cette pratique, les chercheurs ont mis au point un mini-benchmark. Ils ont sélectionné un ensemble de 42 documents standards et ont testé 18 LLM différents, en exécutant chaque modèle dix fois, totalisant plus de 7 000 appels. Les résultats indiquent que les modèles plus anciens ou moins onéreux se montrent fréquemment plus efficaces que leurs homologues plus coûteux et à la pointe de la technologie.
Le jeu de données complet, le cadre d’évaluation et un outil gratuit permettant de tester ses propres documents ont été mis à disposition en open source. Cette initiative vise à optimiser les flux de travail d’extraction de documents et à encourager une approche plus éclairée dans le choix des modèles.
Source : Reddit r/MachineLearning