LLM visuels et OCR : performances comparées sur les documents longs

Une récente étude comparative publiée sur Reddit r/MachineLearning indique que les grands modèles de langage (LLM) dotés de capacités visuelles obtiennent de meilleures performances que les approches basées sur la reconnaissance optique de caractères (OCR) pour l’extraction d’informations de documents longs et complexes.

L’étude a évalué ces technologies sur 30 PDF issus de MMLongBench-Doc, incluant des graphiques, images et tableaux, avec un total de 171 questions. Les pipelines OCR utilisaient Claude Sonnet 4.5 comme LLM pour le traitement des informations extraites.

Les résultats post-retraitement montrent que les LLM visuels, tels que LlamaCloud premium et Azure premium, atteignent une précision d’environ 59,6 % et 58,5 % respectivement. En comparaison, les pipelines OCR avec Azure basic et l’approche RAG (Retrieval Augmented Generation) agentique affichent des précisions de 54,4 % et 53,2 %.

Cependant, cette performance accrue s’accompagne d’un coût par requête plus élevé pour les LLM visuels. Par exemple, LlamaCloud premium coûte 0,1885 $ par requête, contre 0,1062 $ pour Azure basic avec OCR.

Ces observations soulèvent des questions sur l’équilibre optimal entre précision et coût dans le déploiement de solutions d’extraction de données pour des corpus documentaires volumineux.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentUn projet de hub IA américain aux Philippines se heurte à la souveraineté localeArticle suivant →Google Gemini : une nouvelle interface utilisateur

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES