Une récente étude comparative publiée sur Reddit r/MachineLearning indique que les grands modèles de langage (LLM) dotés de capacités visuelles obtiennent de meilleures performances que les approches basées sur la reconnaissance optique de caractères (OCR) pour l’extraction d’informations de documents longs et complexes.
L’étude a évalué ces technologies sur 30 PDF issus de MMLongBench-Doc, incluant des graphiques, images et tableaux, avec un total de 171 questions. Les pipelines OCR utilisaient Claude Sonnet 4.5 comme LLM pour le traitement des informations extraites.
Les résultats post-retraitement montrent que les LLM visuels, tels que LlamaCloud premium et Azure premium, atteignent une précision d’environ 59,6 % et 58,5 % respectivement. En comparaison, les pipelines OCR avec Azure basic et l’approche RAG (Retrieval Augmented Generation) agentique affichent des précisions de 54,4 % et 53,2 %.
Cependant, cette performance accrue s’accompagne d’un coût par requête plus élevé pour les LLM visuels. Par exemple, LlamaCloud premium coûte 0,1885 $ par requête, contre 0,1062 $ pour Azure basic avec OCR.
Ces observations soulèvent des questions sur l’équilibre optimal entre précision et coût dans le déploiement de solutions d’extraction de données pour des corpus documentaires volumineux.
Source : Reddit r/MachineLearning