TurboOCR : l’OCR accéléré pour traiter des millions de documents

Un développeur a conçu TurboOCR, une solution logicielle capable d’atteindre des vitesses de traitement optique de caractères (OCR) comprises entre 270 et 1200 images par seconde. Cette performance est rendue possible grâce à l’optimisation du modèle PaddleOCR via la bibliothèque TensorRT de NVIDIA, exploitant la puissance des cartes graphiques CUDA et le calcul en précision réduite FP16.

Face à un volume de près d’un million de documents PDF, l’approche traditionnelle de l’OCR s’est avérée trop lente. Les modèles d’IA plus récents, bien que performants pour la compréhension complexe, peinent à maintenir un débit suffisant à grande échelle. TurboOCR vise ainsi à pallier cette limitation, offrant une alternative plus rapide pour l’extraction de texte à partir d’images ou de documents numérisés.

Le développeur a constaté que la version standard de PaddleOCR atteignait environ 15 images par seconde sur une carte RTX 5090, tandis que les modèles VLM (Vision-Language Models) basés sur vLLM étaient encore plus lents, à 2 images par seconde. TurboOCR représente une avancée significative pour le traitement de masse de documents, ouvrant des perspectives pour des applications nécessitant une rapidité accrue.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentLes PNJ du futur : comment l'IA crée des personnages de jeux vidéo qui improvisentArticle suivant →Meta averti des dangers de la reconnaissance faciale dans ses lunettes

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES