Un développeur a conçu TurboOCR, une solution logicielle capable d’atteindre des vitesses de traitement optique de caractères (OCR) comprises entre 270 et 1200 images par seconde. Cette performance est rendue possible grâce à l’optimisation du modèle PaddleOCR via la bibliothèque TensorRT de NVIDIA, exploitant la puissance des cartes graphiques CUDA et le calcul en précision réduite FP16.
Face à un volume de près d’un million de documents PDF, l’approche traditionnelle de l’OCR s’est avérée trop lente. Les modèles d’IA plus récents, bien que performants pour la compréhension complexe, peinent à maintenir un débit suffisant à grande échelle. TurboOCR vise ainsi à pallier cette limitation, offrant une alternative plus rapide pour l’extraction de texte à partir d’images ou de documents numérisés.
Le développeur a constaté que la version standard de PaddleOCR atteignait environ 15 images par seconde sur une carte RTX 5090, tandis que les modèles VLM (Vision-Language Models) basés sur vLLM étaient encore plus lents, à 2 images par seconde. TurboOCR représente une avancée significative pour le traitement de masse de documents, ouvrant des perspectives pour des applications nécessitant une rapidité accrue.
Source : Reddit r/MachineLearning