Hugging Face et NVIDIA ont dévoilé Nemotron-OCR v2, un modèle de reconnaissance optique de caractères (OCR) multilingue conçu pour une rapidité accrue. Ce modèle s’appuie sur des données synthétiques pour améliorer ses performances, notamment dans la gestion de divers jeux de caractères et de langues.
L’approche repose sur la génération de données d’entraînement artificielles, permettant de pallier le manque de jeux de données réels pour certaines langues ou styles d’écriture. Cette méthode vise à rendre le modèle plus robuste face à des documents variés, allant des factures aux formulaires en passant par des textes manuscrits.
Nemotron-OCR v2 est rendu disponible en open source, facilitant son intégration dans diverses applications nécessitant une extraction d’informations précises et rapides à partir d’images. Son architecture optimisée promet des gains de vitesse significatifs par rapport aux modèles précédents.
La disponibilité de tels outils open source stimule la recherche et le développement dans le domaine de l’OCR, ouvrant la voie à de nouvelles applications dans le traitement automatique de documents et l’accessibilité numérique.
Source : HuggingFace Blog