Une nouvelle plateforme, Papers with Code, propose désormais une vue d’ensemble des principaux bancs d’essai en reconnaissance optique de caractères (OCR) et des modèles open-source les plus performants, avec liens vers leurs publications et codes associés.
Cette semaine a vu la sortie de deux nouveaux modèles : Unlimited OCR de Baidu, un modèle de 3 milliards de paramètres introduisant une innovation nommée Reference Sliding Window Attention (R-SWA), et OCR 4 de Mistral, accessible via une API.
Ces avancées s’inscrivent dans un effort continu pour améliorer la précision et l’accessibilité des technologies de reconnaissance de texte, un domaine clé pour l’analyse de documents et la numérisation.
Source : Reddit r/MachineLearning