Un vaste corpus multilingue de près de 9,8 millions de documents web, axé sur les langues indiennes, a été mis en libre accès sous licence CC0. Cette ressource, hébergée sur Hugging Face, représente une avancée pour la recherche en intelligence artificielle.
Développé dans le cadre d’un projet de recherche multilingue, ce jeu de données comprend des textes provenant de 11 langues différentes : le hindi, le bengali, le tamoul, le télougou, le marathi, le gujarati, le kannada, le malayalam, le pendjabi, l’ourdou et l’anglais. Il totalise environ 8,4 milliards de tokens, offrant une base substantielle pour l’entraînement de modèles de langage.
La disponibilité de ce corpus gratuit et ouvert vise à soutenir le développement d’outils et d’applications d’IA pour les langues de la région, souvent sous-représentées dans les ensembles de données existants. Cette initiative pourrait ainsi accélérer les progrès dans le traitement automatique de ces langues.
Source : Reddit r/MachineLearning