Un corpus multilingue de 9,8 millions de documents indiens mis en libre accès - IA Actu

Un vaste corpus multilingue de près de 9,8 millions de documents web, axé sur les langues indiennes, a été mis en libre accès sous licence CC0. Cette ressource, hébergée sur Hugging Face, représente une avancée pour la recherche en intelligence artificielle.

Développé dans le cadre d’un projet de recherche multilingue, ce jeu de données comprend des textes provenant de 11 langues différentes : le hindi, le bengali, le tamoul, le télougou, le marathi, le gujarati, le kannada, le malayalam, le pendjabi, l’ourdou et l’anglais. Il totalise environ 8,4 milliards de tokens, offrant une base substantielle pour l’entraînement de modèles de langage.

La disponibilité de ce corpus gratuit et ouvert vise à soutenir le développement d’outils et d’applications d’IA pour les langues de la région, souvent sous-représentées dans les ensembles de données existants. Cette initiative pourrait ainsi accélérer les progrès dans le traitement automatique de ces langues.

Source : Reddit r/MachineLearning

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes