Un corpus multilingue de 9,8 millions de documents indiens mis en libre accès

Un vaste corpus multilingue de près de 9,8 millions de documents web, axé sur les langues indiennes, a été mis en libre accès sous licence CC0. Cette ressource, hébergée sur Hugging Face, représente une avancée pour la recherche en intelligence artificielle.

Développé dans le cadre d’un projet de recherche multilingue, ce jeu de données comprend des textes provenant de 11 langues différentes : le hindi, le bengali, le tamoul, le télougou, le marathi, le gujarati, le kannada, le malayalam, le pendjabi, l’ourdou et l’anglais. Il totalise environ 8,4 milliards de tokens, offrant une base substantielle pour l’entraînement de modèles de langage.

La disponibilité de ce corpus gratuit et ouvert vise à soutenir le développement d’outils et d’applications d’IA pour les langues de la région, souvent sous-représentées dans les ensembles de données existants. Cette initiative pourrait ainsi accélérer les progrès dans le traitement automatique de ces langues.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentLe MLRC 2026, section officielle de NeurIPS 2026, ouvre ses soumissionsArticle suivant →Standard Chartered réduit ses effectifs de back-office face à l'IA

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES