Chatterbox TTS étend son support à 8 langues indiennes via LoRA

Le modèle de synthèse vocale open-source Chatterbox-Multilingual de Resemble AI a été étendu pour prendre en charge huit langues indiennes supplémentaires grâce à une méthode de fine-tuning efficace.

Initialement, Chatterbox-Multilingual offrait un clonage vocal zéro-shot pour 23 langues, mais manquait de couverture pour les langues dravidiennes (télougou, kannada, tamoul, malayalam) et présentait une couverture limitée des langues indo-aryennes au-delà de l’hindi. Cette lacune affectait plus de 500 millions de locuteurs.

L’intégration de ces nouvelles langues – télougou, kannada, bengali, tamoul, malayalam, marathi, gujarati et hindi – a été réalisée en utilisant des adaptateurs LoRA (Low-Rank Adaptation) et une extension du tokenizer. Ce processus n’a nécessité l’entraînement que de 7,8 millions de paramètres sur un total de 544 millions, soit environ 1,4 % des paramètres du modèle, sans ingénierie phonémique complexe.

Cette approche démontre l’efficacité des méthodes d’adaptation légères pour étendre les capacités des modèles de langage existants à de nouvelles langues, ouvrant la voie à une plus grande diversité linguistique dans les applications d’intelligence artificielle. Les modèles et des échantillons audio sont désormais disponibles, illustrant le potentiel de cette avancée.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentLes valorisations d'Anthropic et OpenAI bousculent les investisseursArticle suivant →Comment créer un agent IA avec Claude : tutoriel pas à pas

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES