Scenema Audio : Clonage vocal expressif en zero-shot

Scenema.ai a récemment dévoilé Scenema Audio, un modèle de clonage vocal expressif et de génération de parole en « zero-shot », dont les poids et le code d’inférence sont désormais accessibles à la communauté. Ce développement, issu de leur plateforme de production vidéo, marque une avancée dans la synthèse vocale.

L’innovation majeure de Scenema Audio réside dans sa capacité à dissocier l’identité vocale de la performance émotionnelle. Les utilisateurs peuvent décrire précisément l’émotion souhaitée – qu’il s’agisse de la colère, de la tristesse, de l’excitation ou de l’émerveillement d’un enfant – tout en fournissant une référence audio pour définir l’identité de la voix.

Cette méthode permet à n’importe quelle voix de reproduire une vaste gamme d’émotions, même si cette voix n’a jamais été enregistrée avec ces intonations spécifiques auparavant. Le système utilise la référence pour le « qui » et la description textuelle pour le « comment », offrant une flexibilité accrue pour la création de contenus audio dynamiques.

Cette approche pourrait ouvrir de nouvelles perspectives pour la création de contenu audio et vidéo, notamment dans les domaines du doublage ou de l’assistance vocale personnalisée.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentCerebras lève 5,5 milliards de dollars, valorisé à 40 milliardsArticle suivant →La sécurité de l'IA doit aussi protéger l'individu, selon une nouvelle analyse

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES