Scenema.ai a récemment dévoilé Scenema Audio, un modèle de clonage vocal expressif et de génération de parole en « zero-shot », dont les poids et le code d’inférence sont désormais accessibles à la communauté. Ce développement, issu de leur plateforme de production vidéo, marque une avancée dans la synthèse vocale.
L’innovation majeure de Scenema Audio réside dans sa capacité à dissocier l’identité vocale de la performance émotionnelle. Les utilisateurs peuvent décrire précisément l’émotion souhaitée – qu’il s’agisse de la colère, de la tristesse, de l’excitation ou de l’émerveillement d’un enfant – tout en fournissant une référence audio pour définir l’identité de la voix.
Cette méthode permet à n’importe quelle voix de reproduire une vaste gamme d’émotions, même si cette voix n’a jamais été enregistrée avec ces intonations spécifiques auparavant. Le système utilise la référence pour le « qui » et la description textuelle pour le « comment », offrant une flexibilité accrue pour la création de contenus audio dynamiques.
Cette approche pourrait ouvrir de nouvelles perspectives pour la création de contenu audio et vidéo, notamment dans les domaines du doublage ou de l’assistance vocale personnalisée.
Source : Reddit r/MachineLearning