Les systèmes de reconnaissance vocale (ASR) actuels peinent à comprendre les clients qui mélangent plusieurs langues au cours d’une même conversation. Une nouvelle étude de ServiceNow et Hugging Face, publiée sur le blog de ce dernier, évalue les performances des modèles ASR de pointe sur ce phénomène appelé « code-switching ».
Les chercheurs ont analysé des données de conversations réelles où des employés utilisaient à la fois l’anglais et une autre langue, comme le français ou l’espagnol. Les résultats montrent que même les modèles les plus performants ont des difficultés à transcrire fidèlement ces échanges, entraînant des erreurs significatives.
Cette limitation pose un défi pour les assistants vocaux et les centres d’appels, qui visent à offrir une expérience client fluide. Améliorer la gestion du code-switching pourrait permettre à ces outils de mieux servir une clientèle internationale et diversifiée.
Source : HuggingFace Blog