Modèle vocal open source : écoute continue et décision rapide - IA Actu

Un nouveau modèle vocal open source, nommé Audio Interaction, se distingue par sa capacité à écouter en continu et à décider toutes les 0,4 secondes s’il doit interagir ou rester silencieux. Contrairement à des systèmes comme GPT-4o ou Qwen3.5-Omni, il ne requiert pas la fin d’un enregistrement pour traiter l’information.

Ce modèle innovant gère un flux audio unique, capable de traduire, transcrire et dialoguer, tout en détectant des bruits ambiants quotidiens, tels que la toux. Cette intégration en un seul flux marque une évolution dans l’interaction vocale en temps réel.

Le code, les poids du modèle et les instructions de téléchargement sont d’ores et déjà disponibles sur GitHub, sous la licence open source Apache 2.0. Les données d’entraînement seront mises à disposition ultérieurement, renforçant son accessibilité pour la communauté des développeurs.

Cette initiative open source promet d’accélérer l’innovation dans le domaine des interfaces vocales intelligentes.

Source : The Decoder

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes