Un développeur partage sur Reddit son défi de concevoir un pipeline d’intelligence artificielle capable d’analyser des vidéos YouTube longues en temps quasi réel, visant une latence inférieure à 10 secondes.
Actuellement, le processus implique le téléchargement complet de l’audio, sa transcription via Whisper, puis son traitement par un grand modèle de langage (LLM), avant de retourner les résultats. Cette méthode s’avère trop lente, notamment pour des vidéos de 30 minutes, où l’utilisateur doit patienter excessivement.
L’objectif est de transformer ce flux séquentiel en un système de streaming en direct via Server-Sent Events (SSE). Le nouveau pipeline envisagé découperait l’audio à la volée, le ferait passer par Whisper, puis par le LLM, avant de diffuser les informations à l’interface utilisateur. Les questions techniques soulevées concernent notamment la meilleure approche pour le découpage de l’audio sans interrompre les phrases et l’intégration de la détection d’activité vocale (VAD).
Cette initiative illustre la recherche de solutions pour rendre l’interaction avec le contenu vidéo en ligne plus immédiate et dynamique.
Source : Reddit r/MachineLearning