NVIDIA dévoile Nemotron 3 Nano Omni, un nouveau modèle d’intelligence artificielle conçu pour traiter simultanément et sur de longues séquences des données textuelles, audio et vidéo.
Cette architecture vise à améliorer la compréhension et l’analyse de documents complexes, de conversations audio prolongées ou de flux vidéo, ouvrant la voie à des agents capables d’interagir de manière plus nuancée avec ces différents types d’informations.
Le modèle s’appuie sur des techniques d’attention étendues pour gérer des contextes plus larges, une avancée notable pour les applications nécessitant une mémoire à long terme dans le traitement multimodal.
La disponibilité de tels outils pourrait transformer la manière dont les entreprises exploitent leurs données non structurées, des archives vidéo aux transcriptions d’appels.
Source : HuggingFace Blog