Google a dévoilé Gemini Omni, un nouveau modèle multimodal capable de transformer texte, images et audio en vidéo, marquant une avancée significative dans la génération de contenu assistée par IA.
Ce modèle innovant raisonne à travers divers formats – texte, images, audio et vidéo – pour générer et éditer des séquences vidéo via de simples conversations. Sa première application concrète est Omni Flash, illustrant sa capacité à interpréter et synthétiser des informations complexes issues de multiples sources pour créer des productions visuelles dynamiques et cohérentes.
L’intégration de ces capacités multimodales ouvre de nouvelles perspectives pour la création de contenu, permettant aux utilisateurs de produire des vidéos plus facilement et intuitivement. Cette approche conversationnelle simplifie considérablement le processus, rendant la génération vidéo accessible à un public plus large, des créateurs individuels aux professionnels du média.
L’évolution de Gemini Omni suggère une future intégration plus poussée des interactions multimodales dans les outils de production numérique, redéfinissant potentiellement les méthodes de création.
Source : TechCrunch AI