Microsoft Research, en collaboration avec plusieurs universités, a développé Mirage, un modèle mondial de vidéo qui confère une mémoire spatiale persistante aux scènes générées.
Ce nouveau système se distingue par sa capacité à stocker les informations de scène directement dans un espace latent, une méthode plus abstraite et efficace que l’approche traditionnelle des nuages de points basés sur les pixels. Cette innovation permet une représentation plus cohérente de l’environnement virtuel.
L’adoption de cette technique réduit significativement le temps de calcul et la mémoire graphique requise pour la génération vidéo. Mirage maintient ainsi une cohérence spatiale remarquable des scènes, même lors de longs mouvements de caméra, offrant une perspective plus stable et réaliste de l’environnement.
Néanmoins, le modèle présente une limitation : il ne parvient pas encore à suivre de manière fiable les objets en mouvement à travers différents segments d’une vidéo.
Cette avancée promet d’améliorer la création de mondes virtuels dynamiques et la narration visuelle dans les applications d’intelligence artificielle.
Source : The Decoder