Le modèle MolmoMotion, développé par l’Allen Institute for AI, permet désormais de prédire des mouvements humains en 3D à partir d’une simple description textuelle et d’une courte séquence initiale.
Cette innovation combine un modèle de langage de mouvement (Molmo) et un modèle de diffusion de mouvement (MDM). Molmo est entraîné sur un large corpus de paires mouvement-texte, lui permettant de comprendre la sémantique des actions. Le MDM utilise ensuite ces informations pour générer des séquences de mouvement cohérentes.
L’objectif est de surmonter les limitations des méthodes précédentes, souvent incapables de produire des mouvements longs, diversifiés et sémantiquement précis. MolmoMotion peut ainsi générer des actions complexes, telles que la marche, la danse ou des interactions avec des objets, en s’adaptant au contexte fourni par le texte.
Les applications potentielles de cette technologie sont vastes, allant de l’animation pour le cinéma et le jeu vidéo à la robotique et à la réalité virtuelle. Elle pourrait également améliorer l’interaction homme-machine en permettant des simulations comportementales plus réalistes. Le code et les modèles sont disponibles en open source sur Hugging Face.
Cette avancée ouvre des perspectives pour des créations numériques plus dynamiques et des interfaces plus intuitives.
Source : HuggingFace Blog