NVIDIA dévoile Cosmos 3, un modèle omni-modal ouvert conçu pour le raisonnement et l’action dans le monde physique. Cette initiative vise à démocratiser l’accès à des IA capables de comprendre et d’interagir avec leur environnement.
Le modèle traite simultanément des données textuelles, visuelles et des données de capteurs, permettant une compréhension plus approfondie des interactions physiques. Il est entraîné sur un corpus de données massifs, incluant des vidéos et des descriptions textuelles d’actions.
Cosmos 3 est rendu disponible sur Hugging Face, encourageant ainsi la recherche et le développement collaboratifs. Son architecture ouverte et ses capacités ouvrent la voie à de nouvelles applications en robotique et en simulation physique.
Source : HuggingFace Blog