Un nouveau modèle d’IA, DVD-JEPA, basé sur l’architecture JEPA, propose une approche novatrice pour l’apprentissage de modèles du monde à partir de vidéos.
Actuellement en vogue sur paperswithcode.co dans la catégorie « Détection d’anomalies », DVD-JEPA est un modèle du monde open-source et entièrement reproductible. Il s’appuie sur la Joint-Embedding Predictive Architecture (JEPA), introduite par Yann LeCun en 2022.
Contrairement aux tentatives classiques qui prédisent les pixels de la prochaine image, souvent noyées dans des détails imprévisibles, JEPA parie sur la prédiction de la représentation du futur. Cette méthode permet à l’encodeur d’ignorer les informations fondamentalement imprévisibles.
En se concentrant sur les aspects essentiels et structuraux des données vidéo plutôt que sur chaque pixel, DVD-JEPA vise une meilleure robustesse et une plus grande efficacité. Cette direction de recherche ouvre des perspectives pour des systèmes d’IA plus performants dans l’interprétation des environnements dynamiques.
Source : Reddit r/MachineLearning