Une nouvelle approche, nommée Sub-JEPA, propose une amélioration significative pour LeWorldModel (LeWM), un modèle de monde développé par le groupe de Yann LeCun à l’Université de New York.
Les modèles de monde sont conçus pour apprendre des représentations latentes compactes, facilitant la planification sans nécessiter une reconstruction pixel par pixel. LeWM, en particulier, utilise un entraînement JEPA (Joint Embedding Predictive Architecture) stable, en imposant une distribution gaussienne isotrope sur l’intégralité de son espace latent.
Cependant, cette approche présente une limitation : les dynamiques des environnements réels se manifestent souvent sur des variétés de faible dimension. L’application d’une distribution gaussienne globale de haute dimension s’avère alors trop rigide et mal adaptée à la géométrie intrinsèque des tâches, ce qui explique les difficultés de LeWM sur des tâches à faible dimensionnalité comme « Two-Room ».
La méthode Sub-JEPA, décrite comme une solution simple, permet de corriger cette rigidité, entraînant une amélioration constante des performances du modèle. Cette avancée suggère une meilleure adéquation entre la représentation latente et la complexité réelle des environnements.
Reste à voir comment cette correction influencera le développement futur des modèles de monde et leur capacité à naviguer des environnements complexes.
Source : Reddit r/MachineLearning