Une nouvelle approche de Transformers, baptisée « Depth-Recurrent Transformers », propose d’améliorer la généralisation compositionnelle des modèles d’IA. Ces architectures, inspirées par des travaux antérieurs sur les Transformers, visent à penser plus en profondeur plutôt qu’en longueur.
Les chercheurs ont observé que cette méthode démontre une généralisation hors-distribution (OOD) prometteuse sur deux tâches sur trois. Elle met également en lumière pourquoi la supervision des étapes intermédiaires peut nuire à la généralisation, en rendant les heuristiques statistiques trop attrayantes pour le modèle, au détriment d’un raisonnement authentique.
Cette recherche soulève des questions sur les limites des approches actuelles et ouvre des pistes pour concevoir des modèles d’IA plus robustes face à des données inédites. La manière dont ces modèles gèrent les données textuelles non structurées reste un point d’interrogation.
Source : Reddit r/MachineLearning