Une nouvelle approche, baptisée couplage résiduel (Residual Coupling – RC), permet de connecter des modèles de langage (LLM) pré-entraînés en parallèle sans modifier leurs poids fondamentaux, ouvrant la voie à une mise à l’échelle horizontale innovante.
Cette méthode repose sur l’utilisation de petites projections linéaires apprises, fonctionnant comme des « ponts ». Ces éléments lisent les états cachés d’un modèle et injectent des mises à jour additives directement dans le flux résiduel d’un autre modèle, à des couches intermédiaires. Ce mécanisme vise à établir une connexion efficace entre des LLM figés.
Dans les configurations bilatérales, des ponts de retour simultanés sont mis en place, formant une boucle de rétroaction. Cette boucle a pour effet de stabiliser les flux d’informations entre les modèles sans nécessiter d’altération des poids de base des LLM. L’architecture introduit ainsi un paradigme en deux étapes, où les modèles de base sont désignés comme des « mémoriseurs ».
Cette innovation suggère une voie prometteuse pour l’extension des capacités des LLM, en dissociant la fonction de mémorisation des modèles principaux de l’intégration dynamique des informations via des composants légers et modulaires.
Source : Reddit r/MachineLearning