Les grands modèles linguistiques (LLM) font face à un dilemme central concernant leur adaptation continue : choisir entre une mise à jour profonde de leurs paramètres ou un apprentissage contextuel plus superficiel.
L’entraînement des LLM pour des tâches spécifiques, souvent via le renforcement, implique une modification de leurs paramètres. Cette approche permet des gains de performance significatifs, mais elle peut aussi provoquer un « oubli catastrophique » et une perte de plasticité, les modèles absorbant des informations trop spécifiques.
À l’inverse, l’apprentissage in-context, qui utilise des paramètres fixes (par exemple, l’optimisation des prompts), offre une adaptation rapide et économique. Toutefois, cette méthode ne parvient généralement pas à égaler les gains de performance obtenus par la mise à jour des paramètres du modèle.
Cette dualité met en lumière une tension inhérente à la conception des LLM adaptatifs. La recherche explore comment intégrer les avantages de ces deux modes d’apprentissage pour développer des modèles capables d’évoluer de manière plus robuste et continue.
Source : Reddit r/MachineLearning