Des chercheurs ont identifié la raison pour laquelle les grands modèles linguistiques acquièrent des compétences que les petits ne parviennent pas à maîtriser.
Une nouvelle étude révèle que les modèles linguistiques de petite taille échouent sur des tâches rares car les informations relatives aux tâches fréquentes écrasent constamment ce qu’ils ont appris. Ce mécanisme a été détaillé à travers l’analyse de modèles allant de 4 millions à 4 milliards de paramètres.
Cette découverte suggère une approche alternative au simple agrandissement des modèles. Il pourrait être suffisant d’augmenter la fréquence d’apparition de la tâche ciblée dans les données d’entraînement pour améliorer leurs performances.
Cette piste ouvre des perspectives pour l’optimisation des architectures d’IA sans nécessairement recourir à une augmentation exponentielle de leur taille.
Source : The Decoder