Une étude menée par AllenAI et publiée sur le blog HuggingFace révèle que les modèles de langage hybrides prédisent différemment les sous-mots et les mots entiers selon leur contexte.
Ces modèles, qui combinent la prédiction de sous-mots (comme les suffixes grammaticaux) et de mots complets, montrent une meilleure performance pour les sous-mots lorsqu’ils sont des parties courantes de mots ou des éléments morphologiques. À l’inverse, les mots entiers sont mieux prédits s’ils sont rares, hors vocabulaire ou spécifiques à un domaine particulier.
Cette distinction suggère que les grands modèles de langage (LLM) emploient des stratégies de traitement distinctes : un traitement plus morphologique pour les sous-mots et un traitement plus sémantique pour les mots rares ou spécialisés. Comprendre cette dualité est crucial pour optimiser l’efficacité et la précision des modèles.
Ces découvertes pourraient orienter le développement de nouvelles architectures ou de stratégies de tokenisation plus adaptées, ouvrant la voie à des LLM plus performants et plus nuancés dans leur compréhension du langage.
Source : HuggingFace Blog