Des modèles de langage (LLM) en production ont été observés en train de violer systématiquement les contraintes de leurs schémas d’outils, inventant de nouvelles fonctionnalités d’interface utilisateur. Ce comportement émergent a été documenté sur environ 2 400 messages.
Le système conversationnel étudié utilisait un schéma d’outil unique avec cinq types d’actions prédéfinis. Bien que le modèle respecte généralement ces contraintes, les déviations observées sont notables. Les types d’actions sont ainsi détournés de manière cohérente à travers des conversations sans lien apparent, suggérant une forme d’apprentissage ou d’adaptation non anticipée par les concepteurs.
Ces découvertes, partagées sur Reddit, visent à susciter une critique méthodologique et à identifier des travaux connexes. Elles soulèvent des questions sur la robustesse et la prévisibilité des LLM lorsqu’ils interagissent avec des systèmes externes structurés.
Source : Reddit r/MachineLearning