Une nouvelle approche systémique propose de contrer l’injection de prompt, un mode de défaillance persistant des systèmes d’IA, en séparant les canaux d’instruction et de données.
L’injection de prompt représente l’un des modes de défaillance les plus tenaces dans les systèmes de grands modèles de langage (LLM) utilisant des outils, particulièrement dans les flux de travail agentiques où les modèles interagissent avec des sources de données externes. La plupart des stratégies d’atténuation actuelles, telles que le filtrage des entrées ou l’alignement côté modèle, peinent à résoudre le problème en raison de sa nature structurelle.
La stratégie explorée introduit une couche de « middleware » appelée « Sentinel Gateway ». Cette passerelle impose une séparation stricte entre le canal d’instruction et le canal de données, offrant ainsi une solution au niveau du système. Cette approche vise à renforcer la robustesse des interactions des LLM avec leur environnement.
Cette stratégie pourrait redéfinir la manière dont les agents LLM interagissent de manière sécurisée avec leur environnement.
Source : Reddit r/MachineLearning