Un développeur propose une méthode pour limiter la quantité d’informations transmises aux grands modèles linguistiques (LLM) sans recourir aux embeddings ou aux bases de données vectorielles. Le problème rencontré est que les grands dépôts de code dépassent la capacité de contexte des LLM, entraînant des omissions de fichiers et un raisonnement basé sur des données incomplètes.
L’approche expérimentée consiste à extraire uniquement les signaux structurels du code, tels que les fonctions, classes ou routes. Un index léger est ensuite construit pour classer les fichiers pertinents en fonction de la requête, en combinant le chevauchement des tokens et ces signaux structurels.
Cette technique permettrait de réduire le contexte d’environ 80 000 tokens à seulement 2 000, améliorant potentiellement l’efficacité des LLM sur des bases de code complexes. La simplicité de la méthode ouvre des perspectives pour une intégration plus aisée dans les flux de travail existants.
Source : Reddit r/artificial