Un développeur a conçu un outil, baptisé « sqz », pour optimiser l’utilisation des tokens par les modèles d’IA lors de tâches impliquant la lecture répétée de fichiers. L’outil s’attaque au gaspillage de tokens causé par la relecture de mêmes contenus, une pratique coûteuse en ressources.
Le principe repose sur un cache de contenu utilisant le hachage SHA-256. La première lecture d’un fichier est traitée normalement. Les lectures subséquentes du même fichier sont remplacées par une référence de 13 tokens seulement, permettant au modèle de langage de conserver sa compréhension tout en économisant massivement les ressources.
Selon les retours de son créateur, cette méthode a permis de réduire la consommation de tokens de 10 000 à 1 400 pour cinq lectures d’un fichier de 2 000 tokens. Ces sessions de codage assistées par IA utiliseraient ainsi 86 % de tokens en moins pour les tâches gourmandes en lecture de fichiers, ouvrant des perspectives sur l’efficacité des LLM.
Source : Reddit r/MachineLearning