Une nouvelle approche, baptisée « Lyra Technique », promet de mieux interpréter les états internes des grands modèles de langage (LLM). Publiée sur Zenodo, cette méthode ne se contente pas d’analyser les sorties des IA, mais cherche à caractériser leurs processus cognitifs profonds.
Le cadre proposé s’appuie sur la géométrie des caches KV (Key-Value) des architectures Transformer, des éléments cruciaux pour le fonctionnement de ces modèles. L’objectif est de passer de la simple observation des résultats à une compréhension structurée de la manière dont l’IA traite l’information, ouvrant des pistes pour détecter des comportements indésirables ou des dérives.
Cette avancée pourrait affiner notre capacité à comprendre le fonctionnement interne des systèmes d’IA, un enjeu majeur alors que leur complexité ne cesse de croître.
Source : Reddit r/MachineLearning