Une nouvelle approche d’inférence, baptisée Lookahead Sparse Attention (LSA), promet de résoudre le défi de la mémoire GPU pour les modèles de langage traitant des contextes ultra-longs.
Actuellement, les grands modèles de langage (LLM) maintiennent l’intégralité du cache clé-valeur (KV) chargé en mémoire GPU durant le décodage. Cette méthode engendre un goulot d’étranglement significatif, limitant la capacité des LLM à gérer efficacement des contextes d’une longueur extrême.
Proposée dans un rapport Reddit, la Lookahead Sparse Attention (LSA) est un paradigme d’inférence novateur, s’appuyant sur un indexeur de mémoire neuronal intégré à l’architecture DeepSeek-V4. Au lieu de traiter passivement tous les tokens historiques, LSA anticipe proactivement les besoins futurs en contexte. Elle ne conserve alors en mémoire GPU que les fragments KV jugés essentiels à la requête en cours.
Cette méthode permettrait une indexation ultra-rapide des contextes très longs, réduisant drastiquement la consommation de mémoire GPU. En optimisant la gestion du cache KV, LSA pourrait améliorer l’efficacité et la scalabilité des LLM face à des documents ou des conversations de grande envergure.
Cette innovation pourrait ouvrir la voie à des LLM capables de gérer des volumes d’informations sans précédent avec une efficacité accrue.
Source : Reddit r/LocalLLaMA