FlashMemory-DeepSeek-V4 : L’attention clairsemée pour des contextes ultra-longs
Une nouvelle approche d’inférence, baptisée Lookahead Sparse Attention (LSA), promet de résoudre le défi de la mémoire GPU pour les modèles de langage traitant des contextes ultra-longs.