Un nouveau manuel ouvert explore les rouages techniques de l’inférence des grands modèles de langage (LLM) à l’échelle.
Ce guide, encore en cours de rédaction, aborde des sujets clés tels que les spécificités internes des GPU, le cache KV, le batching et l’utilisation d’outils optimisés comme vLLM, SGLang et TensorRT-LLM. Il vise à éclaircir les défis liés au déploiement des LLM.
Le chapitre le plus récent se concentre sur l’exécution et la mémoire des GPU. Il explique pourquoi ces unités restent souvent sous-utilisées lors de l’inférence, comment la hiérarchie de la mémoire impacte le débit, et où se situent les véritables goulots d’étranglement.
L’auteur, dans le cadre d’un projet d’apprentissage personnel, intègre des diagrammes Mermaid pour faciliter la compréhension des architectures complexes. Ce travail évolutif est ouvert aux retours de la communauté technique. Cette initiative contribue à une meilleure compréhension des optimisations nécessaires pour l’exploitation des LLM à grande échelle.
Source : Reddit r/MachineLearning