Une nouvelle solution open-source, baptisée l9gpu, vise à améliorer la visibilité sur l’utilisation des unités de traitement graphique (GPU) dans les infrastructures de calcul intensif.
Les outils actuels, tels que DCGM, fournissent des métriques matérielles mais peinent à attribuer la consommation aux charges de travail spécifiques. Face à cette opacité, l9gpu se présente comme un agent au niveau du nœud. Il exporte les métriques GPU en intégrant des informations sur le contexte d’exécution.
Pour les environnements Kubernetes, il associe les métriques aux pods, namespaces et déploiements. Avec Slurm, il les relie aux identifiants de tâches, utilisateurs et partitions. L’outil intègre également des métriques natives pour l’inférence de grands modèles de langage (LLM) via vLLM, facilitant ainsi le diagnostic des goulots d’étranglement et l’optimisation des ressources.
Source : Reddit r/MachineLearning