Performance record : 1000 tps avec Qwen3.6 27B sur V100
Un utilisateur Reddit a atteint 1000 tokens par seconde avec le modèle Qwen3.6 27B sur des GPU V100, démontrant un potentiel d’optimisation significatif.
Un utilisateur Reddit a atteint 1000 tokens par seconde avec le modèle Qwen3.6 27B sur des GPU V100, démontrant un potentiel d’optimisation significatif.
l9gpu, une solution open-source, améliore l’observabilité des GPU en attribuant les métriques aux charges de travail spécifiques.
OpenAI propose aux entreprises de réserver sa puissance de calcul IA sur plusieurs années, face à la pénurie de GPU.
Un nouvel outil nommé `swm` a été développé pour simplifier l’installation et la gestion des frameworks d’IA comme ComfyUI, Ollama et OpenWebUI sur des GPU cloud.
Un nouveau compilateur « hackable » pour modèles d’IA a été développé, promettant des gains de performance significatifs sur GPU face aux solutions existantes comme PyTorch.
La plateforme logicielle CUDA est le pilier de la domination d’Nvidia dans l’IA, créant une barrière concurrentielle plus forte que son matériel.
Une équipe de LabLab AI a démontré la faisabilité de l’entraînement d’un modèle d’IA clinique, MedQA, sur l’architecture ROCm d’AMD, offrant une alternative concrète à l’écosystème CUDA de NVIDIA.
Nvidia n’a vendu aucun GPU H200 à la Chine, Pékin bloquant les importations pour soutenir son industrie locale.
Une nouvelle bibliothèque open source, easyaligner, a été lancée pour l’alignement forcé, offrant une accélération GPU et une normalisation textuelle flexible.
La demande d’IA dépasse la capacité de calcul, provoquant des pannes et une flambée des prix des GPU.