Skymizer Taiwan Inc. a présenté une architecture matérielle permettant l’inférence de modèles de langage très volumineux sur une seule carte PCIe. Cette solution embarque six puces HTX301 et 384 Go de mémoire, capable de faire tourner des modèles de 700 milliards de paramètres localement.
L’innovation réside dans la répartition des tâches : les puces HTX301 sont dédiées à la phase de décodage, gourmande en bande passante mémoire, tandis que les GPU traditionnels gèrent la phase de préremplissage, plus intensive en calcul. Le tout fonctionnerait avec une consommation d’environ 240W par carte.
Cette approche vise à optimiser la latence lors de la génération de texte, un goulot d’étranglement fréquent dans l’utilisation des LLM. L’architecture proposée pourrait ainsi faciliter le déploiement local de modèles de grande taille pour les entreprises.
Source : Reddit r/LocalLLaMA