Un ingénieur logiciel expérimenté a récemment opté pour une configuration double d’Asus Ascent GX10 afin d’exécuter des grands modèles de langage (LLM) localement. Cette décision fait suite à l’insuffisance d’une seule machine pour ses exigences en matière de codage agentique.
L’objectif de cet ingénieur, fort de 15 ans d’expérience, était de se rapprocher des performances d’un modèle comme « Opus 4.5 » pour ses tâches. Il a testé divers modèles tels que Qwen 3.5 122B-A10B, Qwen3-Coder-Next ou M2.5-REAP sur une seule unité de 128 Go, mais les résultats n’ont pas été satisfaisants. Cette expérience souligne les défis techniques et les besoins en ressources considérables pour l’inférence locale de LLM avancés.
L’investissement total pour cette configuration s’élève à 5360 euros, incluant le premier Asus Ascent GX10 à 2800 euros, le second à 2500 euros, et 60 euros pour un câble de connexion. Cette démarche illustre la volonté de certains professionnels de contourner les fournisseurs de cloud pour des raisons de coût ou de contrôle, en privilégiant des solutions sur site. Elle pose la question de l’équilibre entre la puissance de calcul locale et l’accessibilité des services cloud pour les applications d’IA les plus exigeantes.
Source : Reddit r/LocalLLaMA