Un développeur a créé un moteur d’inférence de modèles de langage (LLM) 1-bit natif en Rust pur, atteignant des performances élevées et une faible empreinte mémoire sur des processeurs périphériques.
Ce projet répond à l’intérêt académique croissant pour la quantification 1-bit et des architectures comme BitNet (1.58b), visant à optimiser les LLM pour les environnements à ressources limitées. L’objectif était de transformer ces concepts théoriques en une solution prête pour la production.
Le développeur a contourné les frameworks traditionnels tels que PyTorch, llama.cpp, BLAS et CUDA. Il a bâti un moteur d’inférence personnalisé, sans dépendances externes, capable d’exécuter des modèles 1-bit et ternaires directement sur des CPU périphériques standards. Les résultats sont notables : plus de 150 requêtes par seconde (TPS) et une consommation mémoire de seulement 350 Mo.
Cette approche pourrait étendre significativement les capacités des LLM sur du matériel contraint.
Source : Reddit r/MachineLearning