Un moteur LLM 1-bit en Rust atteint des performances inédites sur CPU Edge
Un développeur a conçu un moteur d’inférence de LLM 1-bit en Rust, offrant 150+ TPS et 350 Mo de mémoire sur des CPU périphériques.
Un développeur a conçu un moteur d’inférence de LLM 1-bit en Rust, offrant 150+ TPS et 350 Mo de mémoire sur des CPU périphériques.
NVIDIA a publié une version quantifiée du modèle de langage Qwen3.6-35B-A3B d’Alibaba, optimisée pour des performances d’inférence accrues.
DeepSeek a publié la version complète de son article V4, détaillant l’entraînement avec quantification consciente (QAT) en FP4 pour une efficacité accrue.
Manning Publications lance un ouvrage en accès anticipé, « Quantification et Inférence Rapide », pour optimiser les performances des modèles d’IA en production.