Nvidia publie Kimi-K2.6 et Kimi-2.5, des modèles linguistiques optimisés
Nvidia publie les modèles Kimi-K2.6 et Kimi-2.5, des versions quantifiées de Kimi-K2.6 de Moonshot AI.
Nvidia publie les modèles Kimi-K2.6 et Kimi-2.5, des versions quantifiées de Kimi-K2.6 de Moonshot AI.
Hugging Face a introduit le batching continu asynchrone, une innovation qui améliore l’utilisation des GPU et réduit la latence pour les grands modèles de langage.
Hugging Face a publié un guide technique expliquant comment construire et optimiser l’infrastructure AWS pour l’entraînement et l’inférence de modèles de fondation.
ExLlamaV3 intègre des optimisations majeures, dont le support DFlash, pour accélérer l’inférence des grands modèles de langage.
Un nouveau système nommé MachinaCheck utilise l’IA multi-agents sur des puces AMD MI300X pour évaluer la fabricabilité de pièces destinées aux machines CNC.
OncoAgent est un nouveau cadre d’IA multi-agent conçu pour assister la décision clinique en oncologie tout en assurant la confidentialité des données patientes.
Le modèle CyberSecQwen-4B, petit et spécialisé, offre une solution d’IA locale pour renforcer la cybersécurité défensive, répondant aux enjeux de confidentialité et de ressources.
Une nouvelle architecture d’IA, EMO, présentée par AllenAI sur HuggingFace, démontre une capacité inédite à développer une modularité spontanée lors du pré-entraînement.
Une équipe de LabLab AI a démontré la faisabilité de l’entraînement d’un modèle d’IA clinique, MedQA, sur l’architecture ROCm d’AMD, offrant une alternative concrète à l’écosystème CUDA de NVIDIA.
L’entreprise taïwanaise Skymizer a annoncé la carte d’inférence PCIE HTX301, dotée de 384 Go de mémoire et consommant environ 240 Watts, une innovation majeure pour l’IA locale.