inférence - IA Actu - Actualité Intelligence Artificielle

Les CPU s’affirment comme acteurs clés de la prochaine ère de l’IA

14 juillet 2026

Alors que les GPU ont dominé l’entraînement des modèles d’IA, les CPU sont désormais positionnés pour jouer un rôle prépondérant dans la prochaine phase de l’intelligence artificielle.

Hugging Face intègre vLLM pour une inférence LLM à vitesse native

8 juillet 2026

Hugging Face a intégré vLLM, un moteur d’inférence haute performance, directement dans sa bibliothèque `transformers`, permettant une exécution des modèles à vitesse native.

Etched, concurrent de Nvidia, valorisé à 5 Md$ avec 1 Md$ de ventes

30 juin 2026

Etched, un concurrent de Nvidia, a atteint une valorisation de 5 milliards de dollars et a déjà enregistré 1 milliard de dollars de ventes pour ses puces d’IA.

Hugging Face simplifie le déploiement de serveurs vLLM en une commande

25 juin 2026

Hugging Face permet désormais de déployer des serveurs vLLM pour l’inférence de LLM en une seule commande via sa plateforme Jobs, optimisant ainsi la performance et l’accessibilité.

Manuel ouvert sur l’inférence des LLM à l’échelle : les GPU décortiqués

20 juin 2026

Un manuel ouvert et en cours de rédaction décortique les mécanismes internes de l’inférence des grands modèles de langage (LLM) à l’échelle, incluant les GPU.

La Speculative Decoding accélère la génération de texte des LLM

17 juin 2026

La Speculative Decoding est une technique d’optimisation de l’inférence qui utilise un modèle rapide pour proposer des jetons, vérifiés ensuite en parallèle par un modèle plus grand, accélérant ainsi la génération de texte des LLM.

FlashMemory-DeepSeek-V4 : L’attention clairsemée pour des contextes ultra-longs

11 juin 2026

Une nouvelle approche d’inférence, baptisée Lookahead Sparse Attention (LSA), promet de résoudre le défi de la mémoire GPU pour les modèles de langage traitant des contextes ultra-longs.

Un moteur d’inférence CUDA/C++ pour le modèle 3D de NVIDIA

7 juin 2026

Un nouveau moteur d’inférence en CUDA/C++ pour le modèle 3D Transformer de NVIDIA a été développé, sans dépendances lourdes.

Une DCGAN de 12,6M de paramètres exécutée sur microcontrôleur RISC-V

25 mai 2026

Un développeur a réussi à faire fonctionner une DCGAN de 12,6 millions de paramètres sur un microcontrôleur RISC-V CH32H417, générant des images de chats en 26 secondes.

Optimisation de l’inférence des LLM avec le batching continu asynchrone

14 mai 2026

Hugging Face a introduit le batching continu asynchrone, une innovation qui améliore l’utilisation des GPU et réduit la latence pour les grands modèles de langage.

Rubriques

À propos

Légal

Mes sauvegardes