Un moteur d’inférence CUDA/C++ pour le modèle 3D de NVIDIA
Un nouveau moteur d’inférence en CUDA/C++ pour le modèle 3D Transformer de NVIDIA a été développé, sans dépendances lourdes.
Un nouveau moteur d’inférence en CUDA/C++ pour le modèle 3D Transformer de NVIDIA a été développé, sans dépendances lourdes.
Un développeur a réussi à faire fonctionner une DCGAN de 12,6 millions de paramètres sur un microcontrôleur RISC-V CH32H417, générant des images de chats en 26 secondes.
Hugging Face a introduit le batching continu asynchrone, une innovation qui améliore l’utilisation des GPU et réduit la latence pour les grands modèles de langage.
Hugging Face intègre DeepInfra pour optimiser le déploiement et l’accès aux grands modèles de langage.
Skymizer propose une carte unique pour l’inférence locale de LLM massifs, optimisant la génération de texte.
Google lance cette semaine de nouvelles puces TPU optimisées pour l’inférence IA.
Une nouvelle approche d’attention hybride a permis d’accélérer l’inférence de petits modèles de code jusqu’à 50 fois, tout en maintenant une faible perte de perplexité.