ONNX Runtime surpasse Hugging Face pour l’inférence CPU de Parakeet TDT

Une récente étude comparative sur Reddit a révélé qu’ONNX Runtime offre une performance d’inférence CPU significativement plus rapide que les Transformers de Hugging Face pour le modèle de reconnaissance vocale Parakeet TDT 0.6B. Ce résultat inattendu met en lumière le potentiel d’optimisation sur matériel sans GPU.

Le benchmark a été mené sur une configuration modeste, comprenant deux vCPU x86-64 avec support AVX2/FMA et 7,7 Go de RAM, sans aucune carte graphique dédiée. L’audio testé était un extrait de 16,78 secondes de phrases de Harvard, échantillonné à 16 kHz en mono. Trois approches d’inférence ont été comparées : HF Transformers en bfloat16, ONNX Runtime en FP32 (via onnx-asr) et GGUF Q6_K (avec parakeet.cpp).

Les données montrent qu’ONNX Runtime a atteint un facteur temps réel (RTF) de 0,328, se positionnant 37% plus vite que HF Transformers (RTF de 0,519). Bien qu’ONNX Runtime ait consommé plus de mémoire vive (2 667 Mo contre environ 430 Mo pour HF Transformers), son efficacité en termes de vitesse sur CPU est notable. GGUF, quant à lui, a présenté un RTF de 0,708 avec une utilisation CPU de près de 100%, mais une consommation mémoire plus contenue (928 Mo).

Ces chiffres suggèrent des compromis importants entre vitesse, consommation mémoire et utilisation des ressources CPU pour l’inférence de modèles d’IA sur des architectures limitées, et pourraient influencer les stratégies de déploiement futures.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentLa Linux Foundation lance une initiative pour standardiser la facturation de l'IAArticle suivant →Google dévoile ses avancées IA de mai 2026

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES