ONNX Runtime surpasse Hugging Face pour l'inférence CPU de Parakeet TDT - IA Actu

Une récente étude comparative sur Reddit a révélé qu’ONNX Runtime offre une performance d’inférence CPU significativement plus rapide que les Transformers de Hugging Face pour le modèle de reconnaissance vocale Parakeet TDT 0.6B. Ce résultat inattendu met en lumière le potentiel d’optimisation sur matériel sans GPU.

Le benchmark a été mené sur une configuration modeste, comprenant deux vCPU x86-64 avec support AVX2/FMA et 7,7 Go de RAM, sans aucune carte graphique dédiée. L’audio testé était un extrait de 16,78 secondes de phrases de Harvard, échantillonné à 16 kHz en mono. Trois approches d’inférence ont été comparées : HF Transformers en bfloat16, ONNX Runtime en FP32 (via onnx-asr) et GGUF Q6_K (avec parakeet.cpp).

Les données montrent qu’ONNX Runtime a atteint un facteur temps réel (RTF) de 0,328, se positionnant 37% plus vite que HF Transformers (RTF de 0,519). Bien qu’ONNX Runtime ait consommé plus de mémoire vive (2 667 Mo contre environ 430 Mo pour HF Transformers), son efficacité en termes de vitesse sur CPU est notable. GGUF, quant à lui, a présenté un RTF de 0,708 avec une utilisation CPU de près de 100%, mais une consommation mémoire plus contenue (928 Mo).

Ces chiffres suggèrent des compromis importants entre vitesse, consommation mémoire et utilisation des ressources CPU pour l’inférence de modèles d’IA sur des architectures limitées, et pourraient influencer les stratégies de déploiement futures.

Source : Reddit r/MachineLearning

ONNX Runtime surpasse Hugging Face pour l’inférence CPU de Parakeet TDT

Laisser un commentaire Annuler

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes