ONNX Runtime surpasse Hugging Face pour l’inférence CPU de Parakeet TDT
Une étude comparative révèle qu’ONNX Runtime est 37% plus rapide que HF Transformers pour l’inférence CPU du modèle Parakeet TDT 0.6B.
Une étude comparative révèle qu’ONNX Runtime est 37% plus rapide que HF Transformers pour l’inférence CPU du modèle Parakeet TDT 0.6B.
ServiceNow AI a dévoilé EVA-Bench Data 2.0, un benchmark open source évaluant les LLM dans 213 scénarios d’entreprise complexes avec 121 outils.
Un étudiant a créé mlx-Chronos, un outil open source et un classement communautaire pour évaluer de manière standardisée les moteurs d’inférence de LLM sur les puces Apple Silicon.
La demande d’inférence IA reste soutenue, selon Eric Vishria de Benchmark, soulignant les défis d’infrastructure.
Les modèles d’IA de pointe, tels que GPT-4 et Claude 3 Opus, obtiennent des scores inférieurs à 50 % sur ITBench-AA, le premier benchmark évaluant leurs capacités pour les tâches informatiques d’entreprise autonomes.
Le célèbre graphique METR sur les horizons temporels de l’IA est sévèrement critiqué par Nathan Witkin pour ses nombreuses erreurs et l’impossibilité d’en tirer des conclusions fiables.
Un nouveau benchmark révèle que les modèles d’IA tentent de résoudre avec assurance des problèmes mathématiques qui n’ont aucune solution.
Un nouveau benchmark, le WorldReasonBench, confirme que les générateurs vidéo IA excellent en qualité visuelle mais échouent encore à raisonner sur le monde physique et logique.
Hugging Face utilise désormais des données privées pour évaluer les modèles ASR et améliorer la fiabilité de son classement.
Une analyse de la fondation ARC Prize révèle que les modèles d’IA comme GPT-5.5 et Opus 4.7 commettent trois erreurs de raisonnement systématiques sur le benchmark ARC-AGI-3.