« Signals » : une méthode légère pour analyser les traces d’agents
Katanemo Labs a présenté « Signals », une nouvelle approche pour identifier les traces d’agents les plus informatives sans juges LLM coûteux.
Katanemo Labs a présenté « Signals », une nouvelle approche pour identifier les traces d’agents les plus informatives sans juges LLM coûteux.
DeepSeek a publié la version complète de son article V4, détaillant l’entraînement avec quantification consciente (QAT) en FP4 pour une efficacité accrue.
Une discussion sur Reddit explore la conception d’un résumé de performance de fin d’exécution pour l’entraînement PyTorch, visant à identifier rapidement les goulots d’étranglement.
Manning Publications lance un ouvrage en accès anticipé, « Quantification et Inférence Rapide », pour optimiser les performances des modèles d’IA en production.
Un nouveau routeur IA, Followloop, achemine intelligemment les requêtes vers les modèles les plus économiques, réduisant les coûts.
Une étude comparative de 18 grands modèles de langage pour l’OCR révèle que des modèles plus anciens ou moins coûteux surpassent fréquemment les plus récents.
Un développeur a entraîné un réseau neuronal directement sur l’unité matricielle de l’Apple Neural Engine, atteignant une vitesse 6,3 fois supérieure à PyTorch.
La startup Parasail a levé 32 millions de dollars en série A, pariant sur l’optimisation des jetons pour le calcul IA dans un avenir fragmenté.
Un nouvel outil, « sqz », optimise l’usage des tokens par l’IA en remplaçant les lectures répétées de fichiers par de courtes références.
Une nouvelle approche nommée ParetoBandit a été présentée, visant à optimiser le routage adaptatif des requêtes pour les modèles de langage de grande taille (LLM) dans des environnements dynamiques.