Une discussion sur Reddit met en lumière la nécessité d’un résumé de performance de fin d’exécution pour l’entraînement PyTorch, capable d’identifier rapidement les goulots d’étranglement.
Pour de nombreuses exécutions PyTorch lentes, la question initiale n’est pas de visualiser chaque événement de trace, mais plutôt de savoir par où commencer le diagnostic. L’objectif est de comprendre où le temps d’étape a été consommé, si l’exécution était limitée par les entrées, par le calcul, ou par des temps d’attente.
Le débat porte sur la conception d’un résumé compact, suffisamment léger pour être exécuté sur chaque tâche, et non uniquement lors d’opérations de profilage dédiées. Un tel rapport devrait également indiquer si les rangs étaient déséquilibrés ou si l’utilisation de la mémoire était stable ou augmentait progressivement.
L’idée est de fournir aux développeurs des informations concises et exploitables pour optimiser leurs modèles sans recourir à des outils de profilage complexes à chaque itération. Cette approche pourrait simplifier l’identification des problèmes de performance dans les pipelines d’apprentissage automatique.
Source : Reddit r/MachineLearning