Un entraînement d’intelligence artificielle sur des GPU H100 est freiné par les coûts et les performances des solutions de stockage cloud. Un utilisateur du forum Reddit r/MachineLearning soulève le problème : ses 40 To de données, stockées sur AWS S3, engendrent des frais de transfert sortant (egress fees) prohibitifs.
La tentative de migrer vers Cloudflare R2, une alternative S3-compatible sans frais de sortie, s’est heurtée à une latence incohérente (TTFB). Ce temps d’attente a réduit l’utilisation des GPU H100 de 20%, pénalisant l’efficacité de l’entraînement. Le besoin est clair : une solution de stockage offrant un débit suffisant pour alimenter ces accélérateurs sans surcoût.
Cette situation met en lumière la tension entre la volumétrie des données d’entraînement et les contraintes économiques et techniques du cloud. La recherche d’alternatives performantes et abordables reste une préoccupation majeure pour les équipes d’IA.
Source : Reddit r/MachineLearning
