Les coûts d’inférence des grands modèles de langage (LLM) actuels sont jugés insoutenables à long terme, principalement en raison de la dépendance aux GPU et des dépenses liées aux infrastructures cloud.
L’article d’Aditya Patadia souligne que l’exécution de ces modèles, plutôt que leur entraînement initial, représente une part croissante et prohibitive des dépenses. Cette situation est exacerbée par la forte demande en unités de traitement graphique (GPU), dont l’approvisionnement est limité et le coût élevé.
La dépendance aux fournisseurs de services cloud pour l’accès aux GPU entraîne des frais d’utilisation substantiels, notamment les coûts de transfert de données (egress fees) et un risque de verrouillage technologique. La consommation énergétique des LLM ajoute également à la pression financière et environnementale.
Des pistes pour atténuer ces coûts incluent l’adoption de modèles plus petits et spécialisés, l’optimisation par quantification ou distillation, et l’exploration de solutions sur site ou de puces dédiées. La question de la viabilité économique à grande échelle des LLM reste ainsi un défi majeur pour l’industrie.
Source : Hacker News (Algolia)