La méthode actuelle d’évaluation des grands modèles de langage (LLM) et des agents conversationnels par les laboratoires de pointe est remise en question pour son coût en ressources et son efficacité.
Une discussion sur Reddit, au sein de la communauté r/MachineLearning, met en lumière les préoccupations concernant les pratiques de benchmarking. Les laboratoires de recherche de pointe développent de nouveaux modèles, puis configurent des bancs d’essai complexes pour exécuter des suites d’évaluation massives. L’objectif principal de ces démarches est souvent de démontrer des améliorations marginales de performance, soulevant des interrogations sur la pertinence de cette approche.
Cette méthodologie soulève des préoccupations quant au gaspillage de ressources considérables. L’auteur de la discussion s’inquiète d’un échange de « carbone contre confiance », où des efforts importants sont déployés pour des gains minimes. Il est suggéré que cette course aux benchmarks pourrait détourner l’attention de l’innovation réelle au profit d’optimisations incrémentales. Les récentes évaluations du modèle Gemini sont citées comme un exemple de cette tendance.
Cette critique invite à une réflexion approfondie sur des méthodes d’évaluation plus efficientes et moins gourmandes en énergie pour l’avenir du développement des LLM et des systèmes agentiques.
Source : Reddit r/MachineLearning