Le célèbre graphique METR, souvent cité pour évaluer les horizons temporels de l’intelligence artificielle, est sévèrement critiqué pour contenir de nombreuses erreurs. Nathan Witkin, chercheur et rédacteur au Tech and Society Lab de NYU Stern, a publié une analyse accablante dans sa publication Substack, Transformer. Il y affirme qu’il est impossible de tirer des conclusions significatives du benchmark « Long Tasks » de METR.
Selon Witkin, les nombreuses failles de ce benchmark s’accumuleraient probablement de manière imprévisible. Cette situation rend toute interprétation fiable des données caduque. La réponse appropriée à une étude de ce type n’est pas de supposer qu’elle peut être corrigée par des ajustements superficiels.
Cette remise en question fondamentale du graphique METR souligne la complexité et l’importance d’une méthodologie rigoureuse dans l’évaluation des capacités et des projections futures des systèmes d’IA. Elle invite à une vigilance accrue quant aux outils utilisés pour anticiper l’évolution de l’intelligence artificielle.
Source : Reddit r/MachineLearning