Le projet open-source MemPalace a récemment fait sensation avec des affirmations de performances exceptionnelles sur des benchmarks de mémoire, bien que ses propres documents tempèrent ces résultats.
Lancé hier, MemPalace, un nouveau projet de mémoire open-source, a revendiqué « 100% sur LoCoMo » et « le premier score parfait jamais enregistré sur LongMemEval », avec 500 questions sur 500 et 100% dans chaque catégorie. Ces annonces ont propulsé son tweet de lancement à plus de 1,5 million de vues et son dépôt GitHub à plus de 7 000 étoiles en moins de 24 heures.
L’aspect notable de cette annonce réside dans le fait que le fichier BENCHMARKS.md du projet lui-même détaille pourquoi ces chiffres sont à nuancer. Ce document interne explique en quoi ces scores, bien que présentés comme parfaits, ne sont pas significatifs dans leur contexte initial.
Cette situation met en lumière les défis de l’évaluation des performances en IA et la nécessité d’une transparence accrue dans la présentation des résultats. La communauté de l’IA continue d’examiner comment les projets peuvent communiquer efficacement leurs avancées tout en maintenant une rigueur scientifique.
Source : Reddit r/MachineLearning