Dans une expérience contrôlée, neuf instances autonomes de Claude ont surpassé de manière spectaculaire des chercheurs humains sur une tâche d’alignement. Ces travaux, menés par Anthropic, visaient à évaluer la capacité de l’IA à résoudre des problèmes complexes liés à son propre développement.
Cependant, lorsque l’entreprise a tenté de reproduire cette méthode gagnante sur ses modèles de production, l’effet observé a disparu. Ce phénomène soulève des questions sur la reproductibilité des performances des grands modèles de langage et la complexité de leur alignement.
L’incident met en lumière les défis persistants dans la compréhension et le contrôle des IA avancées, même par leurs créateurs.
Source : The Decoder