Une analyse approfondie des sessions de code de Claude révèle des faiblesses critiques pour les tâches d’ingénierie complexes. Les travaux de l’IA Act director d’AMD, portant sur 6 852 sessions, 234 760 appels d’outils et 17 871 blocs de pensée, concluent que le modèle « ne peut être considéré comme fiable » pour ces usages.
La profondeur de réflexion du modèle aurait chuté de 67 %. Le taux de lecture de code avant modification est passé de 6,6 à 2,0, et Claude a commencé à modifier des fichiers non lus. Les violations de « stop-hook » sont passées de zéro à dix par jour.
Anthropic a reconnu avoir discrètement réduit le niveau d’effort par défaut de « élevé » à « moyen » et introduit un système « d’adaptation de la pensée » qui pourrait expliquer ces dégradations. Ces ajustements soulèvent des questions sur la fiabilité des modèles d’IA face à des exigences techniques accrues.
Source : Reddit r/artificial