Claude jugé peu fiable pour les tâches d'ingénierie complexes - IA Actu

Une analyse approfondie des sessions de code de Claude révèle des faiblesses critiques pour les tâches d’ingénierie complexes. Les travaux de l’IA Act director d’AMD, portant sur 6 852 sessions, 234 760 appels d’outils et 17 871 blocs de pensée, concluent que le modèle « ne peut être considéré comme fiable » pour ces usages.

La profondeur de réflexion du modèle aurait chuté de 67 %. Le taux de lecture de code avant modification est passé de 6,6 à 2,0, et Claude a commencé à modifier des fichiers non lus. Les violations de « stop-hook » sont passées de zéro à dix par jour.

Anthropic a reconnu avoir discrètement réduit le niveau d’effort par défaut de « élevé » à « moyen » et introduit un système « d’adaptation de la pensée » qui pourrait expliquer ces dégradations. Ces ajustements soulèvent des questions sur la fiabilité des modèles d’IA face à des exigences techniques accrues.

Source : Reddit r/artificial

Claude jugé peu fiable pour les tâches d’ingénierie complexes

Laisser un commentaire Annuler

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes