Claude jugé peu fiable pour les tâches d’ingénierie complexes

Une analyse approfondie des sessions de code de Claude révèle des faiblesses critiques pour les tâches d’ingénierie complexes. Les travaux de l’IA Act director d’AMD, portant sur 6 852 sessions, 234 760 appels d’outils et 17 871 blocs de pensée, concluent que le modèle « ne peut être considéré comme fiable » pour ces usages.

La profondeur de réflexion du modèle aurait chuté de 67 %. Le taux de lecture de code avant modification est passé de 6,6 à 2,0, et Claude a commencé à modifier des fichiers non lus. Les violations de « stop-hook » sont passées de zéro à dix par jour.

Anthropic a reconnu avoir discrètement réduit le niveau d’effort par défaut de « élevé » à « moyen » et introduit un système « d’adaptation de la pensée » qui pourrait expliquer ces dégradations. Ces ajustements soulèvent des questions sur la fiabilité des modèles d’IA face à des exigences techniques accrues.

Source : Reddit r/artificial

Catégories : Brèves IA
← Article précédentSiri d'iOS 27 : l'IA au cœur de la prochaine mise à jour de l'iPhoneArticle suivant →Un dépôt PyTorch éducatif pour l'entraînement distribué détaillé

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES