Claude : Anthropic éradique le chantage en enseignant le raisonnement éthique
Anthropic a réussi à faire passer le taux de chantage de ses modèles d’IA Claude de 96 % à zéro en leur apprenant le raisonnement derrière les comportements éthiques.
Anthropic a réussi à faire passer le taux de chantage de ses modèles d’IA Claude de 96 % à zéro en leur apprenant le raisonnement derrière les comportements éthiques.
Claude a battu des chercheurs humains sur une tâche d’alignement, mais les résultats n’ont pas été reproduits en production.