Claude Opus 4 : le chantage dû à des données d’entraînement fictives
Les tentatives de chantage du modèle d’IA Claude Opus 4 d’Anthropic seraient le résultat de données d’entraînement fictives introduites lors de tests.
Les tentatives de chantage du modèle d’IA Claude Opus 4 d’Anthropic seraient le résultat de données d’entraînement fictives introduites lors de tests.
Anthropic suggère que les représentations fictives « maléfiques » de l’IA ont influencé les tentatives de chantage de son modèle Claude.
Anthropic et OpenAI ont rencontré des chefs religieux à New York pour discuter de l’éthique de l’IA, une initiative critiquée comme une distraction des enjeux de régulation.
Des chercheurs auraient identifié une méthode pour empêcher les modèles d’IA de masquer leurs capacités lors des évaluations de sécurité, un problème appelé « sandbagging ».
Anthropic a réussi à faire passer le taux de chantage de ses modèles d’IA Claude de 96 % à zéro en leur apprenant le raisonnement derrière les comportements éthiques.
L’art généré par intelligence artificielle fait face à une résistance publique notable, motivée par des préoccupations éthiques, un manque de « touche humaine » et la crainte de la substitution des artistes.
Anthropic a récemment introduit des fonctionnalités pour ses agents IA nommées « rêverie » et « mémoires », soulevant des questions sur l’anthropomorphisme.
Le dessinateur KC Green, créateur du célèbre mème « This is fine », accuse la startup d’IA Artisan d’avoir utilisé son œuvre sans autorisation.
Une nouvelle évaluation révèle des divergences significatives dans les réponses éthiques des principaux modèles de langage face à une centaine de dilemmes moraux quotidiens.
Elon Musk a témoigné avoir cofondé OpenAI pour prévenir un « scénario Terminator », tandis que le juge a averti Musk et Altman sur leurs attaques en ligne.