Anthropic modifie sa politique concernant la réduction discrète des capacités de son modèle d’IA, Claude Fable 5, et s’engage désormais à notifier les utilisateurs en cas de suspicion d’utilisation pour développer une IA de pointe. L’entreprise avait initialement mis en place des « garde-fous » qui pouvaient silencieusement limiter les performances de Claude si elle détectait une tentative de création d’une intelligence artificielle très performante, une approche qualifiée de « nerfing silencieux ».
Dans une déclaration à Wired, Anthropic a reconnu avoir fait « le mauvais compromis » et s’est excusée de ne pas avoir « trouvé le bon équilibre ». Désormais, si l’entreprise suspecte un utilisateur de vouloir construire une IA très capable, elle l’alertera en refusant la requête ou en la redirigeant vers d’autres options.
Cette décision marque un changement significatif dans la transparence des développeurs d’IA vis-à-vis de leurs utilisateurs, soulevant des questions sur l’équilibre entre sécurité et liberté d’expérimentation.
Source : Reddit r/MachineLearning