Censure politique intégrée aux poids du LLM Qwen 3.5

Une analyse technique approfondie révèle que la censure politique est directement intégrée dans les poids du modèle de langage Qwen 3.5, développé par Alibaba Cloud.

Contrairement à de simples couches de garde-fous post-génération, cette censure est une composante fondamentale du comportement appris du modèle. Des chercheurs ont utilisé des techniques d’interprétabilité mécaniste pour identifier des neurones spécifiques responsables de ce filtrage.

Ces « neurones de censure » s’activent lorsque le modèle est confronté à des sujets politiquement sensibles, comme les événements de la place Tiananmen ou des références détournées à des dirigeants. Leur activation conduit le modèle à générer des réponses évasives ou des refus, même pour des requêtes factuelles.

Cette intégration profonde suggère une décision délibérée des développeurs, rendant la censure plus difficile à contourner par simple ingénierie des prompts. La découverte soulève des questions fondamentales sur la neutralité, la transparence et le contrôle idéologique des intelligences artificielles à l’échelle mondiale.

Source : Hacker News (Algolia)

Catégories : Brèves IA
← Article précédentUn outil simplifie l'installation des frameworks IA sur GPU cloudArticle suivant →Google et Blackstone créent un groupe cloud IA de 500 MW

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES