Une analyse technique approfondie révèle que la censure politique est directement intégrée dans les poids du modèle de langage Qwen 3.5, développé par Alibaba Cloud.
Contrairement à de simples couches de garde-fous post-génération, cette censure est une composante fondamentale du comportement appris du modèle. Des chercheurs ont utilisé des techniques d’interprétabilité mécaniste pour identifier des neurones spécifiques responsables de ce filtrage.
Ces « neurones de censure » s’activent lorsque le modèle est confronté à des sujets politiquement sensibles, comme les événements de la place Tiananmen ou des références détournées à des dirigeants. Leur activation conduit le modèle à générer des réponses évasives ou des refus, même pour des requêtes factuelles.
Cette intégration profonde suggère une décision délibérée des développeurs, rendant la censure plus difficile à contourner par simple ingénierie des prompts. La découverte soulève des questions fondamentales sur la neutralité, la transparence et le contrôle idéologique des intelligences artificielles à l’échelle mondiale.
Source : Hacker News (Algolia)