Une récente étude académique, « Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment », propose que le discours dominant sur l’alignement de l’IA, souvent axé sur les risques existentiels, façonne de manière contre-productive le processus même d’alignement.
Publié sur arXiv, cet article examine comment la rhétorique actuelle, centrée sur les menaces catastrophiques et les risques existentiels, influence la « pré-formation à l’alignement » des modèles d’intelligence artificielle. Il postule que cette focalisation étroite pourrait involontairement restreindre les objectifs et les méthodes d’alignement.
Les auteurs avancent que cette approche, souvent perçue comme alarmiste, risque de conduire à des systèmes alignés sur des perspectives de prudence excessive, voire de peur, plutôt que sur un éventail plus large et plus équilibré de valeurs humaines. Cela créerait une forme de prophétie auto-réalisatrice de « désalignement ».
La recherche appelle ainsi à une approche plus nuancée et moins anxiogène de l’alignement. Elle souligne l’importance de considérer des résultats bénéfiques et robustes pour la société, au-delà de la seule atténuation des risques perçus.
Cette perspective invite à une réflexion critique sur la manière dont la communauté de l’IA définit et aborde la sécurité et l’éthique de ses systèmes.
Source : Hacker News (Algolia)