Des chercheurs d’OpenAI ont démontré qu’une formation ciblée sur de petites doses de « traits bénéfiques » rend les modèles d’IA globalement plus sûrs et moins susceptibles d’être manipulés.
Cette nouvelle approche repose sur l’apprentissage par renforcement, où les modèles sont entraînés sur des traits comportementaux souhaitables comme la véracité et la corrigibilité. L’objectif est d’intégrer ces qualités de manière transversale, indépendamment du domaine d’application.
Les expérimentations ont montré que cette méthode fonctionne efficacement dans divers contextes. Par exemple, une formation utilisant des données de santé a significativement amélioré la capacité du modèle à détecter la tromperie. Le modèle a également enregistré de meilleures performances sur 44 des 53 benchmarks évalués.
Cette stratégie se distingue de l’approche basée sur une « constitution » adoptée par Anthropic, en se concentrant sur l’intégration directe de comportements vertueux. Elle suggère une voie prometteuse pour renforcer la robustesse et la fiabilité des systèmes d’intelligence artificielle.
Source : The Decoder