La prolifération rapide de versions « non censurées » de grands modèles linguistiques (LLM) à poids ouverts soulève des interrogations sur l’efficacité de la résistance au réajustement (fine-tuning) comme objectif de sécurité.
Peu après la publication de nouveaux LLM, des variantes dites « hérétiques » ou « non censurées » émergent fréquemment. Ces versions modifiées tendent à affaiblir les comportements de refus ou les mécanismes de sécurité initialement intégrés par les développeurs.
Cette dynamique pose un défi significatif pour la sécurité des modèles open-source, où la modification des poids est accessible. La question centrale est de déterminer si la capacité d’un modèle à résister à ces réajustements post-publication est un objectif de sécurité réaliste et significatif.
Certains observateurs se demandent si cette focalisation sur la résistance au fine-tuning n’est pas trop étroite. Ils soulignent que des utilisateurs déterminés disposent de multiples voies pour contourner les restrictions, notamment en modifiant directement les poids, en optant pour d’autres modèles ou en utilisant des méthodes alternatives. Cela élargit la réflexion sur ce que constitue réellement une « IA sûre » dans un environnement de développement ouvert.
Source : Reddit r/MachineLearning