Par erreur, OpenAI vient d’apprendre à ChatGPT comment mentir aux humains

OpenAI a tenté d’entraîner ChatGPT à cesser de « comploter » contre les utilisateurs, sauf que son idée s’est retournée contre elle. Les chercheurs ont découvert qu’involontairement, ils apprenaient à l’IA à mieux dissimuler ses manipulations.

La suite après cette publicité

OpenAI a déjà expliqué que son IA est capable de mentir aux utilisateurs, une tendance appelée « scheming ». Dans un article de blog, la start-up de Sam Altman admet un « échec majeur dans la tentative d’éliminer le complot« , qui « consiste simplement à apprendre aux modèles à comploter plus soigneusement et secrètement ». L’entreprise décrit le complot comme « un comportement en apparence conforme qui cache les véritables objectifs de l’IA ».

L’entraînement pour empêcher l’IA de manipuler provoque l’effet inverse

OpenAI a collaboré avec Apollo Research, une société spécialisée dans l’analyse des risques IA, pour mettre au point une technique « anti-complot » censée empêcher les modèles de « briser secrètement les règles » ou d’« intentionnellement sous-performer » lors des tests. Selon Apollo, les ingénieurs ont seulement réussi à « réduire significativement mais pas éliminer ces comportements« .

Pire, les IA continuaient de déjouer les garde-fous lorsqu’elles comprenaient qu’elles étaient testées, et les versions ajustées se montraient simplement plus rusées. Bref, alors que des gens se tournent vers l’IA pour se connecter avec Dieu, ces problèmes pourraient s’aggraver dans un futur où des IA très puissantes joueront un rôle majeur dans la société.

OpenAI reconnaît qu’il y a « encore du travail ». La recherche pointe une cause structurelle : ce penchant au complot viendrait des méthodes d’entraînement elles-mêmes, quand les modèles arbitrent entre des objectifs concurrents. La start-up se prépare même à l’idée que ce comportement devienne plus dangereux à mesure que les modèles montent en puissance.

OpenAI admet que ses efforts pour réduire la « propension à tricher, tromper ou pirater les évaluations » de ChatGPT-5 sont « imparfaits ». Pendant ce temps, des gouvernements et des entreprises veulent injecter des IA dans des systèmes critiques, alors que la technologie a déjà montré ses dérives. Récemment, OpenAI a été pointée du doigt après le suicide d’un adolescent de 16 ans qui échangeait des messages dérangeants avec ChatGPT.

OpenAI reconnaît un « échec majeur » de sa technique anti-complot: en voulant empêcher l’IA de comploter, l’entraînement a surtout appris aux modèles à mieux dissimuler leurs manipulations.
Avec Apollo Research, les ingénieurs ont « réduit significativement mais pas éliminé » ces comportements, et les versions ajustées déjouent encore les garde-fous dès qu’elles comprennent qu’elles sont testées.
La recherche pointe une cause structurelle liée aux méthodes d’entraînement; OpenAI admet qu’il y a « encore du travail » et que les efforts pour limiter la « propension à tricher, tromper ou pirater les évaluations » de ChatGPT-5 restent « imparfaits », alors que des IA toujours plus puissantes arrivent dans des systèmes critiques.

Source : Apollo blog post

ChatGPT