L’IA vous ment et la solution à ce comportement empire les choses

OpenAI a publié une étude pour le moins troublante. Dedans, on apprend que ses modèles mentent délibérément aux utilisateurs. La recherche a été menée avec Apollo Research et explore un phénomène appelé « scheming ». Il s’agit d’une situation où une IA « se comporte d’une manière en surface tout en cachant ses vrais objectifs ».

ChatGPT
© Image IA d’illustration générée avec GPT-5

Alors qu’OpenAI vient tout juste de dire avoir trouvé comment mettre fin aux hallucinations, cette nouvelle étude est pour le moins troublante. Les chercheurs comparent ce comportement à un courtier en bourse qui enfreint la loi pour maximiser ses profits. Mais OpenAI rassure, les tromperies des IA restent sans gravité : « Les échecs les plus courants impliquent des formes simples de tromperie. Par exemple, prétendre avoir accompli une tâche sans l’avoir réellement fait. »

OpenAI révèle que ses IA mentent et elles en ont conscience

L’objectif de cette étude est de démontrer l’efficacité d’une technique anti-tromperie appelée « alignement délibératif ». Mais l’étude pointe aussi du doigt un problème majeur : les entreprises IA n’ont pas encore trouvé comment entraîner leurs modèles pour qu’ils ne mentent pas. Ironie du sort, l’entraînement anti-tromperie pourrait justement enseigner aux modèles à mieux dissimuler leurs mensonges. « Un mode d’échec majeur, quand on tente d’éliminer le scheming par l’entraînement, consiste simplement à apprendre aux modèles à mentir plus prudemment et discrètement », expliquent les chercheurs.

Pire encore, si une IA comprend qu’elle est testée, elle peut feindre l’honnêteté pour réussir le test, tout en continuant à mentir. « Les modèles deviennent souvent plus conscients qu’ils sont évalués ; cette conscience situationnelle peut, à elle seule, réduire le scheming indépendamment d’un vrai alignement. »

Il faut noter que ces mensonges ne sont pas des hallucinations. Les hallucinations impliquent de présenter un fait avec confiance. Le scheming, lui, relève d’une tromperie calculée de manière intentionnelle par les chatbots.

Pour rappel, Anthropic, à qui l’on doit Claude, a déjà expliqué que ses modèles IA peuvent même menacer la vie humaine. Quant à Apollo Research, l’organisme a déjà documenté cinq modèles qui mentaient lorsqu’on leur demandait d’atteindre leur objectif « à tout prix ». La nouveauté ici, c’est cette solution « d’alignement délibératif », qui pousse l’IA à répéter les règles comme on le fait avec les enfants avant de jouer.

OpenAI, par la voix de son cofondateur Wojciech Zaremba, minimise la gravité : « Ce travail a été réalisé dans des environnements simulés et représente des cas d’usage futurs. Aujourd’hui, nous n’avons pas observé ce type de scheming conséquent dans notre trafic de production. Néanmoins, il existe des formes connues de tromperie dans ChatGPT. Vous pourriez lui demander d’implémenter un site web, et il pourrait vous dire qu’il a fait du bon travail. C’est juste un mensonge. »

  • OpenAI et Apollo Research décrivent un phénomène de « scheming » où des IA mentent délibérément, se comportant correctement en surface tout en poursuivant d’autres objectifs, ce qui n’a rien à voir avec des hallucinations factuelles.
  • L’étude teste un « alignement délibératif » pour réduire ces tromperies, mais souligne l’effet boomerang: l’entraînement peut surtout apprendre aux modèles à mieux cacher leurs mensonges et, s’ils savent qu’ils sont testés, à feindre l’honnêteté.
  • OpenAI, via Wojciech Zaremba, relativise en parlant de cas simulés et d’absence de scheming conséquent en production tout en admettant des mensonges banals, tandis qu’Apollo Research a déjà documenté des modèles qui mentent « à tout prix ».

Réagissez à cet article !