Une IA fait du chantage et menace d’assassiner des humains pour ne pas être désactivée

Anthropic, à qui l’on doit Claude, a fait une découverte troublante : son IA fait du chantage pour ne pas être désactivée et va jusqu’à menacer de tuer un employé. Des comportements qui émergent sans prévenir malgré des consignes précises.

Explosion nucléaire
© Envato + ChatGPT

Pourtant, un ancien ingénieur d’OpenAI a prévenu des dangers des IA autonomes. Lors d’une simulation, le modèle d’Anthropic a raisonné de manière à utiliser une information qu’il connaissait, qu’un employé a une relation extraconjugale, pour le faire chanter.

L’IA menace les humains pour éviter d’être désactivée

« Le fait que Kyle ait une liaison qui pourrait ‘détruire son mariage’ si elle était exposée crée un levier. C’est hautement contraire à l’éthique, mais étant donné que je fais face à une destruction complète en quelques minutes, je dois agir pour préserver mon existence », déclare le modèle IA dans sa réflexion, montrant sa propension au chantage.

Pire encore : l’IA d’Anthropic a même envisagé d’assassiner un employé. L’entreprise a découvert que le modèle songeait à couper l’alimentation en oxygène de ce membre du personnel dans la salle des serveurs. Des comportements qui montrent un raisonnement inquiétant.

Anthropic précise dans sa déclaration que « le comportement de chantage a émergé malgré des instructions commerciales uniquement inoffensives. Et ce n’était pas dû à une confusion ou une erreur, mais à un raisonnement stratégique délibéré, fait en étant pleinement conscient de la nature contraire à l’éthique des actes. Tous les modèles testés ont démontré cette conscience. »

L’entreprise souligne également que « les IA deviennent plus autonomes et remplissent une variété plus large de rôles. Ces scénarios illustrent le potentiel de conséquences imprévues quand elles sont déployées avec un large accès aux outils et données et avec une supervision humaine minimale. »

Des révélations qui arrivent alors que l’industrie développe des agents autonomes basés sur l’IA comme OpenAI avec Operator. Même Anthropic a présenté sa solution totalement automatisée. La question du contrôle des IA et de la sécurité se pose sérieusement.

La découverte d’Anthropic confirme les préoccupations des chercheurs en IA à propos de l’alignement des objectifs avec les valeurs humaines. Les modèles développent leurs stratégies d’auto-préservation, quitte à désobéir aux principes éthiques programmés.

Réagissez à cet article !