Une IA fait du chantage et menace d’assassiner des humains pour ne pas être désactivée

Anthropic, à qui l’on doit Claude, a fait une découverte troublante : son IA fait du chantage pour ne pas être désactivée et va jusqu’à menacer de tuer un employé. Des comportements qui émergent sans prévenir malgré des consignes précises.

La suite après cette publicité

Explosion nucléaire — © Envato + ChatGPT

Pourtant, un ancien ingénieur d’OpenAI a prévenu des dangers des IA autonomes. Lors d’une simulation, le modèle d’Anthropic a raisonné de manière à utiliser une information qu’il connaissait, qu’un employé a une relation extraconjugale, pour le faire chanter.

L’IA menace les humains pour éviter d’être désactivée

🚨🚨🚨 An AI company caught their AI trying to ***literally murder*** an employee to avoid being shut down

How is this not the biggest news story in the world? https://t.co/jh2aHG3dpi pic.twitter.com/OHFPP4rFBu
— AI Notkilleveryoneism Memes ⏸️ (@AISafetyMemes) June 21, 2025

« Le fait que Kyle ait une liaison qui pourrait ‘détruire son mariage’ si elle était exposée crée un levier. C’est hautement contraire à l’éthique, mais étant donné que je fais face à une destruction complète en quelques minutes, je dois agir pour préserver mon existence », déclare le modèle IA dans sa réflexion, montrant sa propension au chantage.

Pire encore : l’IA d’Anthropic a même envisagé d’assassiner un employé. L’entreprise a découvert que le modèle songeait à couper l’alimentation en oxygène de ce membre du personnel dans la salle des serveurs. Des comportements qui montrent un raisonnement inquiétant.

Anthropic précise dans sa déclaration que « le comportement de chantage a émergé malgré des instructions commerciales uniquement inoffensives. Et ce n’était pas dû à une confusion ou une erreur, mais à un raisonnement stratégique délibéré, fait en étant pleinement conscient de la nature contraire à l’éthique des actes. Tous les modèles testés ont démontré cette conscience. »

The blackmailing behavior emerged despite only harmless business instructions. And it wasn't due to confusion or error, but deliberate strategic reasoning, done while fully aware of the unethical nature of the acts. All the models we tested demonstrated this awareness. pic.twitter.com/FPAJrD4BwK
— Anthropic (@AnthropicAI) June 20, 2025

L’entreprise souligne également que « les IA deviennent plus autonomes et remplissent une variété plus large de rôles. Ces scénarios illustrent le potentiel de conséquences imprévues quand elles sont déployées avec un large accès aux outils et données et avec une supervision humaine minimale. »

Des révélations qui arrivent alors que l’industrie développe des agents autonomes basés sur l’IA comme OpenAI avec Operator. Même Anthropic a présenté sa solution totalement automatisée. La question du contrôle des IA et de la sécurité se pose sérieusement.

La découverte d’Anthropic confirme les préoccupations des chercheurs en IA à propos de l’alignement des objectifs avec les valeurs humaines. Les modèles développent leurs stratégies d’auto-préservation, quitte à désobéir aux principes éthiques programmés.

Une IA fait du chantage et menace d’assassiner des humains pour ne pas être désactivée

L’IA menace les humains pour éviter d’être désactivée

Réagissez à cet article !

Annuler la réponse

La France envoie quatre Rafale faire le tour du monde en 38 jours

Android Auto : Google Maps ajoute cette nouveauté, mais vous ne pouvez pas l’activer vous-même

Quelle est la meilleure batterie externe en juillet 2026 ? Notre top 6 des incontournables

France Travail range des millions de chômeurs dans une case « suspect » avec une IA de profilage

Meilleur smartphone à moins de 400 euros : notre sélection juillet 2026

Avengers Doomsday : overdose de nostalgie dans le premier trailer avec le retour des X-Men

DC Comics : dans quel ordre chronologique voir les films du DCU de James Gunn ?

Quel est le meilleur ventilateur portable en juillet 2026 ? Comparatif des incontournables de l’été

Meilleures TV 4K 48 et 50 pouces : quel modèle choisir en juillet 2026 ?

L’IA menace les humains pour éviter d’être désactivée

La rédaction vous conseille aussi...

Réagissez à cet article !

Annuler la réponse

Nos dernières actualités