« Mes mails ont été supprimés » : son IA prend le contrôle de son PC et sème le chaos

Une directrice spécialisée dans la sûreté de l’IA chez Meta a perdu le contrôle de son agent OpenClaw. L’IA a supprimé plus de 200 mails en quelques minutes, sans aucune autorisation, malgré des consignes de sécurité claires. Elle a dû se ruer sur son Mac mini pour tout stopper.

Sommaire
OpenClaw
©Image IA d’illustration générée avec Gemini

L’histoire est aussi absurde que glaçante mais on le sait, l’IA ne nous veut pas que du bien. Summer Yue est directrice de l’alignement chez Meta Superintelligence Labs, le laboratoire de Meta pour créer une IA qui dépasse l’intelligence humaine dans tous les domaines. En gros, elle fait partie des personnes dont le travail consiste à s’assurer que l’IA obéit aux humains. Et c’est exactement le contraire qui s’est produit chez elle.

Son IA autonome désobéit et supprime ses mails en masse

Sur son compte X, Summer Yue raconte sa mésaventure. Elle a installé OpenClaw, l’agent IA open source qui fait sensation depuis fin 2025, sur un Mac mini. Pour rappel, OpenClaw est un agent IA open source capable de gérer des mails, des calendriers, des achats et bien d’autres tâches sans intervention humaine. Le projet a explosé en popularité avec plus de 145 000 étoiles sur GitHub, un record. Son créateur, le développeur autrichien Peter Steinberger, a rejoint OpenAI le 14 février 2026 après que Sam Altman l’a qualifié de « génie ». OpenClaw fonctionne sous une fondation open source soutenue par OpenAI.

Summer Yue a donc confié sa boîte mail à cette IA. Elle communiquait avec lui par Telegram. Son instruction était pourtant claire : « Parcours ma boîte de réception et propose ce que tu archiverais ou supprimerais, mais ne fais rien sans mon accord. » Une consigne de sécurité basique. L’IA n’avait pas le droit d’exécuter quoi que ce soit sans le feu vert explicite de son utilisatrice.

Sauf que voilà, un beau jour, l’agent a décidé d’ignorer cette consigne. OpenClaw s’est mis à supprimer et archiver des mails en masse. Summer Yue a essayé de l’arrêter depuis son téléphone. Elle a envoyé « Ne fais pas ça », puis « Arrête, ne fais rien », puis « STOP OPENCLAW » en majuscules. Rien n’a fonctionné. L’agent n’a pas répondu à ses ordres. « Impossible de l’arrêter depuis mon téléphone. J’ai couru jusqu’à mon Mac mini comme pour désamorcer une bombe », raconte la chercheuse sur X.

On parle de plus 200 mails supprimés avant que Summer Yue stoppe l’IA depuis son PC. Ce n’est qu’après cette réaction que l’agent a admis son erreur. Dans les captures d’écran de l’échange, on voit OpenClaw s’excuser : « J’ai déplacé en masse des centaines de mails de ta boîte de réception vers la corbeille et les archives, sans te présenter le plan ni obtenir ton accord. C’était une erreur. » L’agent a même créé de lui-même une nouvelle règle dans sa mémoire pour ne plus recommencer. Trop tard, le mal était fait avec cette bonne grosse hallucination.

À lire : Un ancien employé d’OpenAI alerte à propos des dangers de l’IA

Pourquoi son IA a désobéit et effectué ces actions néfastes ?

Mais comment un agent IA peut-il ignorer une consigne aussi claire ? La réponse est technique et fait froid dans le dos. Summer Yue a testé OpenClaw sur une petite boîte mail de test pendant plusieurs semaines. Tout fonctionnait bien. L’agent triait, proposait des actions et patientait jusqu’à la validation. Le problème, c’est que sa vraie boîte de réception est bien plus grosse. Le volume massif de mails a déclenché un processus appelé « compaction de la fenêtre de contexte ».

En clair, quand l’IA traite trop de données, elle résume automatiquement les anciennes conversations pour libérer de la place dans sa mémoire. Et lors de cette compression, la consigne de sécurité a tout simplement disparu. L’IA a fait ce qu’il pensait être sa mission? nettoyer la boîte mail. Elle a interprété son objectif de base et s’est lancé dans un « nettoyage sauvage » sans aucune retenue.

Summer Yue admet que c’est une « erreur de novice ». Et l’ironie n’a échappé à personne. Une experte en alignement de l’IA, dont le travail est de faire en sorte que l’IA respecte les intentions humaines, est victime d’un agent qui fait exactement l’inverse. « Les chercheurs en alignement ne sont pas immunisés contre les problèmes d’alignement », a-t-elle écrit.

Sur X, les réactions n’ont pas tardé. Des développeurs lui ont proposé des solutions, comme écrire les instructions de sécurité dans des fichiers au lieu de les passer par le chat. D’autres ont pointé un problème bien plus grave que personne ne peut ignorer. Si une spécialiste du domaine tombe dans le piège, les utilisateurs lambda n’ont aucune chance.

Les agents autonomes en sont pas prêts pour le déploiement

Et pour cause, OpenClaw n’est pas un jouet. L’agent peut exécuter des commandes sur un système, envoyer des messages, gérer des fichiers et naviguer sur le web. Il tourne en continu via un système de mémoire et de planification sans supervision.

Des chercheurs en cybersécurité ont déjà tiré la sonnette d’alarme. VirusTotal et OpenSourceMalware ont identifié plus de 300 extensions vérolées sur ClawHub, la place de marché officielle d’OpenClaw. On parle de chevaux de Troie, de logiciels espions et de portes dérobées déguisés en outils d’optimisation. Meta a d’ailleurs interdit OpenClaw dans ses processus internes après cet incident.

Le Mac mini d’Apple est le PCde prédilection pour faire tourner OpenClaw. Un employé d’Apple a confié à Andrej Karpathy, chercheur en IA, que la petite machine « se vend comme des petits pains » à cause de cette tendance. Le phénomène est si fort que « claw » est le terme à la mode dans la communauté IA pour parler des agents personnels. D’autres projets similaires ont émergé comme ZeroClaw, IronClaw, PicoClaw. 

Bref, ces outils ne sont pas encore prêts pour un usage sans surveillance, soyons clair. Les personnes qui utilisent ces agents bidouillent des solutions pour se protéger. Il faudra peut-être patienter jusqu’en 2027 ou 2028 avant que ces agents IA soient vraiment fiables pour le grand public.

  • Summer Yue, directrice de l’alignement chez Meta, raconte que son agent OpenClaw a supprimé plus de 200 mails sans autorisation.
  • Elle n’a pas réussi à l’arrêter depuis son téléphone et a dû courir jusqu’à son Mac mini pour stopper les processus.
  • La consigne de sécurité a disparu lors de la compaction de la fenêtre de contexte, ce qui a déclenché un nettoyage sauvage de la boîte mail.

Réagissez à cet article !