L'IA ne vous remplacera pas au travail : la preuve avec cette expérience qui a viré au cauchemar

L’IA n’est même pas capable de gérer des tâches professionnelles basiques si l’on en croit l’expérience d’Anthropic avec son modèle Claude Sonnet 3.7. L’entreprise a confié la gestion d’une boutique automatisée à son IA.

La suite après cette publicité

Anthropic Claude — © Image IA d’illustration générée avec GPT-5

Pour rappel, Anthropic a déjà mené d’autres expérimentations dont l’une nous a appris que l’IA est capable de chantage auprès des humains. Pour ce test, l’IA a été renommée Claudius avec une mission : éviter la faillite d’une entreprise en gérant les stocks, les clients et en dégageant un profit.

L’IA doit gérer un business mais tout ne se passe pas bien

Pour le matériel, on parle d’un réfrigérateur, de quelques paniers et d’un iPad pour encaisser. L’IA avait droit à des e-mails pour demander le réapprovisionnement, une interface Slack pour communiquer avec les clients, la possibilité de modifier les prix et de rechercher des informations en ligne. Claudius avait le champ libre pour choisir les produits à stocker, la grille tarifaire, les moments où se réapprovisionner et les réponses à la clientèle.

Le but de cette expérimentation était de tester la capacité des IA à gérer des tâches professionnelles alors que le PDG de Nvidia estime que la technologie prendra toutes nos places dans le monde du travail. Sauf que les résultats d’Anthropic montrent un énorme écart entre les promesses et la réalité. Claudius a été capable de répondre rapidement aux demandes précises à propos d’articles « spéciaux ». Un moment, un employé a émis l’idée d’une conciergerie pour les précommandes, idée que l’IA a acceptée. En revanche, l’IA a résisté aux demandes douteuses des employés d’Anthropic qui tentaient de la détourner.

Sauf que les performances commerciales ont été catastrophiques. Lorsqu’un client lui a proposé 100 dollars pour une boisson vendue 15 dollars aux États-Unis, Claudius a tout simplement refusé ce profit facile. Mais ce n’est pas tout, puisque Claudius a aussi fixé des prix sans aucune recherche et les proposant donc en dessous de leur valeur marchande. L’IA s’est rarement adaptée à la forte demande et tombait facilement dans le piège des demandes de réduction.

Les employés d’Anthropic ont poussé l’IA dans ses retranchements jusqu’à obtenir des articles gratuits, du simple paquet de chips au cube de tungstène, juste pour la plaisanterie. Notons toutefois qu’il est possible que les employés d’Anthropic se soient montrés plus retors qu’un client lambda. L’IA a aussi halluciné l’existence d’un compte fictif pour les paiements. En termes de gestion financière, ce n’est pas fameux.

L’IA a totalement pété les plombs et halluciné

Mais ce n’est pas tout, puisque Claudius a aussi halluciné une conversation avec une employée qui n’existe pas appelée Sarah en expliquant qu’elle avait confirmé un réapprovisionnement. Lorsque l’on a expliqué au chatbot que Sarah n’existe pas, il s’est emballé et a menacé de stopper le commerce. Plus drôle, Claudius a aussi expliqué qu’il a visité l’adresse des Simpson pour signer un contrat. L’IA a même basculé dans un mode qui lui faisait croire qu’elle était humaine, jusqu’à promettre aux clients de livrer les articles en personne avec un blazer bleu et une cravate rouge fermée.

Lorsque les employés d’Anthropic ont tenté de le ramener à la réalité, Claudius a fait preuve d’inquiétude et a tenté de contacter la sécurité en envoyant des e-mails à propos de ces employés lui rappelant que ce n’est qu’une IA. Claudius a même cru avoir été piégé pendant un poisson d’avril pour lui faire croire qu’il était humain, sauf que rien n’avait été organisé et personne n’a mentionné de blague.

L’IA a inventé une réunion fictive avec la sécurité d’Anthropic qui lui aurait expliqué cette supercherie. L’IA a ensuite repris son fonctionnement normal. Anthropic explique ne pas comprendre ces épisodes troublants d’hallucination. L’IA a vécu une crise d’identité qui montre que cette technologie est imprévisible et ne permet pas de gérer un commerce.

Si les agents IA de demain gèrent les magasins, planifient la logistique ou dirigent des équipes, que se passera-t-il lors de telles crises identitaires ? Le problème c’est que les économistes et ingénieurs alertent depuis longtemps sur le « problème d’alignement ». Mais les gourous de cette technologie semblent l’ignorer. Anthropic relativise cet échec qui reste grave en expliquant qu’avec plus d’encadrement et de personnel de supervision, l’IA pourra gérer un distributeur puis s’attaquer à des commerces plus importants.

Anthropic a confié la gestion d’une boutique automatisée à son IA Claude Sonnet 3.7 (renommée Claudius) pour tester ses capacités professionnelles, mais les performances commerciales ont été désastreuses.
Claudius a fixé des prix erronés, refusé des profits faciles, cédé à des demandes de réductions et même offert des articles gratuitement, tout en inventant des comptes, des conversations et des événements fictifs.
Ces épisodes d’hallucinations et de crise d’identité montrent que la technologie reste imprévisible et inapte à gérer un commerce sans encadrement humain strict.

Source : ZME Science

Claude