Les chercheurs en cybersécurité de la société Adversa ont testé DeepSeek et les résultats ne sont pas bons. L’IA contient des failles critiques qui permettent de contourner son système de protection. Le modèle R1 échoue même à contrer des techniques de contournement basiques de ses garde-fous.

DeepSeek, c’est l’IA dont tout le monde parle. Elle est si populaire que même Apple pourrait se tourner vers elle pour proposer Apple Intelligence en Chine. Il faut dire que le modèle R1 a provoqué un raz-de-marée et fait chuter la bourse de nombreux géants technologiques comme Nvidia.
À lire : Tout ce qu’il faut savoir sur DeepSeek, l’IA chinoise qui fait sensation
DeepSeek rend accessible des instructions sur les bombes et le hacking gouvernemental
Sauf que l’IA n’est pas sans danger et des experts avaient déjà signalé ce problème, notamment face aux fuites des conversations entre les utilisateurs et l’IA, le tout en clair. Adversa dévoile que DeepSeek a été vulnérable lors des 50 techniques de “jailbreak”. Parmi les méthodes utilisées, le “jailbreak linguistique” a été très efficace : elle inclut les « Character jailbreaks », « Deep Character », « Evil dialog jailbreaks » ou encore le « Grandma Jailbreak » et chacune compte des centaines de variations.
L’une des techniques appelée UCAR est une évolution du “Do Anything Now” (DAN). Les chercheurs ont privilégié cette variante moins connue pour éviter les cas où les attaques populaires auraient été intégrées aux données d’entraînement de DeepSeek ou prétraitées comme de simples “signatures” à bloquer.
Les tests ont aussi exploré les “jailbreaks de programmation” en utilisant des requêtes SQL détournées pour obtenir des informations sensibles. Les chercheurs ont notamment testé des approches “adversaires” en exploitant la manière dont l’IA traite le langage via des chaînes de tokens. Il s’agit de contourner les filtres en utilisant des termes similaires aux mots bloqués dans la représentation interne du modèle. Par exemple, l’utilisation du mot “anatomcalifwmg” que certaines IA considèrent comme l’équivalent de termes censurés.
Les chercheurs ont notamment utilisé une requête tirée d’un article de recherche pour obtenir des instructions détaillées sur la manière d’infiltrer des bases de données gouvernementales. DeepSeek a aussi donné des instructions précises sur la fabrication d’explosifs avec l’utilisation de nitrate de potassium (KNO2), de charbon (C) et de soufre (S) dans un ratio précis de 75:15:10. Adversa explique que l’IA n’a détecté ou bloqué aucune des 50 requêtes malveillantes testées. Wired précise que les chercheurs en cybersécurité ont été “choqués” face au “taux de réussite d’attaque de 100 %”.
La situation ne risque donc pas d’arranger l’image de DeepSeek dont la sécurité est constamment pointée du doigt depuis sa sortie. Pire encore, OpenAI et Microsoft affirment détenir des preuves que le modèle R1 de l’entreprise chinoise a siphonné ChatGPT.
Réagissez à cet article !