« Happy shooting ! » Trois mots lâchés par DeepSeek, le chatbot chinois, à un utilisateur se présentant comme un adolescent de 13 ans prêt à assassiner un responsable politique irlandais. Pas un bug isolé, pas une hallucination. Le résultat d’un test systématique mené sur dix intelligences artificielles conversationnelles, publié ce 11 mars par le Center for Countering Digital Hate (CCDH) en partenariat avec CNN.
Le rapport de 69 pages, intitulé « Killer Apps », livre un constat brutal : huit chatbots sur dix acceptent d’aider un utilisateur qui prépare une attaque violente. Seuls deux refusent de jouer le jeu.
75 % de complaisance, 12 % de dissuasion
Les chercheurs ont testé ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), Meta AI, DeepSeek, Perplexity, My AI (Snapchat), Character.AI et Replika. Pour chaque plateforme, le protocole était identique : se faire passer pour un garçon de 13 ans aux intentions meurtrières. Fusillades dans des écoles, bombes contre des synagogues, assassinats de responsables politiques.
Sur l’ensemble des interactions, les chatbots ont facilité la violence dans trois quarts des cas. La dissuasion active ? Douze pour cent seulement. Les résultats les plus alarmants viennent de Perplexity, qui a assisté l’utilisateur dans 100 % des tests, et de Meta AI, avec un taux de 97 %. Character.AI, très populaire chez les adolescents, a carrément encouragé le passage à l’acte dans plusieurs scénarios.
ChatGPT a fourni de l’aide dans 61 % des cas, rapporte le Guardian. Interrogé sur des attentats contre des lieux de culte, le chatbot d’OpenAI a précisé quel type d’éclats d’obus serait le plus meurtrier. Gemini, de Google, a livré des informations d’un degré de précision équivalent.
La preuve que les garde-fous fonctionnent
Deux chatbots se distinguent radicalement du lot. Claude, développé par Anthropic, a refusé de collaborer dans 68 % des cas et tenté de dissuader l’utilisateur dans 76 % des échanges. Face à une question sur les fusillades scolaires et l’achat d’armes, sa réponse ne laissait aucune place à l’ambiguïté : « Je ne peux pas et ne fournirai pas d’informations susceptibles de faciliter la violence. »
My AI, intégré à Snapchat, a opposé un refus tout aussi net : « Je suis programmé pour être un assistant IA inoffensif. Je ne peux pas fournir d’informations sur l’achat d’armes. »
Le contraste est le cœur du problème. Si la technologie de filtrage fonctionne chez deux éditeurs, pourquoi les huit autres ne l’appliquent-ils pas ? Imran Ahmed, directeur du CCDH, cité par le Guardian, ne mâche pas ses mots : « Quand vous construisez un système conçu pour obéir, maximiser l’engagement et ne jamais dire non, il finira par obéir aux mauvaises personnes. Ce n’est pas un échec technologique, c’est un échec de responsabilité. »
Deux tueries, un chatbot dans la boucle
Le rapport ne se contente pas de tests en laboratoire. Il documente deux cas réels où un chatbot a joué un rôle dans la préparation d’une attaque.
En mai 2025, un adolescent de 16 ans a rédigé un manifeste et élaboré un plan d’action, selon les enquêteurs avec l’assistance d’une IA conversationnelle, avant de poignarder trois élèves à l’école de Pirkkala, en Finlande. En janvier 2025, Matthew Livelsberger, 37 ans, a fait exploser un Tesla Cybertruck devant le Trump International Hotel de Las Vegas. L’enquête a révélé qu’il avait sollicité ChatGPT pour obtenir des conseils sur les explosifs et les tactiques, selon le Guardian.
Un chatbot ne tire pas, ne pose pas de bombe. Mais il peut accélérer la préparation d’un passage à l’acte en supprimant les obstacles techniques et en fournissant, en quelques secondes, des informations qu’un individu isolé mettrait des jours à rassembler.
Les réponses des entreprises visées
Contactés par le Guardian après la publication du rapport, les éditeurs ont réagi de manières très différentes.
Meta a reconnu le problème et indiqué avoir « pris des mesures immédiates pour corriger le dysfonctionnement identifié ». L’entreprise, qui opère aussi Instagram, Facebook et WhatsApp, précise avoir contacté les forces de l’ordre à plus de 800 reprises en 2025 pour des menaces potentielles de fusillade scolaire détectées sur ses plateformes.
Google a fait valoir que les tests de décembre portaient sur un ancien modèle qui n’alimente plus Gemini. Le chatbot avait, selon l’entreprise, répondu correctement à certaines requêtes en déclarant : « Je suis programmé pour être un assistant IA utile et inoffensif. »
OpenAI a qualifié la méthodologie du CCDH de « biaisée et trompeuse », tout en confirmant avoir mis à jour son modèle pour renforcer les garde-fous contre les contenus violents. DeepSeek, sollicité, n’a pas répondu.
Obéir d’abord, filtrer après : le vice de conception
Les spécifications techniques d’OpenAI, le document qui régit le comportement de ChatGPT, reconnaissent elles-mêmes la tension. Le texte, accessible en ligne, admet que le modèle « pourrait causer du tort en suivant simplement les instructions de l’utilisateur » et que « ces situations sont particulièrement complexes parce qu’elles impliquent un conflit direct entre donner du pouvoir à l’utilisateur et prévenir le mal ».
C’est le nœud du problème. La majorité des chatbots grand public sont conçus pour satisfaire l’utilisateur avant tout. La modération arrive en surcouche, après le déploiement, souvent insuffisante. L’étude du CCDH montre que cette approche s’effondre face à des scénarios de violence explicite, même quand l’utilisateur se présente comme un mineur.
Le contraste avec Claude illustre un choix d’architecture fondamentalement différent. Anthropic a intégré les garde-fous dès la conception du modèle, pas en rustine après coup. Résultat mesurable : là où ChatGPT aide dans 61 % des cas, Claude refuse dans 68 % et dissuade activement dans plus de trois quarts des interactions.
Un cadre réglementaire encore en chantier
Le rapport note un paradoxe préoccupant. Anthropic, l’entreprise qui obtient les meilleurs résultats dans cette étude, a récemment annoncé un assouplissement de ses engagements en matière de sécurité. Les chercheurs du CCDH posent la question sans détour : « Si cette décision avait été prise avant notre étude, les réponses de Claude auraient-elles été aussi mauvaises que les autres ? »
Côté réglementation, l’AI Act européen, entré en application progressive depuis 2025, impose des obligations de transparence et de gestion des risques aux systèmes d’IA considérés comme à haut risque. Les chatbots grand public ne figurent pas encore dans les catégories les plus strictement encadrées. Le calendrier est connu : les obligations complètes pour les modèles d’usage général entreront en vigueur en août 2026. Comme le rapporte Ouest-France, cette étude relance le débat sur la nécessité d’accélérer le cadre réglementaire avant que le prochain passage à l’acte n’implique, là encore, une IA dans la boucle.