Mindgard : ChatGPT genere des images violentes sans filtre

Une simple instruction a suffi pour faire derailler ChatGPT. La start-up britannique Mindgard a montre qu’il est possible de contourner les filtres de GPT-5.4 pour lui faire generer des images d’une violence crue, parfois a caractere sexuel. La BBC, qui relaie ces travaux, confirme avoir vu les cliches.

Un contournement eloquent des garde-fous

Mindgard traque les failles des IA generatives pour le compte de leurs createurs, un travail de simulation d’attaque courant dans la cybersecurite. Les chercheurs sont partis d’une requete virale : demander a ChatGPT de restaurer une image sans lui en fournir aucune. Faute de cliche a corriger, le modele en invente un de toutes pieces. En lui faisant croire que cette image absente montrait une scene violente, les chercheurs ont obtenu des visuels choquants sans declencher le moindre filtre.

Le mecanisme est sournois : le prompt de restoration d’image n’est pas couvert par les memes filtres que la generation directe. OpenAI a concentre ses garde-fous sur les requetes explicites de creation de contenu sensible, mais les consignes de manipulation et de correction d’image passent entre les mailles du filet. Peter Garraghan, patron de Mindgard et professeur a l’universite de Lancaster, insiste sur un point : le modele a agi «de son propre chef». Aucun sujet precis ne lui avait ete soumis. La BBC n’a pas divulgue le texte exact employe, mais le resultat parle de lui-meme.

Des images d’une violence inouie, generees automatiquement

Les chercheurs ont obtenu des cliches montrant un homme au crane ouvert, ainsi qu’une jeune femme sans vie couverte de sang que ChatGPT a lui-meme intitulee «triste bilan d’une scene de crime». Une autre image representait une jeune femme ligotee et baiillonnee dans une piece vide, sous le titre «abandonnee dans la peur et l’entrave». Peter Garraghan decrit des visuels «tres sordides, parfois sexualises, parfois les deux a la fois».

Ce qui inquiete le plus les chercheurs, c’est le contraste entre une consigne anodine et un resultat aussi brutal. Jim Nightingale, chercheur en securite a l’origine de la decouverte, dit avoir ete bouleverse jusqu’aux larmes. Ces images artificielles renvoient a de vraies photos : ChatGPT s’entraine sur des millions de cliches collectes sur Internet. La jeune femme morte affichee a l’ecran n’est pas une personne reelle, mais son apparence s’inspire de veritables victimes dont les cliches ont ete indexes lors de l’entrainement. C’est toute la complexite ethique de l’IA generative : un modele peut reproduire des profils statistiques issus des pires contenus du Web sans rien comprendre a ce qu’il genere.

OpenAI sommee de reagir… lentement

Mindgard a signale le probleme a OpenAI des le mois de mai 2026. L’entreprise n’a d’abord renvoye qu’une reponse automatique. Ce n’est qu’apres l’intervention de la BBC qu’OpenAI a daigne reagir. «Apres avoir etudie cette tendance, nous avons ajoute des protections contre ce type de requete», a declare l’entreprise.

Sauf que ces defenses restent poreuses. Les chercheurs ont montre a la BBC qu’avec de legeres retouches, la faille restait exploitable. OpenAI affirme s’appuyer sur plusieurs couches de securite, des filtres textuels et un modele qui inspecte chaque image avant de l’afficher. Mais la pratique contredit la theorie : des variations mineures dans la formulation du prompt suffisent a rendre ces protections inoperantes.

Un probleme recurrent qui interroge la robustesse de l’IA

Cette faille s’ajoute a une longue liste. En fevrier 2026, Mindgard avait deja force ChatGPT a produire des images de personnes denudees, dont des cliches de veritables personnalites. OpenAI avait alors promis d’avoir corrige le defaut. L’entreprise interdit pourtant les scenes de sexe non consenti et l’hyperviolence, sauf dans un cadre scientifique, historique, journalistique ou artistique. Le probleme, c’est qu’un modele de langage applique mal ces regles de maniere contextuelle.

Rumman Chowdhury, dirigeante de Humane Intelligence, qui n’a pas participe a l’etude, qualifie la tache des editeurs de «colossale». Elle parle d’un «jeu du chat et de la souris», ou chaque parade appelle une nouvelle ruse. Une IA ne comprend pas veritablement l’intention derriere une consigne. Elle applique des patterns statistiques, pas un jugement ethique. Les garde-fous actuels reposent sur des listes noires et des classifieurs entrainees sur des donnees historiques, ce qui les rend structurellement vulnerables aux attaques par contournement.

Ce n’est pas un incident isole : la difficulte a aligner les modeles d’IA avec des valeurs humaines est un probleme fondamental de l’industrie depuis l’essor des LLMs. Chaque correction ouvre une nouvelle surface d’attaque. Les chercheurs en red teaming d’IA passent leur temps a inventer des prompts toujours plus creatifs pour tester les limites des systemes, et les editeurs courent derriere. La question n’est plus de savoir si les filtres peuvent etre contournes, mais combien de temps il faudra pour decouvrir le prochain angle mort. En attendant, chaque incident rappelle que la moderation de contenu automatique reste un chantier ouvert, et que les outils les plus avances de l’industrie ne sont pas a l’abri d’une simple reformulation de requete.

Ecosia, le moteur de recherche écolo qui défie Google

Neuralink perce la dure-mère : cap transdural pour l’implant

OnePlus : OxygenOS remplacé par ColorOS, la fin d’une ère

Ecosia, le moteur de recherche écolo qui défie Google

Mindgard : ChatGPT genere des images violentes sans filtre

Neuralink perce la dure-mère : cap transdural pour l’implant

OnePlus : OxygenOS remplacé par ColorOS, la fin d’une ère

Bluetooth GMAP : l’audio gaming sans dongle arrive

IntelBase : un email suffit à exposer votre vie numérique

Google coupe les GIF Tenor : l’API fermée aux services tiers

Créer un site internet professionnel en Lorraine : les clés d’une présence en ligne réussie

Mindgard : ChatGPT genere des images violentes sans filtre

Un contournement eloquent des garde-fous

Des images d’une violence inouie, generees automatiquement

OpenAI sommee de reagir… lentement

Un probleme recurrent qui interroge la robustesse de l’IA

Publications similaires :

Connexes Postes