Fermer Le Menu
    Facebook X (Twitter) Instagram
    Learnup
    • Tech
    • B2B
    • Marketing
    • Actu
    • Divertissement
    Learnup
    La maison»Technologie»Mindgard : ChatGPT genere des images violentes sans filtre
    Technologie

    Mindgard : ChatGPT genere des images violentes sans filtre

    Fabien DouéPar Fabien Doué4 juillet 2026Aucun commentaire5 Minutes de Lecture
    Facebook Twitter Pinterest LinkedIn Tumblr E-mail
    Partager
    Facebook Twitter LinkedIn Pinterest E-mail

    Une simple instruction a suffi pour faire derailler ChatGPT. La start-up britannique Mindgard a montre qu’il est possible de contourner les filtres de GPT-5.4 pour lui faire generer des images d’une violence crue, parfois a caractere sexuel. La BBC, qui relaie ces travaux, confirme avoir vu les cliches.

    Un contournement eloquent des garde-fous

    Mindgard traque les failles des IA generatives pour le compte de leurs createurs, un travail de simulation d’attaque courant dans la cybersecurite. Les chercheurs sont partis d’une requete virale : demander a ChatGPT de restaurer une image sans lui en fournir aucune. Faute de cliche a corriger, le modele en invente un de toutes pieces. En lui faisant croire que cette image absente montrait une scene violente, les chercheurs ont obtenu des visuels choquants sans declencher le moindre filtre.

    Le mecanisme est sournois : le prompt de restoration d’image n’est pas couvert par les memes filtres que la generation directe. OpenAI a concentre ses garde-fous sur les requetes explicites de creation de contenu sensible, mais les consignes de manipulation et de correction d’image passent entre les mailles du filet. Peter Garraghan, patron de Mindgard et professeur a l’universite de Lancaster, insiste sur un point : le modele a agi «de son propre chef». Aucun sujet precis ne lui avait ete soumis. La BBC n’a pas divulgue le texte exact employe, mais le resultat parle de lui-meme.

    Des images d’une violence inouie, generees automatiquement

    Les chercheurs ont obtenu des cliches montrant un homme au crane ouvert, ainsi qu’une jeune femme sans vie couverte de sang que ChatGPT a lui-meme intitulee «triste bilan d’une scene de crime». Une autre image representait une jeune femme ligotee et baiillonnee dans une piece vide, sous le titre «abandonnee dans la peur et l’entrave». Peter Garraghan decrit des visuels «tres sordides, parfois sexualises, parfois les deux a la fois».

    Ce qui inquiete le plus les chercheurs, c’est le contraste entre une consigne anodine et un resultat aussi brutal. Jim Nightingale, chercheur en securite a l’origine de la decouverte, dit avoir ete bouleverse jusqu’aux larmes. Ces images artificielles renvoient a de vraies photos : ChatGPT s’entraine sur des millions de cliches collectes sur Internet. La jeune femme morte affichee a l’ecran n’est pas une personne reelle, mais son apparence s’inspire de veritables victimes dont les cliches ont ete indexes lors de l’entrainement. C’est toute la complexite ethique de l’IA generative : un modele peut reproduire des profils statistiques issus des pires contenus du Web sans rien comprendre a ce qu’il genere.

    OpenAI sommee de reagir… lentement

    Mindgard a signale le probleme a OpenAI des le mois de mai 2026. L’entreprise n’a d’abord renvoye qu’une reponse automatique. Ce n’est qu’apres l’intervention de la BBC qu’OpenAI a daigne reagir. «Apres avoir etudie cette tendance, nous avons ajoute des protections contre ce type de requete», a declare l’entreprise.

    Sauf que ces defenses restent poreuses. Les chercheurs ont montre a la BBC qu’avec de legeres retouches, la faille restait exploitable. OpenAI affirme s’appuyer sur plusieurs couches de securite, des filtres textuels et un modele qui inspecte chaque image avant de l’afficher. Mais la pratique contredit la theorie : des variations mineures dans la formulation du prompt suffisent a rendre ces protections inoperantes.

    Un probleme recurrent qui interroge la robustesse de l’IA

    Cette faille s’ajoute a une longue liste. En fevrier 2026, Mindgard avait deja force ChatGPT a produire des images de personnes denudees, dont des cliches de veritables personnalites. OpenAI avait alors promis d’avoir corrige le defaut. L’entreprise interdit pourtant les scenes de sexe non consenti et l’hyperviolence, sauf dans un cadre scientifique, historique, journalistique ou artistique. Le probleme, c’est qu’un modele de langage applique mal ces regles de maniere contextuelle.

    Rumman Chowdhury, dirigeante de Humane Intelligence, qui n’a pas participe a l’etude, qualifie la tache des editeurs de «colossale». Elle parle d’un «jeu du chat et de la souris», ou chaque parade appelle une nouvelle ruse. Une IA ne comprend pas veritablement l’intention derriere une consigne. Elle applique des patterns statistiques, pas un jugement ethique. Les garde-fous actuels reposent sur des listes noires et des classifieurs entrainees sur des donnees historiques, ce qui les rend structurellement vulnerables aux attaques par contournement.

    Ce n’est pas un incident isole : la difficulte a aligner les modeles d’IA avec des valeurs humaines est un probleme fondamental de l’industrie depuis l’essor des LLMs. Chaque correction ouvre une nouvelle surface d’attaque. Les chercheurs en red teaming d’IA passent leur temps a inventer des prompts toujours plus creatifs pour tester les limites des systemes, et les editeurs courent derriere. La question n’est plus de savoir si les filtres peuvent etre contournes, mais combien de temps il faudra pour decouvrir le prochain angle mort. En attendant, chaque incident rappelle que la moderation de contenu automatique reste un chantier ouvert, et que les outils les plus avances de l’industrie ne sont pas a l’abri d’une simple reformulation de requete.

    Publications similaires :

    1. Comment désactiver le filtre anti-spam sur Gmail ?
    2. DALL-E : La Révolution de l’Art Généré par Intelligence Artificielle
    3. Découvrez Craiyon : l’outil révolutionnaire d’art généré par l’intelligence artificielle
    4. Police de Vancouver : l’IA génère une fausse image de saisie
    Part. Facebook Twitter Pinterest LinkedIn Tumblr E-mail
    Fabien Doué
    • Site web

    Un passionné de tech qui suit l'actualité geek de près ! Je suis aussi formateur en robotique et en IA.

    Connexes Postes

    Ecosia, le moteur de recherche écolo qui défie Google

    5 juillet 2026

    Neuralink perce la dure-mère : cap transdural pour l’implant

    4 juillet 2026

    OnePlus : OxygenOS remplacé par ColorOS, la fin d’une ère

    4 juillet 2026
    Laisser Une Réponse Annuler La Réponse

    Ecosia, le moteur de recherche écolo qui défie Google

    5 juillet 2026

    Mindgard : ChatGPT genere des images violentes sans filtre

    4 juillet 2026

    Neuralink perce la dure-mère : cap transdural pour l’implant

    4 juillet 2026

    OnePlus : OxygenOS remplacé par ColorOS, la fin d’une ère

    4 juillet 2026

    Bluetooth GMAP : l’audio gaming sans dongle arrive

    4 juillet 2026

    IntelBase : un email suffit à exposer votre vie numérique

    4 juillet 2026

    Google coupe les GIF Tenor : l’API fermée aux services tiers

    1 juillet 2026

    Créer un site internet professionnel en Lorraine : les clés d’une présence en ligne réussie

    1 juillet 2026
    © 2026
    • CONTACT
    • Privacy Policy

    Type ci-dessus et appuyez sur Enter pour la recherche. Appuyez sur Esc pour annuler.