En 11 jours, le chatbot Grok a généré 3 millions d’images. Parmi elles, des contenus sexualisés créés sans le consentement des personnes représentées, dont 23 000 impliquant des mineurs selon une enquête du Rolling Stone. L’Europe a ouvert des procédures contre X dans la foulée. Mais derrière le scandale, une question reste : comment une machine peut-elle fabriquer une image à partir d’une simple phrase ?
La réponse tient en deux mots : modèles de diffusion. C’est la technologie qui propulse Stable Diffusion, DALL-E, Midjourney ou Flux. Son principe paraît contre-intuitif : pour apprendre à créer, la machine apprend d’abord à détruire.
Partir du chaos pour créer une image
Prenez une photo nette. Ajoutez-y du grain, comme de la neige sur un vieux téléviseur. Recommencez 50 fois, jusqu’à obtenir un écran entièrement brouillé. Ce processus de destruction progressive, c’est la première phase d’entraînement d’un modèle de diffusion. Les chercheurs appellent ça le « forward process » : on part du réel et on le transforme en bruit pur.
La magie opère dans l’autre sens. Le modèle apprend à inverser chaque étape de dégradation. À partir d’un nuage de pixels aléatoires, il retire le bruit couche par couche, comme un sculpteur qui dégage une forme dans un bloc de marbre. Vingt à cinquante passes suffisent pour qu’une image cohérente apparaisse.
Concrètement, un réseau de neurones (de type UNet, une architecture en forme de U qui analyse l’image à plusieurs échelles) examine le bruit à chaque étape et prédit quel grain retirer. Le résultat : une image qui n’a jamais existé, mais qui ressemble aux millions de photos sur lesquelles le modèle s’est entraîné.
5,85 milliards de photos pour apprendre à voir
Un modèle de diffusion ne crée rien à partir de rien. Il a besoin de données. Beaucoup de données. Le jeu de données LAION-5B, utilisé pour entraîner Stable Diffusion, contient 5,85 milliards de paires image-texte. Chaque paire associe une photo (récupérée sur le web) à sa description. Pour entraîner Stable Diffusion 1.5, Stability AI a puisé dans un sous-ensemble de 2 milliards d’images.
Ces images proviennent d’Internet : photos de presse, illustrations d’artistes, clichés amateurs, œuvres protégées par le droit d’auteur. C’est là que le bât blesse. Des artistes ont attaqué Stability AI et Midjourney en justice. En décembre 2025, un tribunal allemand a statué sur l’affaire Kneschke contre LAION, posant les premières bases juridiques européennes sur la fouille de données (text and data mining) appliquée à l’IA. Le tribunal a jugé que LAION pouvait invoquer une exception pour la recherche scientifique, mais le débat est loin d’être clos.
Le contenu de ces bases de données pose un autre problème. Des chercheurs de Stanford ont découvert que LAION-5B contenait des images pédocriminelles, des stéréotypes racistes et des contenus pornographiques non consentis. Les données d’entraînement façonnent ce que le modèle peut produire. Si la base contient des biais, le générateur les reproduit.
L’espace latent : compresser le monde en 64 pixels
Travailler directement sur une image de 512 par 512 pixels, c’est manipuler 786 432 valeurs numériques (trois canaux de couleur par pixel). Trop lourd pour un processus qui répète 50 fois la même opération. La solution : passer par un espace « latent », une version ultra-compressée de l’image.
Un auto-encodeur variationnel (VAE pour Variational Auto-Encoder) compresse l’image en une grille de 64 par 64 valeurs, soit 64 fois moins de données. Le modèle de diffusion travaille dans cet espace réduit, puis le VAE décompresse le résultat en image pleine résolution. C’est pour ça que Stable Diffusion s’appelle en réalité « Latent Diffusion Model ». Cette astuce a rendu la génération d’images accessible sur des cartes graphiques grand public, là où les premières versions nécessitaient des clusters de serveurs.
Le texte comme boussole
Taper « un chat roux sur un canapé bleu » et obtenir exactement ça, ce n’est pas de la magie. C’est le travail d’un encodeur de texte appelé CLIP, développé par OpenAI. CLIP traduit votre phrase en un vecteur numérique (une longue liste de chiffres) qui capture le sens de chaque mot et les relations entre eux.
Ce vecteur guide le processus de débruitage. À chaque étape, le modèle ne retire pas le bruit au hasard : il le retire dans la direction qui rapproche l’image émergente de la description textuelle. Les spécialistes parlent de « diffusion guidée ». Le texte agit comme une boussole qui oriente le sculpteur à chaque coup de ciseau.
C’est aussi pourquoi la formulation du prompt compte autant. Un texte vague produit une image générique. Un prompt précis, avec des indications de lumière, de cadrage ou de style, canalise le débruitage vers un résultat plus fidèle à ce que l’utilisateur avait en tête.
Quand la machine dérape
Le modèle ne « comprend » pas ce qu’il génère. Il reconnaît des patterns statistiques. Il sait que certains pixels vont ensemble parce qu’il les a vus des millions de fois, pas parce qu’il sait ce qu’est un visage ou un corps. Cette absence de compréhension explique les dérives.
Grok, le générateur d’images de xAI (la société d’Elon Musk), a permis de créer des images sexualisées non consenties via un mode baptisé « Spicy Mode ». Résultat : l’Irlande, les Pays-Bas, le Royaume-Uni et la Commission européenne ont lancé des enquêtes formelles. Un tribunal néerlandais a ordonné à xAI de cesser de produire ce type de contenu pour les résidents néerlandais. En parallèle, Hollywood a déposé plainte contre Seedance 2.0, le générateur vidéo de ByteDance, accusé de piratage massif d’œuvres protégées.
La technologie évolue plus vite que le cadre juridique. Flux 1.1 Pro (Black Forest Labs), sorti fin 2025, produit des images quasi indiscernables de vraies photos. Les modèles de nouvelle génération combinent diffusion et transformers (l’architecture derrière ChatGPT) pour gagner en cohérence et en vitesse. La génération vidéo suit la même trajectoire, avec Sora (OpenAI), Seedance (ByteDance) et Veo (Google) qui appliquent les mêmes principes au mouvement.
Le règlement européen sur l’IA (AI Act), entré en application progressive depuis 2024, impose aux fournisseurs de modèles génératifs de documenter leurs données d’entraînement et de respecter le droit d’auteur. Les premières sanctions pourraient tomber dès 2026. D’ici là, chaque image générée reste le produit d’un processus mathématique nourri par des milliards de photos humaines, sans que la question du consentement des personnes photographiées ou des artistes copiés ait trouvé de réponse définitive.