
Cet article est extrait du mensuel Sciences et Avenir – La Recherche n°908, daté d’octobre 2022.
Est-ce une image réelle ou produite par un algorithme ? Sans cesse, les progrès fulgurants de l’intelligence dite artificielle (IA) brouillent un peu plus la frontière entre la réalité et son imitation. Les premiers mois de 2022 ont permis de franchir une étape inédite : arrivés à maturité, les travaux de recherche permettent de transformer de manière troublante les mots en images (photos, dessins, croquis, imitation collage, etc.) d’un écran d’ordinateur.
Les plus puissantes de ces technologies ne sont encore qu’en accès restreint. Mais pour nous convaincre, d’autres sont déjà disponibles en ligne. Dall-E 2 (nom associant celui de Salvador Dalí et du robot Wall-E du film éponyme) est le plus connu. Il a été dévoilé en avril par le centre de recherche privé sur l’intelligence artificielle OpenAI, en suivant les développements. Craiyon est une version simplifiée pour le grand public. Imagen, de Google, et StableDiffusion, conçu par un groupe de recherche de l’Université Ludwig-Maximilians de Munich (Allemagne) avec la start-up Stability.AI, sont spécialisés dans les rendus photoréalistes. Ceux de Midjourney, de la startup américaine du même nom, ont une esthétique d’œuvres d’art. En juin, l’hebdomadaire britannique L’économiste l’a même utilisé pour concevoir sa première page : un visage rétrofuturiste sur fond de formes géométriques colorées, qui illustrait un dossier consacré à “Nouvelles frontières de l’intelligence artificielle “.
Ce courant a un nom : “text-to-image”. Première étape, l’utilisateur génère des visuels de mots et de phrases en langage naturel. Mais l’état de la recherche permet d’aller beaucoup plus loin. En ajoutant des termes tels que “feutre”, “fusain”, “aquarelle”, mais aussi “Van Gogh” ou “Dali”, par exemple, il peut leur appliquer le style graphique correspondant.
Les niveaux de détails, la fidélité à la description proposée, le réalisme des textures peuvent prêter à confusion, même pour des textes sauvages. En témoigne la capacité d’Imagen à produire l’image d’un “Rap portant un casque d’astronaute, regardant par la fenêtre la nuit “. Un résultat spectaculaire, mais qui demande beaucoup d’essais et d’erreurs sur le texte avant d’obtenir un résultat satisfaisant.
Rarement cependant un travail de recherche ne s’est retrouvé aussi rapidement au cœur des questions de société, d’art et d’économie. Pour preuve : fin août, une table au nom théâtre d’opéra spatial, Généré par Midjourney et présenté comme tel au jury, a remporté un concours d’art numérique à la Colorado State Fair (USA). Un verdict, qui a immédiatement suscité la colère des autres artistes, qui utilisaient eux-mêmes des logiciels d’infographie classiques. L’homme lauréat (ou plutôt co-auteur) a dû se défendre en déclarant avoir passé 80 heures de travail, modifier son texte, corriger des éléments à la main avant d’arriver à l’œuvre finale.
Des résultats différents selon les bases de données d’images
Cependant, cette approche soulève des questions. L’artiste dépend ici des bases de données sur lesquelles les algorithmes sont entraînés. Cependant, ceux-ci ont des implications sur leurs performances, sans parler des biais qu’ils peuvent induire. “On peut obtenir des rendus très différents entre un algorithme entraîné sur une collection d’images postées sur Facebook et le même algorithme entraîné sur des images de Flickr, explique Michel Nerval, co-fondateur du studio de création numérique U2p050. Certains sont aussi bien mieux formés que d’autres. “
Le studio a sorti le roman graphique en septembre Moebia, “tirer” par l’algorithme de clip VQGan+ d’une histoire courte. Mais nous devons essayer de choisir parmi cinq bases de données. “Habituellement, on commençait par saisir une phrase écrite pour le livre. Parfois cela donnait directement le résultat attendu, mais parfois des phrases trop longues ‘perdaient’ l’IA et ne fonctionnaient pas. Dans ce cas, il faut compléter travailler par termes afin de guider l’algorithme “, détaille Michel Nerval.
La révolution du « text-to-image » est en fait une extension des IA dites génératives, comme les GAN, ou réseaux génératifs antagonistes, apparus en 2014. (Lis Ch. et un. n° 858, août 2018). L’approche consiste à ce que deux algorithmes se “confrontent”, l’un créant du contenu, l’autre pour le juger convenable ou non. Il est aussi parfois associé à la saisie de texte, comme dans GauGan 2 du géant des processeurs graphiques Nvidia.
L’outil GauGan De Nvidia vous permet de générer des photos à partir de croquis ordinaires. Il préfigure GauGan 2 qui part d’une description textuelle. Crédit : Nvidia
L’algorithme lie une description à une image qu’il n’a jamais vue
“L’innovation, du point de vue du texte, vient du modèle du clip, qui permet de présenter dans un espace commun le texte et les images », a relevé Matthieu Labeau, spécialiste du traitement automatique du langage à Télécom Paris. Publié en janvier 2021 par OpenAI, Clip s’entraîne sur 400 millions d’images et leurs descriptions textuelles trouvées sur Internet (légendes, métadonnées), et non plus sur des images avec un Libellé sommaire (“chien”, “chaise”) comme dans les jeux de données destinés aux chercheurs L’aspect massif du matériel d’entraînement rend donc l’algorithme capable d’extrapoler pour associer une description à une image qu’il n’a jamais vue.
L’objectif initial d’OpenAI était de pouvoir indexer et classer les images plus efficacement. Clip peut également être utilisé pour rechercher des images similaires ou un contenu modéré. Mais ce projet a conduit l’entreprise à développer l’algorithme génératif Dall-E, dont la première version est sortie en même temps que Clip. « Notre modèle est proche de celui de GPT (Modèle de traitement du langage naturel également créé par OpenAI, ndlr)Consiste à prédire un élément à la fois (mot, article, espace, ponctuation…, ndlr) Sauf qu’au lieu d’être des mots, ces éléments sont constitués de bribes d’images “, explique le créateur du crayon Boris Dayma.
Pour la composante “image”, une autre approche est impliquée : la “diffusion”. Ce type d’algorithme de deep learning produit du “bruit”, c’est-à-dire un nuage de pixels aléatoires. Puis il “débruite” progressivement en réorganisant les pixels non plus de manière aléatoire mais en tenant compte du texte décrivant l’image souhaitée. C’est l’efficacité de cette approche qui permet le photoréalisme de Dall-E 2, mal géré par la première version (qui n’utilisait pas la diffusion) ou Imagen.
Ce n’est qu’un début. Début septembre, une équipe du Massachusetts Institute of Technology (Cambridge, USA) a présenté la diffusion composable, une amélioration de la diffusion. “Les algorithmes actuels de ‘texte en image’ ont quelques difficultés à générer des scènes de descriptions complexes, par exemple lorsqu’il y a plusieurs adjectifs ; des éléments peuvent manquer à l’image “, a noté Shuang Li, co-auteur de l’étude.
L’approche proposée fait alors intervenir plusieurs modèles de diffusion prenant chacun en compte un morceau de composition. Cela tend à montrer encore une fois que si l’IA fait preuve de compétences époustouflantes, l’humain reste aux commandes. C’est lui qui maîtrise le code, le publie ou non, l’améliore, développe les modèles, décide des jeux de données d’entraînement. S’il s’agit de création de machines, cela dépend (encore) des humains.
Le côté obscur de la performance technique
Impossible, avec les algorithmes Midjourney ou Dal-E2, d’obtenir une image des termes à connotation sexuelle ou violente. Ils sont prêts à les bloquer. Mais StableDiffusion n’a pas ces garanties… d’où les inquiétudes de Joshua Achiam, spécialiste de l’apprentissage par renforcement chez OpenAI. Dans des tweets postés le 10 septembre, il salue les promesses de créativité “text-to-image”, mais craint l’afflux de contenus violents, choquants, manipulateurs.
Autre problème récurrent en IA : le biais. Comme ces algorithmes sont entraînés sur des contenus trouvés sur Internet, ils perpétuent des discriminations de toutes sortes. A cela s’ajoutent d’éventuelles atteintes au droit d’auteur. L’agence photo Getty Images a annoncé fin septembre qu’elle refuserait les images créées par l’IA, des œuvres protégées qui pourraient apparaître dans les bases d’entraînement sans autorisation.