Un nouvel outil « empoisonne » les images pour qu’elles soient inutilisables par l’IA générative

nightshade cet outil empoisonne images pour quelles ne soient pas utilisees ia couv
| Pixabay
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

Des chercheurs ont développé un nouvel outil qui pourrait aider à empêcher les développeurs de systèmes d’IA générative d’utiliser sans autorisation des images publiées sur le web pour entraîner leurs modèles. Cette technologie ne consiste pas en une simple protection ponctuelle pour les œuvres numériques : si déployée, elle altérerait le fonctionnement même de ces systèmes d’IA, sur le long terme.

Depuis l’essor des modèles d’IA générative, de vives tensions se sont installées entre la communauté artistique et les géants de l’intelligence artificielle, dont Meta, OpenAI, Google et Stability AI. Protégeant leurs créativités, les artistes reprochent à ces entreprises d’avoir puisé dans leurs œuvres pour former leurs modèles sans la moindre autorisation ou compensation.

Dans ce contexte de discorde, une équipe de chercheurs de l’Université de Chicago, sous la houlette de Ben Zhao, a mis au point un outil innovant nommé « Nightshade ». Il a été créé dans l’unique but de lutter contre l’utilisation non autorisée des images par les entreprises technologiques. Nightshade a la capacité « d’empoisonner » les images pour qu’elles deviennent contre-productives pour les IA, et donc inutilisables pour l’entraînement de ces dernières. C’est le magazine MIT Technology Review qui a levé le voile sur cet outil, ayant déjà eu un aperçu exclusif du document de recherche lié.

Un outil au service des artistes

Nightshade permet aux créateurs d’ajouter des modifications imperceptibles dans les pixels de leurs créations avant de les téléverser. Ces modifications permettent de déstabiliser la formation des modèles d’IA. Ainsi, si un modèle est entraîné en utilisant des œuvres traitées avec Nightshade, les résultats générés divergent radicalement de ce qui est attendu. L’équipe de recherche compte mettre l’outil à disposition de tous en open source, ce qui permettra potentiellement de le rendre plus puissant et disponible sous plusieurs versions.

Nitghtshade
Comparaison entre des images générées avec un modèle d’IA normal et celles générées avec un modèle d’IA « empoisonné ». © Ben Zhao et al. sur MIT Technology Review

Il est à noter que Ben Zhao avait déjà conçu Glaze, une technologie similaire à Nightshade que nous avons d’ailleurs présentée il y a quelques semaines. Cet autre outil superpose une couche discrète à une image. Le filtre est imperceptible pour l’humain, mais pour l’IA, il modifie totalement le style artistique de l’œuvre, conduisant à des interprétations erronées.

Par ailleurs, l’équipe de Zhao envisage d’intégrer Nightshade à Glaze, offrant aux artistes plus de protection. Ainsi, lors de la mise en ligne de leurs œuvres, ces derniers pourront opter pour l’outil de leur choix, que ce soit Nightshade, Glaze, ou une combinaison des deux.

Le mécanisme de Nightshade

Concrètement, Nightshade fonctionne en exploitant une faille de sécurité présente dans les modèles d’IA générative. En introduisant des échantillons d’images « empoisonnées » (ici avec Nightshade) dans les données servant à l’entraînement de l’IA, il est possible d’induire des défaillances majeures.

D’ailleurs, les chercheurs auraient eu des résultats surprenants suite à leurs premiers tests avec cet outil. Ils ont pu tromper l’IA à tel point qu’elle percevait des images de chapeaux comme étant des images de gâteaux et des images de sacs à main comme étant des images de grille-pain. Par conséquent, lorsqu’ils sollicitaient l’IA pour fournir une image de chapeau ou de sac, ils obtenaient des visuels de gâteaux ou de grille-pain, respectivement.

Les scientifiques ont également tenté de manipuler les modèles de Stable Diffusion. Ils ont initialement intégré 50 échantillons d’images empoisonnées de chiens. Ensuite, en réponse à une demande de génération d’image de chien, l’IA a produit une étrange créature qui ne ressemblait que très peu à un canidé. Encore plus intriguant, après l’introduction de 300 images empoisonnées de chiens, l’IA a fini par générer une image de chat à la place.

images générées par les modèles d'IA infecté par Nightshade
Représentation des images générées par le modèle en fonction du nombre d’images empoisonnées utilisées (de 0 à 300). © Ben Zhao et al. sur MIT Technology Review

Un point crucial à retenir est que Nightshade ne se contente pas d’affecter un seul terme. Il perturbe l’ensemble des mots associés au sein d’un champ lexical donné. Cependant, malgré son potentiel, cette technologie n’est pas sans risque. Selon des informations relayées par le MIT Technology Review, elle pourrait par exemple être détournée à des fins malintentionnées. Toutefois, Ben Zhao tient à apaiser les éventuelles inquiétudes, car d’après lui, pour réussir à déstabiliser les grands modèles d’IA, des milliers d’images empoisonnées sont nécessaires.

Laisser un commentaire