Obtenir une « vraie » photo à partir d’un simple croquis du visage d’une personne ? C’est ce qu’est capable de faire la nouvelle intelligence artificielle créée par une équipe de chercheurs de l’Académie des sciences de Pékin. Aucun talent artistique requis, ni aucune compétence en programmation pour mettre en œuvre cet algorithme !

L’intérêt ? Le programme conçu par Lin Gao et son équipe pourrait par exemple être utilisé dans le cadre d’enquêtes criminelles pour la réalisation rapide de portraits-robots de suspects, ou dans la conception d’images de synthèse pour le cinéma ou les jeux vidéos.

Un visage réaliste à partir d’un gribouillis

Comme toute intelligence artificielle, celle-ci a bénéficié d’un entraînement intensif : pour cela, ses concepteurs ont utilisé un ensemble de 17’000 photos de célébrités, accessibles au public. Chacune d’elle a été simplifiée à l’extrême, à l’aide d’un logiciel de traitement d’images, de manière à ressembler à un dessin au crayon. Ne restait plus qu’à entraîner l’algorithme avec ces multiples paires photo-dessin.

Le programme, baptisé DeepFaceDrawing, a notamment appris à reconnaître cinq zones distinctes sur n’importe quel dessin de visage : l’œil gauche, l’œil droit, le nez, la bouche et le reste du visage. Les yeux sont séparés en deux parties distinctes de manière à avoir plus de flexibilité au niveau de l’expression du visage. Une fois ces zones clairement identifiées et délimitées, l’IA génère en temps réel les détails de chacun de ces composants et les assemble en une représentation photoréaliste. Tout le processus est automatique, aucun paramètre particulier n’est à définir en amont. Chaque modification appliquée sur le croquis est immédiatement reportée sur la photo. Le résultat est saisissant :

Dans cette vidéo, plusieurs essais sont réalisés en direct : le portrait-photo prend forme au fur et à mesure des tracés. Cheveux, pilosité, maquillage, expression du visage, tout y est ! Si quelques artefacts minimes persistent, notamment au niveau de la bouche, le résultat est tout de même impressionnant.

Les plus doués en dessin obtiendront sans aucun doute les meilleurs résultats finaux ; l’algorithme pourra en effet se fier à 100% au croquis réalisé. Pour les moins talentueux, les créateurs de DeepFaceDrawing ont prévu un système de pondération : chacune des cinq zones caractéristiques peut ainsi être affectée d’un coefficient traduisant le niveau de confiance vis-à-vis du tracé original. Le rendu final peut ainsi être affiné en faisant varier les différents coefficients.

modification coefficient confiance zones croquis

Chacune des cinq zones du visage peut être affectée d’un « coefficient de confiance » vis-à-vis du dessin donné en entrée. En haut à droite : l’algorithme utilise complètement les données du croquis pour générer l’image. En bas à gauche : ici, l’algorithme se fie complètement aux données d’interpolation pour générer le portrait (wb =0) ; c’est ce qui offre dans ce cas le meilleur résultat.

L’un des co-auteurs de l’étude, Hongbo Fu, de la School of Creative Media de Hong Kong, précise toutefois que pour le moment, l’algorithme ne produit pas de photos de personnes de différentes couleurs de peau. En effet, les photos de célébrités utilisées pour former l’IA représentaient principalement des personnes de type caucasien, ce qui influence nécessairement l’image générée par le programme. L’équipe envisage maintenant d’ajouter un paramètre permettant de sélectionner manuellement le teint avant la réalisation du portrait. De plus, ils prévoient d’étendre les possibilités de leur algorithme de manière à générer de la même façon des photographies d’objets à partir de croquis.

Cliquez ici pour supprimer les publicités.

Des technologies de plus en plus utilisées

Cet algorithme n’est pas sans rappeler GauGAN, l’IA conçue par Nvidia, dévoilée l’an passé, capable de générer un paysage réaliste à partir d’un simple dessin en couleurs. GauGAN était alors comparé à un « pinceau intelligent », capable d’ajouter les détails une fois la vue d’ensemble correctement segmentée et les contours clairement identifiés. GauGAN se concentre sur des éléments naturels comme la terre, la mer et le ciel, le réseau neuronal sous-jacent est capable de remplir d’autres caractéristiques du paysage, y compris les bâtiments, les routes et les personnes (voir la vidéo ci-dessous).

Les paysages sont générés à la volée et l’IA va même jusqu’à ajouter des détails tels que le reflet d’un arbre à la surface de l’eau. Ce type d’outils exploite les réseaux antagonistes génératifs (ou GAN), une classe d’algorithme d’apprentissage non supervisé, permettant de générer des images particulièrement réalistes.

Le système conçu par Shu-Yu Chen et son équipe a appris à sélectionner point par point le portrait qui représente la meilleure approximation du dessin qu’on lui fournit. Le croquis dessiné constitue ainsi une contrainte, qui permet d’après les concepteurs, de « respecter fidèlement les intentions de l’utilisateur dans les traits qu’il trace ».

processus ia photo croquis

La réalisation des portraits repose sur la combinaison de trois modules, ayant chacun leur fonction propre. Crédits : Shu-Yu Chen et al.

Le processus de construction des portraits repose en réalité sur trois modules. Le premier, le module d’intégration des composants, correspond à la décomposition du dessin en zones caractéristiques (yeux, nez, bouche, forme globale du visage) ; les modules suivants consistent en l’assemblage de ces différentes parties de façon à former un ensemble cohérent, puis en l’ajout des détails dans chacune des parties, pour finalement générer une image de 512 x 512 pixels, une résolution tout à fait honorable pour ce genre d’outil.

Comparé à d’autres solutions existantes de génération d’images (pix2pix, pix2pixHD, Lines2FacePhoto et iSketchNFill), à partir des mêmes croquis de départ, DeepFaceDrawing sort réellement du lot et fournit des résultats de plus grande qualité. L’algorithme n’est toutefois pas infaillible, comme le montre cet exemple beaucoup moins réussi :

erreur IA photo croquis

Un exemple moins réussi : les yeux sont de différentes couleurs et sur le croquis, la bouche est légèrement en dessous de la position attendue, ce qui conduit à un résultat flou pour cette zone. Crédits : Shu-Yu Chen et al.

Sur le même sujet : Une IA recrée Pac-Man simplement en regardant le jeu en action

Le code de l’algorithme doit a priori bientôt être mis à disposition du public. Problème : certains craignent une utilisation du programme à des fins malhonnêtes, notamment pour réaliser des faux documents ou alimenter les réseaux sociaux de milliers de faux comptes.

Source : arXiv.org, Shu-Yu Chen et al.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Cliquez pour accéder à d'autres articles sur ce sujet.