Certaines questions que nous nous posons tous les jours, nécessitent un raisonnement rationnel, un élément important associé à la pensée et qui est compliqué de maîtriser pour une intelligence artificielle (IA). Mais à présent, les chercheurs de Google DeepMind ont développé un algorithme simple qui permet de gérer un tel raisonnement : l’IA en question a déjà battu les humains à un test de compréhension d’image complexe.
En général, les êtres humains sont assez doués concernant le raisonnement relationnel, un type de pensée qui se base sur la logique pour connecter et comparer des lieux, des séquences et autres entités. Mais les différentes IA développées jusqu’à présent, ont peiné à développer de telles compétences.
Par exemple, l’IA qui se base sur la technique de l’apprentissage automatique (ou apprentissage statistique), concerne la conception, l’analyse, le développement et l’implémentation de méthodes permettant à une machine (au sens large du terme) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou problématiques par des moyens algorithmiques plus classiques. Cette approche est formidable pour, par exemple, la reconnaissance des motifs, mais elle ne l’est pas concernant l’utilisation de la logique. Un autre exemple est l’IA symbolique, qui peut raisonner sur les relations en utilisant des règles prédéterminées, mais n’est pas très efficace pour apprendre par elle-même.
La nouvelle étude propose un moyen de combler ce fossé : créer un réseau neuronal artificiel pour le raisonnement relationnel.
De manière similaire aux connexions neuronales dans le cerveau, un réseau neuronal artificiel regroupe de petits programmes qui collaborent et utilisent différents modèles grâce à leurs données. Il peut y avoir des architectures spécialisées concernant le traitement des images, l’analyse du langage, ou même des jeux d’apprentissage.
Dans ce cas, le nouveau « réseau relationnel » est programmé pour comparer chaque paire d’objets dans un scénario donné, et de manière individuelle. « Nous forçons explicitement le réseau à découvrir les relations qui existent entre les objets », explique Timothy Lillicrap, de DeepMind à Londres, qui a co-rédigé l’étude.
Lillicrap et son équipe ont défié leur réseau relationnel de différentes manières. La première était de faire répondre l’IA à des questions concernant des relations entre différents objets sur une seule image, comme des cubes ou des cylindres. Par exemple : « Il y a un objet devant la chose bleue ; possède-t-il la même forme que le petit objet cyan qui se trouve à droite de la balle métallique grise ? ». Pour cette tâche, le réseau relationnel a été combiné avec deux autres types de réseaux neuronaux : l’un pour la reconnaissance des objets dans l’image, et l’autre pour interpréter la question.
Au cours des nombreuses questions concernant des images différentes, d’autres algorithmes d’apprentissage automatique ont été testés et ceux-ci ont été corrects entre 42 et 77 % du temps. Les êtres humains ont atteint un score de 92 %, tandis que le nouvel algorithme de réseau relationnel combiné aux deux autres réseaux neuronaux a été correct à 96 % : un score littéralement surhumain.
L’équipe de DeepMind a également défié son réseau neuronal avec une épreuve basée sur le langage, dans laquelle l’IA a reçu des séries de déclarations telles que : « Sandra a repris le ballon de foot » et « Sandra est allée au bureau ». Puis, des questions ont été posées à l’IA, telles que : « Où est le ballon de foot ? » (= au bureau). En réalisant cette expérience, l’équipe a constaté que l’IA répondait très bien à ces questions. Mais là où cette dernière a réellement excellé, était sur des questions sur les inférences : « Lily est un cygne. Lily est blanche. Greg est un cygne. De quelle couleur est Greg ? » (= blanc). Concernant ces questions, le réseau relationnel a répondu correctement dans 98 % des cas, tandis que ses concurrents ont chacun été corrects qu’à 45 % environ.
Finalement, l’algorithme a analysé des animations dans lesquelles 10 balles rebondissaient, et dont certaines étaient reliées par des fils invisibles. C’est en utilisant des modèles de mouvement uniquement, que l’IA a pu identifier plus de 90% des connexions entre les balles. L’IA a ensuite utilisé un modèle similaire par elle-même pour identifier des formes humaines représentées uniquement par des points en mouvement.
Cette simplicité, dont la majeure partie pourrait être écrite en une seule équation selon Lillicrap, permet de la combiner avec d’autres réseaux, comme c’était le cas lors de l’épreuve de la comparaison d’objets. Dans l’étude, les scientifiques appellent cette IA « un simple module plug-and-play » qui permet à d’autres parties du système de se concentrer sur les domaines dans lesquels ils excellent.
« L’une des forces de cette approche est qu’elle est conceptuellement assez simple », a déclaré Kate Saenko, de l’Université de Boston aux États-Unis, qui n’a pas participé à la nouvelle étude, mais qui a également développé conjointement un algorithme capable de répondre à des questions complexes sur les images. « J’ai été très impressionné par les résultats », explique Justin Johnson, de l’Université de Stanford à Palo Alto, en Californie (États-Unis), qui a conjointement développé le test de comparaison d’objets.
Cependant, Johnson estime que pour aborder une flexibilité telle que celle des êtres humains, il faudra apprendre à répondre à des questions plus complexes encore. Cela nécessitera la comparaison de non seulement des paires d’objets, mais des triplets, des paires de paires, ou encore des paires dans un ensemble plus large.
« Je suis intéressé à aller vers des modèles qui proposent leurs propres stratégies », explique-t-il. « DeepMind modélise un type particulier de raisonnement et ne va pas vraiment vers un raisonnement relationnel plus général. Mais c’est toujours une étape très importante dans la bonne direction ! », a-t-il conclu.
L’étude a été publiée sur arXiv.