Quelques « coups d’oeil » suffisent à cette IA pour en déduire une vue complète à 360 degrés

robot intelligence artificielle IA AI google deep ming autoML
| David Steadman/ Santhosh Ramakrishnan/ UT Austin
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

Des informaticiens ont mis au point une intelligence artificielle qui a été capable d’apprendre à voir « comme un humain ». Ils ont enseigné à leur système algorithmique à jeter un coup d’oeil rapide aux éléments de l’environnement alentour pour en déduire ensuite une vue d’ensemble.

Cette nouvelle compétence est nécessaire au développement de robots de recherche et de sauvetage efficaces, qui pourront un jour améliorer l’efficacité des missions dangereuses.

La plupart des agents d’intelligence artificielle (des systèmes informatiques susceptibles de doter des robots ou d’autres machines d’intelligence) sont formés à des tâches très spécifiques, telles que la reconnaissance d’un objet dans un environnement déjà expérimenté.

Ce nouvel agent informatique intelligent est destiné à un usage général, rassemblant des informations visuelles pouvant ensuite être utilisées pour un large éventail de tâches.

intelligence artificielle vue 360 degres
Le nouvel agent d’intelligence artificielle prend quelques « aperçus » de son environnement, représentant moins de 20% de la vue à 360 degrés, et en déduit le reste de l’environnement. Crédits : David Steadman/ Santhosh Ramakrishnan/ UT Austin

« Nous avons besoin d’agents équipés universels pour évoluer dans tout environnement en étant prêts pour de nouvelles tâches de perception, à mesure qu’elles se présentent », déclare Kristen Grauman, professeure au département d’informatique de l’Université du Texas à Austin. « Ce nouvel algorithme se comporte de manière polyvalente et il est capable de réussir différentes tâches, car il a appris des modèles utiles sur le monde visuel ».

Les chercheurs ont utilisé l’apprentissage profond, un type d’apprentissage automatique inspiré des réseaux de neurones du cerveau, pour former leur agent à des milliers d’images 360 degrés de différents environnements.

Lorsqu’on lui présente une scène qu’il n’a jamais vue auparavant, l’agent utilise son expérience pour choisir quelques aperçus — comme un touriste au milieu d’une ville prenant quelques clichés dans différentes directions — qui, ensemble, représentent moins de 20% de la scène complète.

Ce système est si efficace qu’il ne prend pas uniquement des photos dans des directions aléatoires, mais après chaque aperçu, le choix de la photo (emplacement à observer) suivante est fait, ce qui permet d’ajouter les informations les plus récentes sur la scène entière. L’étude a été publiée dans la revue Science Robotics.

C’est un peu comme si vous étiez dans un magasin auparavant inconnu et que vous voyiez des oranges, vous vous attendriez à trouver d’autres fruits à proximité, mais pour localiser des légumes par exemple, vous jetteriez probablement un coup d’œil dans l’autre sens.

En se basant sur des aperçus, l’agent déduit ce qu’il aurait pu voir s’il avait regardé dans toutes les autres directions, reconstruisant ainsi une image complète à 360 degrés de son environnement.

Vous allez aussi aimer lire : L’intelligence artificielle accélère le développement d’une énergie de fusion propre et pratiquement illimitée

« Tout comme vous apportez des informations préalables sur les régularités existant dans des environnements précédemment expérimentés (comme dans toutes les épiceries où vous êtes allé), cet agent effectue des recherches de manière non exhaustive », explique Grauman. « Il apprend à deviner de manière intelligente où rassembler des informations visuelles pour réussir des tâches de perception ».

L’un des principaux défis que se sont fixés les chercheurs a été de concevoir un agent capable de travailler dans des délais serrés. Cela serait essentiel dans une application de recherche et de sauvetage. Par exemple, dans un immeuble en feu, un robot serait appelé à localiser rapidement les personnes, les flammes et les matières dangereuses, et à transmettre ces informations aux pompiers.

Pour le moment, le nouvel agent ne peut pas se déplacer, bien qu’il ait la possibilité de diriger une caméra dans toutes les directions. De manière équivalente, l’agent peut regarder un objet qu’il tient et décider comment le bouger pour l’inspecter d’un autre côté. Dans une seconde étape, les chercheurs pourront développer le système afin qu’il puisse être utilisé sur un robot mobile.

En utilisant des superordinateurs, il a fallu environ une journée pour former leur agent en utilisant une approche d’intelligence artificielle appelée apprentissage par renforcement. L’équipe a mis au point une méthode pour accélérer la formation : ils ont créé un deuxième agent, appelé sidekick, pour aider l’agent principal dans son rude apprentissage.

« L’utilisation d’informations supplémentaires présentes uniquement pendant la formation, aide l’agent (principal) à apprendre plus vite », explique Ramakrishnan.

Bien que la mise au point d’une telle IA ne soit pas à la portée de tous, n’importe qui (de suffisamment motivé) ou n’importe quelle entreprise désirant innover, tel qu’abordé sur Microsoft experiences, peut s’essayer à cette expérience. Par exemple via des plateformes et logiciels spécialement conçus et abordables comme il en existe déjà sur le marché.

Sources : UT Austin, Science Robotics

Laisser un commentaire
Cliquez pour accéder à d'autres articles sur ce sujet.