Une intelligence artificielle réplique avec succès les capacités de reconnaissance visuelle humaines

ia vision humain
| UCLA
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

Le système de vision humain est une structure complexe permettant à l’Homme de réaliser des processus de reconnaissance contextuelle approfondie, comme la discrimination d’objets précis noyés parmi d’autres objets secondaires, ou la reconstruction visuelle d’un objet à partir d’éléments partiels. Bien que les capacités de reconnaissance visuelle de l’IA aient évolué au cours de ces dernières années, elles restent encore fortement limitées par l’apprentissage obligatoire en amont. Cependant, une équipe d’ingénieurs américains a mis au point une nouvelle intelligence artificielle repérant et identifiant avec succès des objets à l’instar des humains.

Le système constitue une avancée dans un type de technologie appelée « vision par ordinateur », qui permet aux ordinateurs de lire et d’identifier des images visuelles. C’est un pas important vers les systèmes généraux d’intelligence artificielle.

Bien que les systèmes de vision artificielle par IA actuels soient de plus en plus puissants et performants, ils sont spécifiques à une tâche, ce qui signifie que leur capacité à identifier ce qu’ils voient est limitée par la manière dont ils ont été entraînés et programmés par les humains.

Même les meilleurs systèmes de vision par ordinateur actuels ne peuvent pas créer une image complète d’un objet après en avoir vu seulement certaines parties — et les systèmes peuvent être trompés en regardant l’objet dans un cadre inconnu. Les ingénieurs cherchent à créer des systèmes informatiques dotés de ces capacités — tout comme les humains peuvent comprendre qu’ils regardent un chien, même si l’animal se cache derrière une chaise et que seules les pattes et la queue sont visibles.

Bien entendu, les humains peuvent aussi facilement estimer où se trouvent la tête du chien et le reste de son corps, mais cette capacité échappe encore à la plupart des systèmes d’intelligence artificielle. Les systèmes de vision par ordinateur actuels ne sont pas conçus pour apprendre par eux-mêmes. Ils doivent être formés pour savoir exactement quoi apprendre, généralement en examinant des milliers d’images dans lesquelles les objets qu’ils tentent d’identifier sont étiquetés pour eux.

mosaique elements moto
La vision humaine est capable de reconstituer l’image d’un objet précis à partir d’une multitude d’éléments parties constituant cet objet. Les systèmes de vision par ordinateur actuels n’en sont pas capables. Ici, une mosaïque de diverses parties de moto. Crédits : UCLA

Les ordinateurs ne peuvent pas non plus expliquer leur raison de déterminer ce que représente un objet sur une photo : les systèmes basés sur l’IA ne construisent pas d’image interne ni de modèle de sens commun d’objets appris, comme le font les humains. La nouvelle méthode des ingénieurs, décrite dans la revue Proceedings of the National Academy of Sciences, permet de contourner ces lacunes.

Sur le même sujet : Babylon : l’intelligence artificielle qui diagnostique des patients aussi bien que des médecins expérimentés

L’approche est composée de trois grandes étapes. Premièrement, le système décompose une image en petits morceaux, que les chercheurs appellent des  « viewlets ». Deuxièmement, l’ordinateur découvre comment ces viewlets s’assemblent pour former l’objet en question. Et enfin, il examine quels autres objets se trouvent dans la zone environnante et si les informations relatives à ces objets sont pertinentes pour la description et l’identification de l’objet principal.

reconstitution image moto
L’intelligence artificielle développée par les ingénieurs de l’UCLA est capable de reconstituer l’image d’une moto à partir de divers éléments partiels de celle-ci. Crédits : UCLA

Pour aider le nouveau système à « apprendre » davantage comme les humains, les ingénieurs ont décidé de le plonger dans une réplique Internet de l’environnement dans lequel vivent les humains. En outre, ils se sont inspirés des processus étudiés par la psychologie cognitive et les neurosciences.

« Heureusement, Internet fournit deux choses qui aident un système de vision par ordinateur inspiré par le cerveau à apprendre de la même façon que les humains » déclare Vwani Roychowdhury, professeur de génie électrique et informatique à l’UCLA. « L’une est une profusion d’images et de vidéos décrivant les mêmes types d’objets. La seconde est que ces objets sont présentés sous plusieurs angles — obscurcis, en plongée, de près — et qu’ils sont placés dans différents types d’environnements ».

reconstitution image humain
De la même manière que pour la moto, l’IA est capable de reconstituer l’image d’un corps humain à partir de ses divers éléments éparpillés. Crédits : UCLA

« Dès le début, nous apprenons ce qu’est quelque chose parce que nous en voyons de nombreux exemples, dans de nombreux contextes » explique Roychowdhury. « Cet apprentissage contextuel est une caractéristique clé de notre cerveau et nous aide à construire des modèles robustes d’objets, qui font partie d’une vision du monde intégrée, où tout est connecté de manière fonctionnelle ».

Les chercheurs ont testé le système avec environ 9000 images, chacune montrant des personnes et d’autres objets. La plate-forme a pu construire un modèle détaillé du corps humain sans aide extérieure ni étiquetage des images.

Les ingénieurs ont effectué des tests similaires en utilisant des images de motos, de voitures et d’avions. Dans tous les cas, leur système fonctionnait mieux ou du moins aussi bien que les systèmes de vision par ordinateur traditionnels qui ont été mis au point après de nombreuses années de formation.

Source : PNAS

Laisser un commentaire
Cliquez pour accéder à d'autres articles sur ce sujet.