Les systèmes d’intelligence artificielle (IA), qui exploitent des fonctionnements inspirés du cerveau, sont aujourd’hui au cœur de toutes les attentions. Elles sont capables « d’apprendre » en intégrant des masses de données. Ces « élèves » d’un nouveau genre ne semblent cependant pas encore assez doués pour certains scientifiques : ainsi, une équipe de chercheurs a récemment mené des expérimentations pour réduire le temps d’apprentissage nécessaire au développement d’une IA.
Les chercheurs ont pour le moment mis en ligne une prépublication sur arXiv, en attendant la validation par les pairs : « Nous sommes ravis que les résultats soient confirmés et étudiés plus avant par la communauté des chercheurs », affirment-ils ainsi. Dans cet écrit, ils disent avoir trouvé une solution qui pourrait réduire de beaucoup le temps d’apprentissage des intelligences artificielles.
Pour rappel, l’intelligence artificielle, ou IA, est selon le Conseil de l’Europe « une discipline jeune d’une soixante d’années, qui réunit des sciences, théories et techniques (notamment logique mathématique, statistiques, probabilités, neurobiologie computationnelle et informatique) et dont le but est de parvenir à faire imiter par une machine les capacités cognitives d’un être humain ».
Les intelligences artificielles de niveau humain, éléments populaires dans la science-fiction, alimentent beaucoup de fantasmes. Pourtant, la réalité est encore loin de nous proposer des machines comme celles que l’on voit dans les films. Les spécialistes préfèrent donc souvent à ce terme le nom exact des technologies concrètement à l’œuvre. C’est-à-dire, dans de très nombreux cas actuellement, le « machine learning » (« apprentissage automatique »).
Dans ce cas, « l’intelligence artificielle » consiste en un système qui est « nourri » d’une grande quantité de données pour « apprendre » et extraire des connexions logiques en vue d’un objectif donné. Cela peut être, par exemple, apprendre à reconnaître des visages, des textes, ou même générer des paysages réalistes à partir de mots. Ces méthodes d’apprentissage sont inspirées du fonctionnement des neurones biologiques, qui s’est ensuite rapproché des méthodes statistiques. On parle donc de « réseau neuronal artificiel ».
Les données envoyées vont donc circuler dans une « grille » artificielle de neurones, généralement virtuels. Ce sont des points dans le réseau liés entre eux par du code informatique. Ce réseau reçoit donc une information entrante, les données d’apprentissage, et émet une information sortante.
Diviser le temps de calcul par deux
C’est à l’étape suivante que se sont intéressés les scientifiques de cette étude. En effet, dans les méthodes actuelles, les données traversent ce réseau, puis un deuxième processus consiste à évaluer la qualité de l’information à la sortie pour calculer un gradient : celui-ci indique comment les pondérations dans les calculs doivent être effectuées pour améliorer l’IA. Mais pour le calcul de ce gradient, il faut « repartir » en sens inverse, remonter toute la chaîne de neurones après le premier passage des données : on appelle ce procédé « rétropropagation ». Tout ce processus, répété encore et encore, est très chronophage. Il dure parfois plusieurs mois, pour aboutir à une IA « intégralement » entraînée.
Pour réduire ce temps d’apprentissage, l’équipe de scientifiques a donc cherché à fusionner ces deux étapes en une seule, grâce à ce qu’ils ont appelé le « forward gradient ». L’idée est de faire circuler les données une seule fois dans le réseau neuronal et de calculer directement une approximation du gradient à partir de ce passage. Forcément, comme on ne remonte pas tout le réseau, cela réduit le temps de calcul.
Les premiers calculs effectués de cette façon leur semblent plutôt encourageants : « Du point de vue de la différenciation automatique appliquée au machine learning, le ‘Saint Graal’ est de savoir si l’utilité pratique de la descente de gradient peut être obtenue en utilisant uniquement le forward gradient, éliminant ainsi le besoin de rétropropagation. Cela pourrait potentiellement modifier la complexité de calcul des pipelines de formation de machine learning typiques, réduire le temps et les coûts énergétiques de l’apprentissage, influencer la conception du matériel pour le machine learning et même avoir des implications concernant la plausibilité biologique de la rétropropagation dans le cerveau ».
Dans le meilleur des cas, affirment les scientifiques, et selon les domaines, la réduction du temps de calcul pourrait aller jusqu’à une division par deux. Beaucoup de tests restent cependant à faire pour pouvoir l’affirmer. À terme, les scientifiques espèrent aussi que leurs recherches pourront aider à mieux comprendre le fonctionnement du cerveau humain sur certains aspects précis : « À plus long terme, nous souhaitons voir si l’algorithme du forward gradient peut contribuer à la compréhension mathématique des mécanismes d’apprentissage biologiques dans le cerveau. En effet, la rétropropagation a été historiquement considérée comme biologiquement invraisemblable, car elle nécessite une connectivité précise vers l’arrière ».