Microsoft et Nvidia battent des records avec un réseau de neurones qui imite le langage humain

L’intelligence artificielle, dans ses plus grandes et ambitieuses applications, nécessite une puissance de calcul conséquente, d’où la nécessité de recourir à de puissants ordinateurs mis en réseau pour en augmenter la capacité totale. Dans une prouesse sans égal, le géant Microsoft et le célèbre fabricant de puces et cartes graphiques Nvidia ont créé une vaste intelligence artificielle capable d’imiter le langage humain de manière plus convaincante que jamais.

Dans leur développement commun, les deux géants de l’informatique se sont rapidement heurtés au premier problème évoqué : plus un projet s’appuyant sur l’intelligence artificielle est ambitieux, plus il sera limité par l’infrastructure technologique plutôt que par la théorie. À cela s’ajoutent le coût et le temps nécessaires à la mise en place d’un système d’une telle envergure. Autrement dit, la possibilité de faire évoluer de telles IA est à ce jour fortement limitée par ces obstacles.

Le projet consistait à développer un réseau neuronal gigantesque, comptant plus de 530 milliards de paramètres ! Baptisé Megatron-Turing Natural Language Generation (MT-NLG), ce système compte ainsi plus du triple de paramètres du réseau neuronal révolutionnaire GPT-3 d’OpenAI, considéré jusqu’à présent comme le plus riche à ce niveau-là.

Un projet malheureusement trop énergivore, coûteux et chronophage

Puisque l’on parle de coûts et de temps, précisons d’entrée que ce développement a nécessité plus d’un mois de travail sur un superordinateur doté de près de 4500 cartes graphiques très puissantes (et donc coûteuses), qui sont généralement utilisées pour exécuter des réseaux neuronaux haut de gamme.

Lorsqu’OpenAI a publié GPT-3 l’année dernière, il a surpris les chercheurs par sa capacité à générer des flux de texte fluides. Il utilisait pour cela 175 milliards de paramètres — des emplacements de données alloués au sein d’un ordinateur qui reproduisent les synapses entre les neurones du cerveau — ainsi que de grandes quantités de textes accessibles publiquement à partir desquels il a appris des modèles de langage. Depuis, Microsoft a acquis une licence exclusive d’utilisation de GPT-3.

Mais l’entreprise voulait faire mieux et plus grand. Lorsque Microsoft et Nvidia ont testé MT-NLG sur une série de tâches linguistiques, telles que la prédiction du mot qui suit une section de texte et l’extraction d’informations logiques du texte, ils ont constaté qu’il était légèrement meilleur que GPT-3 à compléter des phrases avec précision et à imiter le raisonnement de bon sens. Sur un point de référence où l’IA doit prédire le dernier mot d’une phrase, GPT-3 a obtenu une précision de 86,4%, tandis que la nouvelle IA a atteint 87,2%.

evolution taille nlp ia — Évolution de la taille (en milliards de paramètres) des différents modèles de NLP (Natural Language Processing) de pointe au fil du temps. © Nvidia

Cette infime différence serait simplement due à la quantité plus importante de neurones (paramètres). Et c’est loin d’être bon marché… « L’entraînement d’un de ces modèles coûte effectivement des millions de dollars car les ressources informatiques nécessaires à cet effet augmentent rapidement avec la taille du modèle », explique Bryan Catanzaro de Nvidia.

MT-NLG a été entraîné à l’aide du superordinateur Selene de Nvidia, composé de 560 serveurs haute performance, chacun équipé de huit unités de traitement graphique (GPU) Tensor Core A100 de 80 Gb. Chacune de ces 4480 cartes graphiques, initialement conçues pour les jeux vidéo mais aussi extrêmement performantes pour traiter de grandes quantités de données tout en formant des IA, coûte actuellement des milliers d’euros dans le commerce. Bien que la totalité de la puissance de l’ordinateur n’ait pas été utilisée uniquement par cette équipe de recherche, il a fallu plus d’un mois pour former l’IA.

Même l’exécution du réseau neuronal une fois qu’il est formé nécessite tout de même 40 de ces GPU, et chaque requête prend entre 1 et 2 secondes à traiter. Cette extension constante de l’échelle signifie que la recherche sur l’IA est désormais, dans une certaine mesure, un problème d’ingénierie consistant à diviser efficacement le problème et à le répartir sur de grandes quantités de matériel.

Quand l’échelle touche le plafond des coûts…

Catanzaro affirme que l’échelle a été la force dominante dans l’apprentissage automatique pendant des décennies. « Il est tout à fait vrai que de meilleurs algorithmes aident, et il est 100% vrai que plus de données et de meilleures données aident absolument, mais je pense que l’échelle de calcul a vraiment été la force motrice de beaucoup de progrès dans ce domaine », dit-il.

Voir aussi

Google développe un simulateur amélioré par l IA capable de révolutionner la prévision météorologique couv

Technologie

·4 min de lecture

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Bien entendu, de nombreux chercheurs hésitent à se fier à la seule mise à l’échelle, car ils souhaitent une solution plus élégante, surtout que les mesures de référence reflètent de petites améliorations. Cependant, d’autres chercheurs pensent qu’il y a des progrès significatifs dans la façon dont les IA raisonnent et extraient des informations nuancées simplement en augmentant l’échelle des systèmes.

Samuel Bowman, de l’université de New York, estime que les critères actuels d’évaluation de la qualité des IA de traitement du langage arrivent à la fin de leur vie utile et que les chercheurs sont à la recherche de nouvelles mesures pouvant être utilisées pour évaluer la qualité du langage et même du raisonnement. Ces mêmes chercheurs attendent aussi « nerveusement » de savoir si l’échelle peut continuer à apporter des améliorations ou si elle va atteindre un plafond, dit-il, car le coût de la recherche dans ce domaine augmente rapidement.

« Il s’agit sans aucun doute de certains des projets les plus coûteux dans ce domaine, mais le fait qu’ils soient trop coûteux dépend de la façon dont on perçoit leur potentiel », explique-t-il. « Si vous les voyez comme des étapes vers une forme d’IA assez largement utile, et que vous considérez cela comme souhaitable, alors il est facile d’imaginer justifier des budgets beaucoup plus importants ».

« La qualité et les résultats que nous avons obtenus aujourd’hui constituent un grand pas en avant vers la réalisation de toutes les promesses de l’IA en langage naturel. Les innovations de DeepSpeed et de Megatron-LM profiteront au développement de modèles d’IA actuels et futurs et rendront l’entraînement de grands modèles d’IA moins coûteux et plus rapide », écrivent les chercheurs dans le communiqué de Nvidia. Les nouveaux modèles d’IA permis par une telle infrastructure pourraient donc également contribuer à les rendre plus rapides et moins énergivores, ce qui par conséquent permettrait d’en réduire la taille.

Laisser un commentaire

Un commentaire

Cobe dit :

20 octobre 2021 à 8:43 am

J’aurais pensé que c’est la réduction de la taille des réseaux qui les rend plus rapides et moins énergivores, pas le sens opposé.
En revanche, les efforts de recherche sur l’interprétabilité des réseaux de neurones profonds me semble une piste prometteuse, plus qu’une force de frappe économique qui sera probablement trop lourde pour beaucoup d’applications.

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

La Russie annonce le début de la construction de sa nouvelle station spatiale pour 2027

Microsoft et Nvidia battent des records avec un réseau de neurones qui imite le langage humain

Un projet malheureusement trop énergivore, coûteux et chronophage

Quand l’échelle touche le plafond des coûts…

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude