Nvidia dévoile une nouvelle puce d'IA visant à « réduire drastiquement » les coûts d'exploitation des LLM (GPT, Bard, etc.)

L’évolution des performances des GPU façonne l’avenir du secteur de l’intelligence artificielle. Actuellement, Nvidia se positionne en leader incontesté du secteur des puces dédiées à l’IA, fournissant près de 90% des GPU spécifiquement adaptés aux applications d’IA. Renforçant sa domination, la société a récemment levé le voile sur sa nouvelle « super puce », la GH200, dont le lancement est attendu pour le deuxième trimestre de l’année à venir. Selon la firme, elle devrait réduire drastiquement les coûts d’exploitation des LLM (grands modèles de langage), tels que GPT ou Bard.

Lorsqu’on évoque le nom de Nvidia, la première chose qui vient à l’esprit est souvent leurs GPU. Ces derniers sont initialement conçus pour accélérer le traitement visuel (vidéo et image). Mais les GPU ont rapidement démontré leur polyvalence, se révélant particulièrement performants pour une gamme variée de calculs, y compris ceux au cœur de l’IA et de la cryptographie.

Avec l’essor des modèles d’IA de grande envergure, dont les grands modèles de langage (LLM), la demande en puissance de calcul a explosé. Les GPU, dotés de multiples cœurs, sont capables de gérer simultanément d’innombrables calculs. Ce n’est donc pas un hasard si des références de l’IA telles que Bard de Google et ChatGPT d’OpenAI reposent maintenant sur ces technologies. Face à cette demande croissante, Nvidia, toujours à la pointe de l’innovation, vient d’annoncer l’arrivée de sa dernière merveille technologique : la puce GH200 Grace Hopper.

Un pas de géant dans la technologie de mémoire

Cette nouvelle plateforme Nvidia est la première au monde à intégrer le processeur HBM3e. HBM (High Bandwidth Memory) est une technologie de mémoire qui s’est déjà distinguée par sa capacité à offrir une bande passante exceptionnelle tout en optimisant la consommation énergétique. Avec la version HBM3e, Nvidia franchit un nouveau cap.

Dotée d’une capacité impressionnante de 282 Go, la puce mémoire HBM3e se démarque en étant 50% plus rapide que son prédécesseur, la HBM3. Cette augmentation significative de la vitesse se traduit par une performance accrue, capable de délivrer une bande passante combinée de 10 To/sec. Cela signifie que la puce GH200 peut gérer des modèles d’intelligence artificielle qui surpassent de 3,5 fois en volume ce que permettait la technologie HBM3. Cette mémoire offre également à la puce la capacité de gérer des modèles d’IA ultra-complexes.

En outre, cette mémoire élargie signifie qu’un modèle d’IA de grande envergure peut être exécuté sur un unique GPU. En effet, pour atteindre une telle performance, les plateformes doivent généralement s’appuyer sur plusieurs GPU, engendrant des coûts supplémentaires et une complexité accrue.

Voir aussi

Google développe un simulateur amélioré par l IA capable de révolutionner la prévision météorologique couv

Technologie

·4 min de lecture

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Une super puce conçue pour l’inférence

Le travail avec l’IA inclut un processus composé de deux étapes : la formation et l’inférence. La première, la formation, est celle où le modèle d’IA est nourri et « entraîné » à partir d’énormes ensembles de données. C’est au cours de cette phase que le modèle apprend et affine ses capacités.

Une fois cette formation achevée, le modèle entre dans la phase d’inférence. C’est ici qu’il est mis à l’épreuve, générant des prédictions, du texte, des images ou d’autres formes de contenu en fonction de ce qu’il a appris. Chaque exécution d’un logiciel basé sur l’IA, chaque prédiction ou génération, nécessite une grande puissance de calcul pour l’inférence. Et c’est précisément là que la GH200 excelle.

Lors de sa présentation, Nvidia a mis l’accent sur le fait que sa nouvelle super puce GH200 a été optimisée pour le calcul d’inférence. Alors que cette opération est souvent très coûteuse, Nvidia affirme que la GH200 réduira considérablement la dépense énergétique lors de son utilisation pour les grands modèles. En d’autres termes, avec la GH200, l’inférence devient non seulement plus rapide, mais aussi plus économique.

Laisser un commentaire

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

La Chine lance le premier réacteur à fission totalement à l’épreuve des accidents de fusion

Nvidia dévoile une nouvelle puce d’IA visant à « réduire drastiquement » les coûts d’exploitation des LLM (GPT, Bard, etc.)

Un pas de géant dans la technologie de mémoire

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Une super puce conçue pour l’inférence

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude