L’IA « à la vitesse de la lumière » : une percée qui pourrait transformer le calcul informatique

La technologie pourrait constituer une base potentielle pour l’IA générale.

IA-vitesse-lumiere-couv
| Unsplash
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

Des chercheurs ont développé une architecture informatique optique permettant d’effectuer un calcul tensoriel – à la base des grands modèles linguistiques actuels – en une seule étape et à la vitesse de la lumière. Cette approche pourrait transformer la manière dont l’IA est entraînée et exécutée, en remplaçant notamment le calcul électronique par le calcul optique. La technologie pourrait constituer une base potentielle pour l’IA générale.

Le calcul tensoriel constitue la base de la quasi-totalité des traitements informatiques, y compris l’IA. Sa portée dépasse largement celle des calculs mathématiques standards. Lorsqu’un modèle d’IA est entraîné à l’exécution d’une tâche, par exemple la reconnaissance d’image, il organise les données en « tenseurs ». L’approche fonctionne un peu comme un classeur qui ordonnerait les données à l’aide d’étiquettes pour accélérer leur traitement.

Cependant, la vitesse de traitement des données tensorielles représente un goulot d’étranglement limitant la taille maximale qu’un modèle d’IA peut atteindre. L’augmentation considérable du volume de données a poussé les systèmes électroniques de calcul numérique classiques, tels que les processeurs graphiques ou GPU, à leurs limites en matière de vitesse, d’évolutivité et de consommation énergétique.

De leur côté, les systèmes de calcul optique sont connus pour être à la fois plus rapides et moins énergivores que leurs équivalents électroniques. Mais ils ne peuvent pas fonctionner en parallèle comme les GPU, qui sont connectés en chaîne pour accroître leur puissance de calcul. Les meilleurs modèles d’IA d’OpenAI, Anthropic ou Google requièrent ainsi des milliers de GPU opérant de concert pour leur entraînement comme pour leur exécution.

Si de nombreux scientifiques estiment qu’il suffirait d’augmenter l’échelle de ces systèmes pour atteindre des formes d’IA nettement plus puissantes, d’autres considèrent qu’un changement d’architecture serait nécessaire pour atteindre la capacité de calcul requise. Dans cette perspective, une équipe de l’université Aalto, en Finlande, propose une nouvelle architecture numérique susceptible de dépasser les limites du calcul optique.

Contrairement aux systèmes optiques existants, cette architecture parvient à effectuer simultanément plusieurs calculs tensoriels en une seule impulsion lumineuse dans leur démonstration. « Notre méthode effectue les mêmes types d’opérations que les GPU actuels, comme les convolutions et les couches d’attention, mais à la vitesse de la lumière », explique dans un communiqué Yufeng Zhang, du groupe de photonique du département d’électronique et de nanoingénierie de l’université Aalto. « Au lieu de nous appuyer sur des circuits électroniques, nous utilisons les propriétés physiques de la lumière pour effectuer de nombreux calculs simultanément », poursuit-il.

Une architecture optique pensée pour le calcul massif

Baptisée « multiplication matricielle optique parallèle (POMMM) », la nouvelle architecture encode les données numériques en fonction de l’amplitude et de la phase des ondes lumineuses. Cela permet de convertir les données en propriétés physiques d’un champ optique. Puis, lorsque ces champs optiques interagissent et fusionnent, ils effectuent naturellement des opérations mathématiques telles que les multiplications tensorielles. En introduisant plusieurs longueurs d’onde, l’équipe a étendu son approche au traitement d’opérations tensorielles d’ordre supérieur.

systeme-pommm
a) Principe de fonctionnement du POMMM. À gauche : flux de traitement du POMMM. À droite : traitement matriciel correspondant après chaque étape. Les différentes couleurs représentent différents codages de phase linéaire. FT : transformée de Fourier. b) Dispositif expérimental et opérations matricielles correspondantes. C et E : collimation et expansion ; P : polariseur ; PBS : séparateur de faisceau polarisant ; L : lentille ; WP : lame d’onde ; NBS : séparateur de faisceau non polarisant ; qCMOS : caméra quantitative à semi-conducteur métal-oxyde complémentaire. © Yufeng Zhang et al.

« Imaginez que vous êtes un douanier qui doit inspecter chaque colis à l’aide de plusieurs machines aux fonctions différentes, puis les trier dans les bacs appropriés. Normalement, vous traiteriez chaque colis un par un », illustre Zhang. « Notre méthode de calcul optique fusionne tous les colis et toutes les machines : nous créons de multiples « crochets optiques » qui relient chaque entrée à sa sortie correspondante. En une seule opération, un seul passage de lumière, toutes les inspections et le tri s’effectuent instantanément et en parallèle », précise-t-il.

Dans ce système, les opérations optiques se déroulent passivement lors de la propagation de la lumière et ne requièrent donc ni source d’énergie supplémentaire ni contrôle actif. Cet agencement permettrait aussi une adaptation à n’importe quelle plateforme optique, affirment les chercheurs.

« À l’avenir, nous prévoyons d’intégrer ce cadre de calcul directement sur des puces photoniques, permettant ainsi aux processeurs optiques d’effectuer des tâches d’IA complexes avec une consommation d’énergie extrêmement faible », indique Zhipei Sun, responsable du groupe de photonique de l’université Aalto et coauteur de l’étude.

Bien que l’étude n’évoque pas directement l’IA générale, elle fait référence à plusieurs reprises à l’informatique à usage général. Les auteurs suggèrent dans le communiqué que leur système pourrait contribuer à dépasser certaines limites structurelles des systèmes actuels, constituant ainsi une avancée notable pour surmonter les limites du calcul optique, car il permettrait de dépasser un verrou fondamental entravant leur évolution.

« Cela permettra de créer une nouvelle génération de systèmes informatiques optiques, accélérant considérablement les tâches complexes d’IA dans une multitude de domaines », estime Zhang. L’objectif de l’équipe est de déployer l’architecture POMMM au niveau du matériel ou des plateformes existantes des grandes entreprises technologiques d’ici trois à cinq ans. Les résultats de l’étude sont publiés dans la revue Nature Photonics.

Source : Nature Photonics
Laisser un commentaire