L’apprentissage automatique est une branche de l’intelligence artificielle qui se base sur des algorithmes pour résoudre des problèmes ou, créer de nouvelles molécules — comme des protéines. L’année dernière, DeepMind avait utilisé son IA pour prédire les formes de presque toutes les protéines, afin de mieux comprendre leur fonction et espérer développer des traitements plus efficaces, ou même des vaccins. C’est dans ce but que des chercheurs ont mis au point un système d’intelligence artificielle capable de créer des protéines, basé sur deux approches différentes.
Les fonctions biochimiques des protéines sont généralement assurées par un petit nombre de résidus qui constituent un site fonctionnel (par exemple, un site actif d’une enzyme ou un site de liaison à une molécule). Dès lors, créer des protéines consiste à identifier les acides aminés qui produisent l’activité souhaitée et les conformations géométriques des sites fonctionnels. Par le passé, la conception de protéines a permis de trouver des séquences qui se replient dans une conformation souhaitée, mais elle reste un défi pour obtenir des protéines fonctionnelles.
L’intelligence artificielle permet d’élargir le champ de possibilités, en utilisant plusieurs réseaux neuronaux entraînés et formés à partir de multiples données sur les protéines — une banque de données publique de centaines de milliers de structures protéiques. « Dans ce travail, nous montrons que l’apprentissage automatique peut être utilisé pour concevoir des protéines avec une grande variété de fonctions », a déclaré dans un communiqué David Baker, auteur principal de l’étude et professeur de biochimie à l’UW Medicine. « Les protéines que nous trouvons dans la nature sont des molécules étonnantes, mais les protéines conçues de cette manière peuvent faire tellement plus ».
Deux approches différentes : « hallucination » et « inpainting »
Les chercheurs décrivent deux approches d’apprentissage automatique pour échafauder des protéines dotées de nouvelles fonctions, sans avoir besoin de spécifier le pli ou la structure secondaire de la molécule. La première, appelée « hallucination », optimise les séquences d’acides aminés des protéines, de telle sorte que leurs structures finales contiennent le site fonctionnel souhaité. Il faut comprendre que les acides aminés sont comme les lettres d’un texte et codent pour des protéines fonctionnelles.
D’ailleurs, l’équipe de recherche compare cette première approche à la façon dont on pourrait écrire un livre : « Vous commencez avec un assortiment aléatoire de mots – un charabia total. Puis vous imposez une exigence, par exemple que le premier paragraphe soit une nuit sombre et orageuse. L’ordinateur change alors les mots un par un et se demande : ‘Est-ce que cela donne plus de sens à mon histoire ?‘. Si c’est le cas, il continue les modifications jusqu’à ce que l’histoire soit complète ». Dans le cas qui nous intéresse, à partir d’une chaîne aléatoire d’acides aminés, le logiciel fait muter la séquence jusqu’à ce qu’une version finale codant pour la fonction désirée soit générée.
La deuxième approche, appelée « inpainting », fonctionne en sens inverse. Elle part du site fonctionnel de la protéine, puis ajoute des séquences supplémentaires pour créer un échafaudage protéique viable. Les réseaux neuronaux complètent les « pièces manquantes » de la structure d’une protéine en quelques secondes seulement.
Des tests en laboratoire ont montré que de nombreuses protéines générées par ces approches fonctionnaient comme prévu, par exemple en se liant au récepteur anticancéreux PD-1. En outre, ces méthodes pourraient être utiles à la conception de vaccins, souvent complexifiée par la forme moléculaire à obtenir. Les chercheurs ont ainsi pu créer de nouvelles protéines incluant le fragment d’agent pathogène nécessaire au vaccin contre le virus respiratoire syncytial. Le logiciel était libre de créer n’importe quelle structure autour de ce fragment, ce qui a donné plusieurs vaccins potentiels avec des formes moléculaires diverses.