DeepMind, société britannique spécialisée en intelligence artificielle — propriété de Google depuis 2014 — a développé une nouvelle version de son IA, baptisée AlphaFold, capable de prédire avec une très grande précision la structure des protéines ! Une prouesse qui peut notamment aider à mieux comprendre les maladies et développer de nouveaux médicaments.
Pourquoi prédire la structure des protéines ? Une protéine peut être vue comme un ruban d’acides aminés, qui se plie et se replie, formant un enchevêtrement complexe. Cette structure particulière détermine en fait le rôle de la protéine. Or, comprendre l’action des protéines est essentiel pour comprendre les mécanismes de la vie.
Considérons un exemple concret : actuellement, les recherches de vaccins contre la COVID-19 se focalisent sur la protéine de pointe du coronavirus. La façon dont ce dernier se fixe aux cellules humaines, pour s’y répliquer, dépend de la forme de cette protéine et de celle des protéines réceptrices qui se trouvent en surface des cellules. Voilà pourquoi il est si important de définir leurs structures. Le corps humain contient des dizaines de milliers de protéines différentes et nous ne connaissons pas encore la structure de chacune d’entre elles.
Un niveau de précision à l’échelle de l’atome
C’est à l’occasion du Critical Assessment of Protein Structure Prediction (CASP) 2020 qu’AlphaFold a révélé ses impressionnantes capacités. Initié en 1994, ce concours se tient tous les deux ans et vise à stimuler le développement d’outils toujours plus performants pour cartographier les protéines. Les organisateurs diffusent une centaine de séquences d’acides aminés correspondant à des protéines dont la forme a été identifiée au préalable en laboratoire (mais qui n’ont pas été rendues publiques). Des équipes de chercheurs du monde entier s’affrontent alors, chacun via son logiciel spécifique, pour retrouver la forme exacte de ces composés (ou du moins, être au plus proche).
Lors de cette édition 2020, AlphaFold a prédit la structure de dizaines de protéines, avec une marge d’erreur de seulement 1,6 angström, soit 0,16 nanomètre, une dimension à l’échelle de l’atome. Cette IA dépasse ainsi toutes les autres méthodes de calcul. En quelques jours seulement, elle peut déterminer la forme d’une protéine avec une précision équivalente à d’autres techniques expérimentales permettant de cartographier les protéines (cryomicroscopie électronique, résonance magnétique nucléaire, cristallographie aux rayons X, etc.), qui sont des méthodes beaucoup plus lentes et plus coûteuses.
Cette IA pourrait ainsi aider les scientifiques à concevoir des médicaments et à mieux comprendre les maladies. À plus long terme, elle pourrait même aider à développer des protéines synthétiques, comme des enzymes capables de digérer les déchets ou produire des biocarburants. En résumé, AlphaFold est un énorme pas en avant pour de nombreux domaines de recherche. « Une avancée substantielle », « quelque chose d’énorme », « une réalisation incroyable », voilà les réactions suscitées par cette IA au sein de la communauté scientifique.
Pourquoi est-ce si difficile d’identifier la structure d’une protéine ? En réalité, il est relativement simple de trouver la séquence d’acides aminés qui constituent une protéine en particulier ; mais il est beaucoup plus complexe de déterminer la forme précise du ruban qu’ils forment. Et pour cause : il existe un nombre astronomique de formes possibles pour chaque séquence ! Les scientifiques font face à ce problème depuis 1972, date à laquelle le biochimiste américain Christian Boehmer Anfinsen remporte (avec deux autres chercheurs) le prix Nobel de chimie pour avoir mis en évidence le fait que la séquence d’acides aminés d’une protéine détermine sa structure.
Quand la prédiction dépasse l’expérimentation
C’est en 2018 que DeepMind a présenté sa toute première version d’AlphaFold ; ce fut la première participation de la société à CASP. Déjà à l’époque, l’algorithme s’est montré particulièrement prometteur. Il n’était pas aussi précis, mais dépassait déjà largement ses concurrents. Depuis, beaucoup se sont inspirés de cette IA : plus de la moitié des candidats de 2020 utilisaient un système de deep learning. Par conséquent, la précision globale observée à cette édition 2020 était bien plus élevée.
Comment sont évaluées les différentes méthodes de calcul ? Les résultats obtenus par les différentes équipes sont notés par le biais d’un test de distance globale, qui indique, sur une échelle de 0 à 100, la proximité de la structure prédite avec la forme réelle de la protéine. Cette année, AlphaFold a brillamment identifié la forme de l’ensemble des protéines proposées, avec un score supérieur à 90 pour environ deux tiers d’entre elles ! Or, un score aussi élevé signifie que les différences observées entre la prédiction et la structure réelle pourraient être davantage dues à des erreurs expérimentales commises au laboratoire plutôt qu’à une erreur du logiciel. Cela pourrait également signifier que la structure prédite est une alternative valide à celle déterminée en laboratoire.
Mohammed AlQuraishi, biologiste des systèmes à l’Université de Columbia, qui a lui aussi participé à CASP, est véritablement impressionné « C’est quelque chose auquel je ne m’attendais tout simplement pas, pas aussi rapidement. C’est choquant, d’une certaine manière ». Le spécialiste pensait en effet que près de dix années de recherche seraient nécessaires pour passer des résultats d’AlphaFold de 2018 aux scores extraordinaires réalisés cette année. « C’est proche de la limite physique de la précision que vous pouvez obtenir », ajoute-t-il. À noter que l’algorithme développé par l’équipe d’AlQuraishi, un système appelé réseau géométrique récurrent, est beaucoup plus rapide qu’AlphaFold : il peut fournir un résultat en quelques secondes, tandis que plusieurs jours sont nécessaires à son concurrent. Il s’avère cependant moins précis. Mais son concepteur souligne que, pour certaines applications, la vitesse peut être plus importante.
Près de 15’000 structures protéiques humaines à déterminer
Pour développer cette nouvelle version d’AlphaFold, DeepMind s’est appuyée sur les travaux de centaines de chercheurs du monde entier et sur un large réseau d’experts. Les détails de son fonctionnement n’ont pas encore été communiqués. Le système repose a priori sur un réseau d’attention, une technique d’apprentissage en profondeur qui permet à une IA de s’entraîner en se concentrant sur les différentes parties d’un problème plus vaste.
Il a ainsi comparé plusieurs séquences, en recherchant notamment des paires d’acides aminés qui se retrouvent souvent proches dans les structures repliées. Ces données lui permettent ensuite de prédire la distance entre des paires d’acides aminés dans des structures inconnues et d’évaluer la précision de sa prédiction. Le logiciel a été formé sur 170’000 protéines environ, toutes issues de la banque de données de référence. La formation a duré quelques semaines et a nécessité une puissance de calcul équivalente à 100-200 GPU.
De nombreux médicaments sont développés en se basant sur une simulation 3D de leur structure moléculaire : on recherche alors les moyens d’insérer ces molécules dans les protéines cibles. Mais cette technique ne peut être envisagée que si la structure de ces protéines est connue… Or, à ce jour, les scientifiques ne connaissent la forme que d’un quart des quelque 20’000 protéines humaines. De nombreuses cibles potentielles de médicaments sont donc aujourd’hui inexploitées et AlphaFold devrait permettre de pallier ce manque. DeepMind envisage de s’intéresser en priorité aux maladies tropicales (paludisme, maladie du sommeil…), car elles mettent en jeu de nombreuses structures protéiques inconnues.
La communauté scientifique attend maintenant avec impatience les détails du fonctionnement de cet algorithme, qui seront publiés cette semaine lors de la conférence CASP, puis dans la revue Proteins l’année prochaine.