Les protéines de novo fonctionnelles, ayant une homologie limitée avec les protéines naturelles, sont conçues à l’aide de grands modèles d’apprentissage. Mais cette technologie est chronophage et coûteuse. Récemment, une petite start-up de Californie a utilisé une IA basée sur un modèle d’apprentissage de génération de texte tel que ChatGPT pour concevoir de nouvelles protéines antibactériennes fonctionnelles. Cette nouvelle voie permettrait le développement de nouveaux médicaments dans des délais bien pus courts.
L’évolution dirigée s’est montrée remarquablement efficace pour trouver des variantes de protéines connues avec des propriétés améliorées. En effet, rappelons que l’évolution dirigée est une méthode utilisée en ingénierie des protéines qui imite le processus de sélection naturelle pour « diriger » l’évolution des protéines dans un but précis, comme le développement de traitements durables pour des maladies qui ne sont pas soumis à des restrictions de brevet, ou de nouvelles enzymes capables de décomposer les plastiques non recyclables par exemple. Cette technique a été récompensée par un prix Nobel de chimie en 2018.
Pourtant, concevoir des protéines qui ne sont pas homologues à celles que l’on trouve dans la nature est extrêmement difficile. Jusqu’à présent, le domaine reposait sur deux méthodes traditionnelles : des recherches coûteuses et chronophages sur les protéines existantes dans la nature, ou la tentative d’introduire de petites modifications dans une protéine existante dans l’espoir d’obtenir le résultat souhaité.
L’IA pourrait fournir un moyen judicieux de prendre en charge le travail fastidieux lié à cette conception protéique. Une protéine n’étant en quelque sorte ni plus ni moins qu’un agencement d’acides aminés liés par des liaisons peptidiques, ces acides aminés étant comme des mots coordonnés entre eux dans une phrase. ChatGPT a déjà démontré son efficacité pour passer avec succès des examens de droit et d’économie, en générant du texte de façon cohérente.
Récemment, sur ce principe, la start-up Profluent de Berckley (Californie), en partenariat avec l’Université de Californie San Francisco (UCSF), a utilisé des modèles génératifs profonds pour « apprendre le langage de la biologie » à une IA, afin de concevoir de nouvelles protéines fonctionnelles. Les modèles de Profluent sont formés sur des données à grande échelle. Leurs travaux sont publiés dans la revue Nature Biotechnology.
ProGen, une révolution pour l’ingénierie biologique
Comme les modèles de langage pour le texte, les modèles de Profluent sont formés sur des données à grande échelle, mais au lieu d’adjectifs et de noms, ils apprennent le « langage du code génétique ».
Le fondateur de Profluent, Ali Madani, explique dans un communiqué : « Alors que les entreprises expérimentent de nouvelles biotechnologies passionnantes comme l’édition du génome avec CRISPR en réaffectant ce que la nature nous a donné, nous faisons quelque chose de différent. Nous utilisons l’IA et de grands modèles de langage comme ceux qui permettent à ChatGPT d’apprendre le langage fondamental de la biologie et de concevoir de nouvelles protéines qui ont le potentiel de guérir des maladies ».
Pour créer leur modèle, les scientifiques ont introduit les séquences d’acides aminés de 280 millions de protéines différentes de toutes sortes dans le modèle d’apprentissage automatique et l’ont laissé intégrer les informations pendant quelques semaines. Ensuite, ils ont affiné le modèle en l’amorçant avec 56 000 séquences de cinq familles de lysozymes, ainsi qu’avec des informations contextuelles sur ces protéines.
Le modèle a rapidement généré un million de séquences, et l’équipe de recherche en a sélectionné 100 à tester en fonction de leur ressemblance avec les séquences de protéines naturelles ainsi que du caractère naturaliste de la « grammaire » et de la « sémantique » des acides aminés sous-jacents des protéines générées par IA.
Sur ce premier lot de 100 protéines, l’équipe a fabriqué cinq protéines artificielles à tester dans des cellules et a comparé leur activité à une enzyme présente dans le blanc d’œuf, connue sous le nom de lysozyme de blanc d’œuf de poule (HEWL). Des lysozymes similaires se trouvent dans les larmes, la salive et le lait humains, où ils combattent les bactéries et les champignons.
Des protéines fonctionnelles
Concrètement, deux des enzymes artificielles étaient capables de décomposer les parois cellulaires de bactéries avec une activité comparable à HEWL, mais leurs séquences n’étaient identiques qu’à environ 18% l’une de l’autre. Les deux séquences étaient identiques à environ 90% et 70% respectivement à toute protéine connue.
Une seule mutation dans une protéine naturelle peut l’empêcher de fonctionner. Mais l’équipe a découvert que les enzymes générées par l’IA montraient une activité alors qu’elles ne présentaient que 31,4% de ressemblance entre leur séquence et celle d’une protéine naturelle connue.
Sans compter que l’IA a pu apprendre comment les enzymes devaient être façonnées simplement en étudiant les données de séquence brutes. Mesurées par cristallographie aux rayons X, les structures atomiques des protéines artificielles semblaient « justes », bien que les séquences ne ressemblaient à rien de connu.
Une utilisation de ProGen pour la production de médicaments
Il faut savoir que Salesforce Research a développé ProGen en 2020, en se basant sur une sorte de programmation en langage naturel que ses chercheurs ont initialement développée pour générer du texte en anglais. Ils savaient, d’après leurs travaux précédents, que le système d’IA pouvait apprendre par lui-même la grammaire et le sens des mots, ainsi que d’autres règles sous-jacentes qui rendent l’écriture bien composée.
Nikhil Naik, PhD, directeur de la recherche sur l’IA chez Salesforce Research et auteur principal de l’étude, déclare dans un communiqué de l’UCSF : « Lorsque vous formez des modèles basés sur des séquences avec beaucoup de données, ils sont vraiment puissants dans l’apprentissage de la structure et des règles. Ils apprennent quels mots peuvent coexister ».
Avec les protéines, les choix de conception sont presque illimités. Les lysozymes sont petits comme les protéines, avec jusqu’à environ 300 acides aminés. Alors qu’avec seulement 20 acides aminés possibles, il existe 20 300 combinaisons possibles, et pour les lysozymes, le nombre est immense.
Pour les auteurs, compte tenu des possibilités illimitées, il est remarquable que le modèle puisse générer si facilement des enzymes de travail. Ali Madani conclut : « Il s’agit d’un nouvel outil polyvalent à la disposition des ingénieurs en protéines, et nous sommes impatients de voir les applications thérapeutiques ».