Lorsque les scientifiques du Human Genome Project ont annoncé la séquence complète du génome humain en 2003, ils se sont avancés. En effet, si les chercheurs ont effectivement eu accès à la séquence d’ADN de la plupart des gènes codant pour les protéines, environ 8% de ce génome restaient toujours non séquencés à ce jour. Récemment, le consortium international Telomere-to-Telomere (T2T) présente, pour la première fois, une séquence complète du génome humain, couvrant chaque chromosome de bout en bout sans lacune.
Le projet génome humain, ou Human Genome Project, est un programme lancé fin 1988 afin d’établir le séquençage complet de l’ADN du génome humain. En 2003, ce projet a été déclaré comme terminé, permettant de cartographier 85% des gènes, les 15% restants étant inaccessibles avec les technologies de l’époque. La plupart des régions non cartographiées à l’époque étaient concentrées autour des télomères et des centromères. Les premiers sont les coiffes situées aux extrémités des chromosomes, tandis que les seconds sont les sections médianes densément emballées des chromosomes. En 2013, les chercheurs ont ensuite réduit cet écart à seulement 8%, mais ils ne pouvaient toujours pas intégrer et placer environ 200 millions de paires de bases.
Il aura fallu la collaboration de près de 100 scientifiques du Consortium Telomere-to-Telomere (T2T) pour cartographier le génome humain au complet. Les 8% représentent l’ajout de 400 millions de nouvelles lettres ajoutées à la séquence ADN existante, soit l’équivalent d’un chromosome entier ! Ces nouveaux travaux ont été publiés dans la revue Science.
Un nouveau génome de référence pour la pangénomique
En 2019, Karen Miga, professeure adjointe d’ingénierie biomoléculaire à l’UC Santa Cruz (UCSC), et Adam Phillippy de l’Institut national de recherche sur le génome humain (NHGRI), ont organisé une équipe internationale de scientifiques — le consortium Telomere-to-Telomere (T2T) — pour remplir les pièces manquantes. Le nouveau génome de référence, appelé T2T-CHM13, ajoute 99 gènes susceptibles de coder pour des protéines et près de 2000 gènes candidats qui nécessitent une étude plus approfondie. Il corrige également des milliers d’erreurs structurelles dans la séquence de référence actuelle.
De plus, la séquence T2T-CHM13 est entièrement annotée dans le navigateur de génome UCSC, offrant aux scientifiques un moyen efficace d’accéder à une multitude d’informations associées aux gènes et à d’autres éléments du génome et de les visualiser. Karen Miga explique dans un communiqué : « Nous voulions diffuser les informations d’une manière accessible et familière aux chercheurs afin qu’ils puissent commencer à s’en servir et utiliser tous les outils et ressources fournis par le navigateur ».
De ce fait, le nouveau génome de référence T2T viendra compléter le génome humain de référence standard, connu sous le nom de Genome Reference Consortium build 38 (GRCh38), qui a ses origines dans le projet du génome humain financé par des fonds publics et continuellement mis à jour depuis la première version. Cette nouvelle référence de génome humain n’est qu’un point de départ. En effet, David Haussler, directeur de l’UC Santa Cruz Genomics Institute, explique : « La phase suivante consiste à penser que la référence du génome de l’humanité n’est pas une séquence unique du génome. C’est une transition profonde, le signe avant-coureur d’une nouvelle ère dans laquelle nous finirons par capturer la diversité humaine de manière impartiale ».
Dans ce contexte, le Consortium T2T s’est associé au Human Pangenome Reference Consortium, qui vise à créer une nouvelle « référence de pangénome humain » basée sur les séquences complètes du génome de 350 individus. Benedict Paten, professeur agrégé d’ingénierie biomoléculaire à la Baskin School of Engineering de l’UCSC, co-auteur de l’article, déclare : « La pangénomique consiste à capturer la diversité de la population humaine, et il s’agit également de s’assurer que nous avons capturé correctement l’ensemble du génome ». Il ajoute : « Sans disposer d’une carte de ces régions du génome difficiles à séquencer sur plusieurs individus, nous manquons une grande partie de la variation présente dans notre population. T2T nous permet d’examiner des centaines de génomes, d’un télomère à l’autre. Ça va être génial ! ».
La conjonction de méthodes innovantes pour une « incroyable réussite scientifique »
Pour accéder aux zones manquantes, il a fallu que l’équipe utilise des méthodes de séquençage d’ADN différentes et plus fines, mises en œuvre ces dernières années grâce à des coûts de séquençage plus modestes. En effet, le coût du séquençage d’un génome humain à l’aide de technologies dites « à lecture courte », fournissant plusieurs centaines de bases de séquence d’ADN à la fois, n’est que de quelques centaines de dollars, ayant considérablement diminué depuis la fin du projet du génome humain. Cependant, l’utilisation de ces méthodes à lecture courte laisse encore quelques lacunes dans les séquences génomiques assemblées. La baisse massive des coûts de séquençage de l’ADN s’accompagne d’investissements accrus dans de nouvelles technologies, pour générer des lectures de séquences d’ADN plus longues, sans compromettre la précision.
Pour comprendre l’intérêt de tels cadres de lecture, les auteurs comparent le principe du séquençage du génome au fait de découper un livre en fragments de texte, puis d’essayer de le reconstituer. Les portions de texte qui contiennent beaucoup de mots et de phrases communs ou répétés seraient plus difficiles à mettre à leur place que des morceaux de texte uniques. C’est ainsi qu’au cours de la dernière décennie, deux nouvelles technologies de séquençage de l’ADN ont émergé, produisant des lectures de séquences beaucoup plus longues : (1) la méthode « ultralongue » d’Oxford Nanopore permettant de séquencer jusqu’à 1 million de lettres d’ADN avec un taux d’erreur de 5%, en une seule lecture ; (2) la méthode PacBio Hifi permettant de lire les lettres par paquet de 20 000, avec une précision presque parfaite — le taux d’erreur chutant à 0,01%.
Dès lors, les scientifiques ont cherché à simplifier davantage le génome analysé par ces nouvelles techniques. En conséquence, ils ont utilisé un type de cellule inhabituel ne contenant que de l’ADN hérité du père (la plupart des cellules du corps contiennent deux génomes — un de chaque parent), obtenu lorsqu’un spermatozoïde féconde un ovule sans noyau. Dans cette configuration, l’œuf n’est pas viable et se fixe à l’utérus pour se développer avec tous les chromosomes du père, mais aucun de la mère. Ensemble, ces deux avancées leur ont permis de décoder les plus de 3 milliards de lettres qui composent le génome humain.
Il est intéressant de noter que la méthode d’Oxford Nanopore, dès 2012, s’appuie sur le séquençage des nanopores mis au point à l’UC Santa Cruz. Le principe repose sur le passage d’un brin d’ADN à travers un nanopore (ne mesurant que 1,5 nanomètre de large à son point le plus étroit), formé par un complexe protéique autoassemblé appelé canal ionique, inséré dans une membrane similaire à une membrane cellulaire. La membrane sépare deux puits et un champ électrique entraîne les brins d’ADN (qui sont chargés négativement) d’un puits à l’autre à travers le nanopore. Le bref blocage du nanopore par les brins d’ADN lorsqu’ils traversent le pore, produit des modulations de courant électrique pouvant être analysées pour obtenir des informations sur la séquence d’ADN.
Oxford Nanopore avait l’ambition de commercialiser ce type de séquençage, le rendant accessible au-delà du cercle des chercheurs en génomique. Actuellement, la plateforme d’analyse est de plus en plus utilisée dans des contextes « appliqués » tels que les diagnostics cliniques, l’épidémiologie et la sécurité alimentaire.
L’importance de connaître le génome entier pour une médecine sur-mesure
Selon Evan Eichler, professeur de sciences du génome à l’université de Washington à Seattle et co-auteur de la présente étude, il était primordial de réunir l’ensemble du puzzle du génome humain, car jusqu’à maintenant, on ignorait les informations détenues dans les 8% manquants. Selon les scientifiques, cette cartographie complète du génome permettra de mieux comprendre notre évolution, tout en rendant possibles des découvertes médicales dans des domaines tels que le vieillissement, les maladies neurodégénératives, le cancer et les maladies cardiaques.
D’ailleurs, une partie des gènes supplémentaires seraient ceux de la réponse immunitaire, permettant aux humains de s’adapter aux infections et virus. Les autres parties du génome, avec de nombreux tronçons répétés, comprennent celles où se trouvent la plupart des variations génétiques. La variabilité au sein de ces régions peut donc fournir des indices cruciaux sur la façon dont nos ancêtres ont subi des changements évolutifs rapides, qui ont conduit à une cognition plus complexe.
De surcroît, selon le coprésident du consortium, Adam Phillippy, le séquençage du génome entier d’une personne devrait devenir moins coûteux et plus simple dans les années à venir. Il explique : « À l’avenir, lorsque quelqu’un aura son génome séquencé, nous serons en mesure d’identifier toutes les variantes de son ADN et d’utiliser ces informations pour mieux guider ses soins de santé ».
Enfin, les travaux sont également susceptibles de conduire à une meilleure compréhension des centromères. Ce sont des faisceaux denses d’ADN qui maintiennent les chromosomes ensemble et jouent un rôle dans la division cellulaire. Jusqu’à présent, ils étaient considérés comme non cartographiables, car ils contiennent des milliers de séquences d’ADN qui se répètent encore et encore.