Il y a vingt ans, le séquençage initial du génome humain a profondément marqué la communauté scientifique. Contre toute attente, le nombre de gènes identifiés s’est avéré bien inférieur aux estimations, représentant moins d’un tiers de ce qui était envisagé. Afin de comprendre cette divergence, un consortium de chercheurs s’est penché sur le « protéome noir ». Leurs travaux suggèrent l’existence de milliers de gènes « obscurs », dissimulés dans les méandres du génome, générant des protéines étonnamment petites, inférieures à la taille moyenne. Ces gènes, selon les chercheurs, pourraient jouer un rôle majeur dans la biologie humaine et être impliqués dans des maladies telles que le cancer.
Un gène est constitué d’une longue séquence d’ADN qui code pour des protéines, souvent désignée comme « cadre de lecture ouvert » (ORF). Cette séquence complexe entame la lecture des instructions de l’ADN et contient des signaux qui indiquent à la cellule de commencer ou d’interrompre cette lecture.
Une fois transcrite, la séquence ORF devient un ARN messager, qui migre à travers les ribosomes, lesquels assemblent ensuite les acides aminés pour former des protéines. Traditionnellement, seuls les ORF codant pour des protéines de plus de 100 acides aminés étaient considérés comme de véritables gènes.
Cependant, la découverte récente de nombreux cadres de lecture non canoniques (ncORF) remet en question cette vision. Ces gènes atypiques ne codent pas pour des protéines conventionnelles et présentent des séquences nettement plus courtes.
John Prensner, neuro-oncologue pédiatrique à l’Université du Michigan et co-auteur de la nouvelle étude, a déjà mis en lumière l’importance des ncORF. Il a prouvé, avec son équipe, que les cellules cancéreuses contiennent au moins 550 microprotéines issues de ces ncORF. Parallèlement, Sebastian Van Heesch, biologiste au Centre d’oncologie pédiatrique de l’Institut Oncode, a identifié un nombre similaire de microprotéines en étudiant le tissu cardiaque.
En collaboration avec d’autres experts de vingt institutions internationales, dont Jonathan Mudge, spécialiste de l’annotation génétique pour GENCODE, ils ont entrepris d’évaluer la prévalence des ncORF dans le génome humain.
« L’impact des ncORF a été longtemps limité par une méconnaissance de leur contribution au protéome humain », écrivent les chercheurs dans leur étude prépubliée sur le serveur bioRxiv. « Nous présentons ici les efforts conjoints de la protéomique, de l’immunopeptidomique, de la découverte d’ORF Ribo-seq et de l’annotation génétique pour fournir une vision consensuelle du rôle de ces ncORF ».
Une analyse approfondie des données de 95 520 expériences
Dans le cadre de cette recherche, le consortium a exploré les données de 95 520 expériences axées sur le profilage des ribosomes, afin de décrypter les petites protéines. Ils ont identifié 7 264 ncORF, transcrits en ARN. Grâce à une technique appelée Ribo-seq, ils ont démontré qu’un quart de ces ARN transcrits interagissent avec les ribosomes, capables de produire des microprotéines d’une taille inférieure à 100 acides aminés.
Ces données révèlent l’existence d’au moins 3 000 peptides. « Avec ces données, nous avons développé un cadre d’annotation pour les ncORF et mis à disposition des outils pour les chercheurs via GENCODE et PeptideAtlas », affirment les scientifiques. « Ce travail offre une plateforme pour avancer dans la découverte biomédicale des protéines issues des ncORF », concluent-ils.