Les revues Nature et Science ont dressé des cartes synoptiques des 23 chromosomes humains, à l'occasion de la publication d'une première version, encore provisoire, du code génétique de l'homme (lire LT du 12 février 2001). Stylianos Antonarakis, professeur de génétique à la Faculté de médecine et aux Hôpitaux universitaires de Genève, est un familier du chromosome 21 puisqu'il fait partie des chercheurs chargés de le décrypter dans le cadre du projet public de lecture du génome. Il commente ici la carte de ce chromosome, telle qu'elle est parue dans Nature.

45 millions de lettres

La longue molécule d'ADN est constituée d'une chaîne dont les maillons sont les «nucléotides» ou «bases». Il existe quatre molécules de base: A, T, C et G, qui sont les uniques lettres du texte génétique. Le chromosome 21, bien qu'il ne représente qu'un centième du génome humain, en compte 45 millions. L'échelle, située en haut de la carte, permet de se situer le long de la chaîne d'ADN. Elle est graduée en millions de bases (Mb).

Des terres inconnues

La ligne «coverage» indique l'état de l'exploration. Seuls les segments rouges correspondent à des zones dont le texte définitif a été établi, avec moins d'une erreur sur 10 000 bases – une faute de frappe sur trois pages A4 de texte dactylographié. Le chromosome 21 ne compte que quelques trous, représentés en orange. Sur la plupart des autres chromosomes, l'orange domine encore largement. Deux tiers du génome sont encore à l'état de brouillon: le texte comporte plus d'erreurs (une pour 1000 bases). Il est déchiffré par morceaux, mais ceux-ci ne sont pas encore dans l'ordre. La version définitive est attendue pour 2003.

Des régions inaccessibles

Les bras courts des chromosomes 13, 14, 15, 21 et 22 ont la particularité d'être constitués d'un code extrêmement uniforme et répétitif. Les morceaux de texte qu'on peut y lire se ressemblent tous, au point qu'il est très difficile de les remettre dans l'ordre. Ces zones peu accessibles risquent de demeurer encore longtemps inexplorées. Elles ne recèlent probablement peu ou pas d'informations intéressantes.

Les lettres G et C trahissent les gènes

Dans le code génétique, les lettres C et G sont en moyenne moins fréquentes que A et T. Elles ne représentent que 35 à 40% des bases. Mais dans les régions riches en gènes (un gène est une section du code que les cellules utilisent pour produire une protéine donnée), la proportion de C et G augmente. La courbe «GC», qui indique cette proportion, s'élève à l'extrémité du chromosome 21, où les gènes foisonnent. On observe pareille concentration vers la périphérie de tous les chromosomes humains. Un mystère qui trouvera peut-être une explication par les mécanismes de l'évolution.

La nature bégaie

Des portions de code génétique, apparemment sans signification, sont recopiées en de nombreux endroits le long des chromosomes. Ces sortes de refrains composent 40% du génome humain. On les appelle «SINE» lorsqu'ils sont courts (de l'ordre de 300 bases), «LINE» lorsqu'ils sont longs (environ 6000 bases). Les chercheurs, qui connaissent les différentes variantes de ces sections répétitives, les repèrent dans le code génétique. Les courbes rouges et violettes indiquent leur densité le long du chromosome.

Les signatures de l'individu

Une grande partie du texte génétique est identique chez tous les êtres humains. Ça et là, des lettres peuvent être changées. Ces modifications d'une seule base (SNP, pour «single nucleotide polymorphisms») sont responsables des différences entre individus. Elles n'apparaissent qu'en des sites bien déterminés du code génétique. On a recensé entre 1 et 2 millions de ces emplacements sur l'ensemble du génome, soit un toutes les 1000 bases. La courbe «SNP» donne une indication de leur densité.

L'amorce trahit le gène

Le début d'un gène est invariablement signalé par une amorce, constituée d'une suite déterminée de C et de G. Les barrettes vertes indiquent la présence d'amorces. Certaines n'annoncent aucun gène. D'autres permettent aux chercheurs de repérer des gènes au sein du texte génétique.

L'homme et le poisson, des cousins

Les sections bleues de la ligne «Exofish» indiquent des segments de code génétique qu'on retrouve identiques sur les chromosomes du poisson Tetraodon nigroviridis. On aurait pu effectuer la même analyse avec la mouche du vinaigre, le ver ou la levure dont les codes génétiques sont connus.

Les gènes

Ces sections du code génétique (en rouge sur la ligne «Genes») contiennent les instructions nécessaires aux cellules pour fabriquer des protéines. Elles n'occupent que 1,5 à 2% du génome selon les estimations. Leur identification est une entreprise compliquée: il s'agit de détecter, dans la suite ininterrompue des nucléotides, des portions de code susceptibles d'avoir une signification biologique. Le long du chromosome 21, les scientifiques ont recensé 117 gènes connus, 98 gènes probables, ainsi que 59 gènes ou fragments hors d'usage, vestiges de l'évolution de l'espèce.

Attention, maladie!

Les noms des 117 gènes connus apparaissent au bas de la carte. En rouge, ceux qui sont impliqués dans un trouble génétique répertorié dans la base de données OMIM (acronyme de «Online Mendelian Inheritance in Man»). La mutation du gène «AIRE» signale une maladie auto-immune rare, comme l'a découvert l'équipe de Stylianos Antonarakis. Celle de «RUNX1» conduit à l'apparition d'une forme de leucémie. Beaucoup de ces gènes étaient connus avant le séquençage méthodique. Ils ne donnent pas la clé d'un traitement. Il s'agit encore de comprendre le rôle de la protéine correspondante, les mécanismes de la maladie, et enfin de mettre au point une éventuelle parade. Le processus peut prendre des dizaines d'années.