Quelques grammes d’une fine poussière au fond d’une éprouvette. C’est à cela que pourrait ressembler une bibliothèque universelle, conservant la totalité des données produites par l’humanité pour les transmettre aux générations futures. Quatre ans après les premières démonstrations de stockage d’information sous forme de brins d’ADN synthétique, des industriels se sont lancés dans la bataille, à l’image de Microsoft. Son centre de recherches a réalisé une prouesse en 2016, avec pas moins de deux cents mégaoctets de données converties en ADN, soit l’équivalent d’une quarantaine de chansons sous forme de fichiers MP3. Des informations qui pourront être conservées ainsi pendant des siècles, voire des millénaires.

En 1994, le mathématicien et cryptographe américain Leonard Adleman avait ouvert la voie, en montrant comment de l’ADN de synthèse peut être utilisé pour effectuer des calculs. Il avait noté la grande similitude entre les univers électronique et génétique: quand le premier utilise un alphabet à deux lettres, le 0 et le 1, pour stocker et manipuler les informations, l’information génétique repose sur quatre molécules – appelées bases –, l’adénine, la cytosine, la thymine et la guanine. Autrement dit un alphabet à quatre lettres, A, C, T et G.

Lire aussi:  Michael Snyder, généticien: «La médecine deviendra une science guidée par les données»

Leonard Adleman avait imaginé — et testé — une méthode pour traduire des données informatiques en code génétique. Si l’ordinateur à ADN n’a jamais vu le jour, l’expérience a suscité un intérêt considérable chez les scientifiques en quête d’un moyen d’archiver de gros volumes de données dans la durée. Car conservé au sec, et à l’abri de la lumière, l’ADN peut se conserver des milliers d’années, à l’image du génome d’un homo sapiens vieux de 45 000 ans décodé en 2014.

Stockage de son, texte et image

Il y a quatre ans, les groupes de George Church (Université de Harvard, Etats-Unis) et de Nick Goldman (Institut européen de bio-informatique, Grande-Bretagne) ont réalisé les premières expériences de stockage en ADN. Un livre de 658 kg-octets pour le premier, et un ensemble de fichiers (son, texte et image) de 739 Ko pour le second. A la suite de ces travaux, plusieurs industriels se sont lancés dans l’aventure à l’image de Technicolor et de Microsoft. En 2016, ce dernier a fait un pas de géant, en stockant, en une fois, 270 fois plus de données que le groupe de Nick Goldman.

Lire aussi: De l’ADN pour stocker les informations

«Nous avons mis au point une technique de codage qui découpe les données en fragments qu’on encode sous forme de brins d’ADN comportant 150 à 200 bases d’ADN, explique Karin Strauss, de Microsoft Research. L’originalité de notre méthode est qu’elle permet de lire les données de manière sélective, pour extraire un fichier sans être obligé de décoder l’ensemble de l’ADN stocké dans l’éprouvette.»

Une fois converties dans l’alphabet génétique, les données de Microsoft ont été transformées en molécules biologiques par Twist Bioscience, une start-up californienne spécialisée dans l’ADN de synthèse. La lecture se fait comme pour n’importe quel génome, à l’aide de machines appelées séquenceurs. On n’en saura pas beaucoup plus, car Microsoft n’a toujours pas publié ses résultats dans une revue scientifique.

Depuis ses travaux publiés dans Nature début 2013, Nick Goldman est devenu très discret sur les progrès réalisés dans son laboratoire, qui a reçu l’appui d’industriels très soucieux du secret. Avec plusieurs de ses collègues, le Britannique est en train de boucler le tour de table d’une start-up qui devrait être créée dans quelques semaines. «Je peux vous dire que nous avons surtout porté notre effort sur la technique de codage et de correction d’erreurs.»

Etiquetage des brins d’ADN

Comme la synthèse et la lecture d’ADN sont sujettes à des erreurs, les scientifiques doivent ajouter des informations supplémentaires dans les fichiers encodés en ADN, pour pouvoir retrouver des informations manquantes ou altérées. De même, l’étiquetage des brins d’ADN, pour permettre de les remettre dans le bon ordre lors de la lecture, fait lui aussi l’objet d’une correction d’erreurs. «Ces outils ne sont pas très différents de ceux qui sont utilisés dans les disques durs, les réseaux, ou les CD», précise le chercheur.

«Pour nous, le premier défi à relever est l’automatisation de toute la chaîne, insiste Karin Strauss. Il y a encore trop d’intervention humaine.» Pour Nick Goldman, l’un des principaux obstacles au développement de l’archivage biologique est le coût de la synthèse d’ADN. «Comme il n’y a pas encore de vraie compétition sur ce marché émergent, les prix sont anormalement élevés.» Dans le domaine de la lecture, en revanche, les progrès ont été spectaculaires depuis le premier séquençage de génome humain en 2003, qui avait coûté près de trois milliards de dollars: aujourd’hui, le séquençage d’un génome humain revient à moins de mille dollars.

«L’arrivée de Microsoft dans ce domaine crédibilise nos efforts. On peut espérer que d’ici cinq à dix ans, l’archivage par ADN sera compétitif, par rapport aux technologies d’aujourd’hui», se réjouit de son côté Robert Grass, de l’Ecole polytechnique fédérale de Zurich. Avec son groupe, il a mis au point une technique de protection de l’ADN synthétique, à l’aide de verre déposé à froid. «On peut imaginer qu’ainsi protégé, l’ADN pourrait être conservé des centaines de milliers ou des millions d’années!»