La Venise virtuelle pour remonter le temps

EPFL Le projet «Venice Time Machine» vise à numériser 1000 ans d’archives d’Etat

Il va nécessiter de nombreux développements technologiques

Il fait nuit, le bateau vogue en silence sur le Grand Canal de Venise en longeant les façades colorées des «palazzi». Les gondoles sont alignées le long des quais entre les piquets de bois. La scène prend place en 2014 mais pourrait aussi avoir lieu 500 ans plus tôt tant les bâtiments et l’atmosphère de la Cité des Doges semblent être suspendus dans le temps.

Combien de bateaux circulaient sur ces mêmes eaux il y a cinq siècles? Que transportaient-ils? Que possédaient les habitants de Venise? Comment vivaient-ils? A quoi ressemblaient les bâtiments des «calle» et «via» qui sillonnent le labyrinthe de la sérénissime? Autant de questions que les visiteurs se posent mais qui animent aussi les chercheurs du projet «Venice Time Machine» (VTM), lancé il y a un peu plus d’un an par l’Ecole polytechnique fédérale de Lausanne (EPFL) en collaboration avec l’Université Ca’Foscari de Venise (Lire LT du 23.02.2014).

Le but: numériser et analyser plus de douze siècles de registres d’archives tenus par les autorités de l’Etat de Venise. Un travail de Big Data qui requiert des ressources technologiques et financières importantes. Or, ce vendredi, réunis entre les colonnes du cloître des Archives d’Etat de Venise, les présidents des deux institutions ont annoncé que la Fondation Lombard Odier rejoignait le projet comme partenaire financier. Selon certaines sources, un montant à six chiffres aurait été mis sur la table pour la valorisation du VTM et le développement des technologies associées.

Car l’entreprise de numérisation n’est pas mince. Les couloirs du bâtiment des archives vénitiennes recèlent plus de 80 kilomètres de registres. Tout y est consigné depuis mille ans, comme par exemple les décès, les naissances, les impôts, les mariages, ainsi que les noms, adresses et même les biens des habitants. Une mine d’or pour les historiens, que les chercheurs du ­département des Humanités digitales de l’EPFL, dirigé par Frédéric Kaplan, cherchent à valoriser en créant de nouveaux outils pour optimiser la numérisation et permettre d’isoler le texte contenu dans tous ces documents.

Aujourd’hui un seul scanner est installé dans une des pièces du bâtiment des archives. L’instrument, acheté auprès d’une entreprise basée à Ecublens dans le canton de Vaud, a été modifié pour le projet. «Le scanner possède deux caméras à très haute résolution, une pour chaque page du livre ouvert, explique Andrea Mazzei, scientifique dans l’équipe de Frédéric Kaplan. Chaque page est dépoussiérée par l’opérateur qui abaisse ensuite une vitre pour aplanir la surface avant de prendre la photo. Une autre personne est en charge d’associer ­chaque page numérique avec ses métadonnées comprenant les informations de l’archive.» Une fois optimisé, le système semi-automatique pourrait permettre la numérisation de 300 pages par heure soit un registre par jour.

La clé du projet VTM repose sur l’extraction du texte de ces milliers de volumes. Frédéric Kaplan et son équipe rêvent de recréer un «Facebook du passé» où toutes les personnes citées dans l’ensemble des registres pourraient être interconnectées grâce à la transcription des millions de pages. Pour cela, Andrea Mazzei développe un outil informatique permettant de séparer les pixels du texte de la page virtuelle après numérisation. Une technologie originale qui serait capable de décoder les écritures faites à la main, ce que personne n’est arrivé à mettre au point à ce jour. La quantité de matériel à disposition est un atout pour cette étape de transcription car plus il y a de mots écrits à disposition, plus leur reconnaissance par les algorithmes est robuste.

Au-delà des registres, les archives contiennent également un très grand nombre de cartes de la ville. A l’aide des cartes les plus récentes (moins de 200 ans), les chercheurs ont généré des simulations informatiques 3D de l’architecture de Venise. Ils ajoutent ensuite «à la main» les modifications observées sur les cartes les plus anciennes. «Dans un an, nous pourrons visualiser Venise en 3D sur 500 ans», promet Frédéric Kaplan.

Le professeur, tout comme Patrick Aebischer, président de l’EPFL, n’hésite pas à comparer le projet VTM au Human Brain Project, autre aventure scientifique du Big Data à l’EPFL, appliquée au domaine des neurosciences et qui vise à modéliser in silico le cerveau humain. «Nous devons mettre en place une toute nouvelle technologie pour mener à bien le projet VTM qui est très ambitieux. Les humanités digitales ne doivent plus être considérées comme une conversation interdisciplinaire entre experts, mais comme une filière universitaire à part entière.»

Les chercheurs du VTM pensent finir d’ici à quelques mois les phases de test pour les outils technologiques. Viendra ensuite la phase d’expansion du travail de numérisation. Pour l’instant seulement 1% environ des documents ont été scannés. «C’est un projet à long terme. La moitié des documents pourraient être scannés dans les dix prochaines années», commente Michele Petochi, directeur des opérations à l’EPFL. «Le comité d’experts du VTM a classé les registres selon un ordre prioritaire afin de numériser en premier les éléments les plus pertinents scientifiquement», précise Frédéric Kaplan.

La chaîne de travail systématique pour scanner les documents a été pensée sous forme d’une «unité de numérisation» comprenant l’espace de travail des opérateurs et les instruments. D’ici à la fin de l’année, le nombre d’unités nécessaires pour tout numériser sera déterminé et budgété. Aujourd’hui il semblerait qu’une quarantaine de scanners soient nécessaires, chacun coûtant plusieurs dizaines de milliers de francs. La recherche de sponsors pour assurer la multiplication des unités de travail constitue donc l’étape maintenant importante.

Or un nouveau pion est venu se placer sur l’échiquier du VTM récemment. Le président de Google, Eric Schmidt, était en visite jeudi sur le campus de l’EPFL. «Quand nous lui avons présenté Venice Time machine, ses yeux ont brillé», raconte fièrement Patrick Aebischer. Frédéric Kaplan, lui, parle souvent de VTM comme d’un Google Earth où l’on pourrait «zoomer dans le temps». De quoi séduire le géant américain qui n’en serait pas à sa première initiative entre art et nouvelles technologies.

«Si une grande entreprise privée devient sponsor du projet, nous serons intransigeants sur la notion de bien commun et la nécessité de pouvoir diffuser les résultats de ce travail avec tout le monde», assure Frédéric Kaplan.

Une fois optimisé, le système pourrait numériser 300 pages par heure, soit un total de 2500 par jour