Numérique

«Le contenu numérisé doit être gratuit et accessible»

Ce samedi se termine le congrès international des Humanités digitales à Lausanne. Numérisation massive, analyse de texte manuscrit et archivage sont au cœur des réflexions des chercheurs. Melissa Terras, de la University College of London, fait le bilan de dix ans de recherches

«Le contenu numérisé doit être gratuit et accessible»

Numérique Le congrès d’Humanités digitales se termine à Lausanne

Numérisation, étude des manuscrits et archivage sont au cœur des réflexions

Depuis lundi, le campus lausannois accueille le congrès international des «Digital Humanities» ou Humanités digitales (HD), co-organisé par l’Ecole polytechnique fédérale (EPFL), l’Université de Lausanne et l’Alliance des organisations d’humanités digitales. Cette discipline académique fête ses dix ans d’existence et réunit sous une même ombrelle des chercheurs d’horizons divers ayant tous recours au numérique pour mener leur recherche: sociologistes, historiens, philosophes ou exégètes des lettres classiques et modernes. Le projet phare de l’EPFL dans le domaine, Venice Time Machine, vise à numériser et à analyser par des outils technologiques le contenu des 80 kilomètres de registres des archives de l’Etat de Venise accumulés depuis mille ans (lire LT du 21.06.2014). Melissa Terras, directrice du centre des HD à la University College de Londres, a mis sur pied le programme du congrès et fait le bilan d’une décennie de recherches.

Le Temps: A l’instar du projet Venice Time Machine, est-ce que les HD sont une science du Big Data?

Melissa Terras: Les HD ne sont pas seulement du Big Data, même s’il existe un engouement pour les millions de livres numérisés grâce à l’amélioration de la puissance des ordinateurs.

Il existe encore de l’espace pour le «close reading» [l’interprétation de textes courts]. Un de mes étudiants travaille sur un sonnet de Shakespeare, le poème 49, et crée des visualisations des permutations de sens possibles. Certains «petits» contenus sont très complexes, et leur étude peut s’avérer aussi difficile que celle d’un large corpus de données.

Par ailleurs, le Big Data est à la mode aujourd’hui car certains pensent que ce domaine apportera des réponses; une forme de «solutionnisme» attribué à la technologie.

– Que pensez-vous du projet Venice Time Machine?

– Je trouve fascinant de se plonger dans des archives si imposantes et de chercher à réunir chaque fragment pour former une vision globale détaillée grâce à la technologie. Mais ce qui m’intéresse, c’est ce que les historiens découvriront une fois qu’ils auront mis leur nez dans ce projet. La technique permet la construction du contenu, mais l’essentiel réside dans l’étude du changement de notre compréhension de la culture passée.

– Dans votre leçon inaugurale, vous avez dit que l’utilisation des techniques numériques en HD devait permettre une recherche dans les domaines des arts et des lettres qui autrement serait impossible.

– C’est ce que je pense. Je ne m’intéresse pas à ce qui pourrait être réalisé manuellement par un millier de personnes. Je m’intéresse aux problèmes qui ne peuvent pas être résolus physiquement, comme la lecture de documents que l’être humain ne peut pas lire. Par exemple, j’ai travaillé avec des ingénieurs et des informaticiens sur un document qui a été abîmé dans un incendie au XVIIIe siècle, le texte était illisible. Nous l’avons virtuellement déchiffré, c’est-à-dire que nous avons analysé le support pour retrouver des traces de l’écriture, et accéder au contenu. En tant que chercheur en HD j’étais très intéressée par le développement des outils, par le partage des images de l’objet abîmé et des méthodes avec la communauté scientifique. Ce projet change aussi notre relation au document historique original, car nous avons créé un substitut numérique qui n’existait pas avant.

Par ailleurs, avec le Big Data, il y a trop d’informations pour pouvoir faire les analyses manuellement, et la technologie permet d’accélérer les recherches et de les rendre plus efficaces.

De nombreux projets présentés au congrès international de Lausanne cette semaine s’intéressent à l’analyse des manuscrits.

– Cette année, il y a aussi beaucoup de chercheurs qui travaillent sur la représentation géospatiale, la cartographie et l’analyse d’images. Mais effectivement 60% des participants sont spécialisés dans l’analyse de texte. Par exemple, je travaille sur un projet appelé «Transcriptorium», qui vise à créer des algorithmes pour lire automatiquement l’écriture manuscrite de centaines de documents. Le consortium des six universités impliquées espère mettre en place un service de numérisation automatique ouvert à tous. Les outils d’analyse de texte écrit à la main bouleversent les pratiques tout comme l’OCR [Optical Character Recognition, méthode de reconnaissance automatique par ordinateur des caractères imprimés] l’avait fait auparavant. Quand des centaines de manuscrits auront été numérisés, les chercheurs pourront faire des recherches dans le texte comme on fait des recherches dans Google Books grâce à l’OCR. Tout cela est très excitant.

– Quelle est la part d’erreur dans les systèmes de reconnaissance de texte automatisés?

– Notre centre de recherche a participé au projet «Transcribe Bentham» visant à transcrire les manuscrits de Jeremy Bentham (1748-1832), un philosophe célèbre en Grande-Bretagne. Quatre millions de mots ont été transcrits grâce au travail de bénévoles. Puis les transcriptions étaient vérifiées au fur et à mesure par un expert. Mais ça coûte trop cher.

Aujourd’hui on se dirige vers l’automatisation de la transcription. Donc, au lieu de 100% de justesse, seulement 60% du texte serait correct avec une erreur tous les quatre ou cinq mots. Il est ensuite possible de «crowdsourcer», c’est-à-dire de faire appel à la communauté, pour corriger les textes numérisés. Comme pour le projet «Trove» de la National Library, en Australie, où des millions de journaux ont été numérisés et analysés par OCR. L’encre des journaux imprimés a tendance à déteindre, gênant la numérisation. Des millions de lignes de texte ont été ensuite corrigées par les lecteurs.

Les historiens comprennent qu’il n’y a pas besoin d’avoir 100% de justesse, mais pas les informaticiens, qui veulent atteindre la perfection.

– Quel est le rôle des bibliothèques aujourd’hui, quand tout semble être désormais en ligne?

– Tout paraît être en ligne, mais ce n’est pas le cas. Comme le montre une étude menée depuis deux ans par le projet «Enumerate» auprès des principaux musées, bibliothèques et archives en Europe: à ce jour, environ 1% seulement des collections nationales des bibliothèques ont été numérisées. La plupart des institutions ont mis en place un programme de numérisation, visant 50% du contenu numérisé d’ici à 5 ou 6 ans. Beaucoup de fonds contiennent une quantité incroyable de matériel qui ne peut pas être numérisé faute de moyens ou d’autorisation à cause du copyright, en particulier pour les documents datant de moins de cent ans.

A cause de l’abondance de contenu, les bibliothèques doivent choisir ce qui sera numérisé ou non. C’est pourquoi des mécanismes comme la numérisation «à la carte» se mettent en place: les gens contactent directement les bibliothèques afin d’obtenir la numérisation d’un document.

– Quels sont les défis des HD?

– Tout d’abord la qualité de la numérisation. Par exemple, chez Google Books, ils emploient beaucoup de gens peu rémunérés, qui numérisent rapidement avec un unique type de caméra. Or, pour un résultat de meilleure qualité, il faudrait traiter chaque document individuellement à la main. Il faut trouver un équilibre entre vitesse et qualité de numérisation.

Un autre défi est la durabilité. Aujourd’hui, on pense que tout peut être conservé mais ce n’est pas le cas. Dans 4 à 5 ans, un choix difficile devra être fait entre ce qui doit être éliminé pour des raisons économiques et de place.

Beaucoup de projets de numérisation ont eu lieu au tournant du millénaire, en 2000, avec un budget de plus de 32 millions de livres sterling en Grande-Bretagne. Des centaines de ces projets sont «morts» car les liens internet ne sont plus actifs.

– Avez-vous un projet en tête, fou et impossible?

Je rêve de construire une plateforme globale, accessible par tous, pour centraliser les données de tous les transcrits de manuscrits du monde entier et toutes les méthodes d’analyse intégrées, et à laquelle tout le monde aurait accès . La construction d’une telle plateforme est en cours, et elle verra certainement le jour d’ici à quelques années.

J’aimerais aussi qu’il y ait plus de partage des contenus numérisés. Un livre numérisé appartenant à une université ne devrait pas être uniquement pour les étudiants de cette institution. En décembre dernier, la British Library a mis à disposition sur Internet une grande quantité de contenu, et plusieurs millions de personnes ont visité son site, montrant l’intérêt du public et des chercheurs. Le contenu numérisé doit être gratuit et accessible afin de permettre le développement de nouvelles méthodes d’analyse.

Publicité