Savoirs

Le livre, ce «big data» qui s’ignore

Les cathédrales du papier deviennent des temples des données: la Bibliothèque de Genève lance la réflexion à travers une série de conférences jeudi soir

Bibliothèques, big data: les temples de l’imprimé et la galaxie des données numériques sont en train de converger. Comment? La Bibliothèque de Genève se le demande jeudi soir, en une série de conférences qui clôturent son exposition «De l’argile au nuage». Exemples choisis avec deux des experts invités.

L’archipel des notes de bas de page

Naviguer via les outils numériques dans la Venise de Marco Polo ou de Tiepolo comme on le fait dans une ville du monde actuel: c’est l’objectif du projet Venice Time Machine, lancé en 2013 par le Laboratoire d’humanités digitales de l’École polytechnique fédérale de Lausanne, en collaboration avec des universités, bibliothèques et archives vénitiennes. Dans le cadre de cette opération, dont les résultats seront rendus publics en juin 2016, Giovanni Colavizza réalise sa thèse de doctorat en traçant sa route dans l’archipel quelque peu négligé des notes de bas de page.

L’idée? Ces notes qui émaillent les ouvrages savants pointent vers des livres, des articles scientifiques, des documents d’archive: elles créent potentiellement un réseau de liens. Mais pour activer ces liens à partir du papier, l’historien doit localiser géographiquement les ouvrages et documents cités, puis se mettre en route et remonter à la source. Avec le projet Linked Books, les liens créés par les notes de bas de page deviennent de véritables connexions en ligne. Chaque note donnera accès aux répertoires des bibliothèques et aux catalogues des fonds d’archives concernés (ou aux textes eux-mêmes lorsqu’ils auront été numérisés) et chaque document aiguillera les chercheurs vers l’ensemble des ouvrages qui l’ont déjà cité.

«Tout le travail à rebours, effectué par les historiens et par les lecteurs quand ils remontent des notes aux sources, sera automatisé: il sera disponible en ligne, livré par cet outil. Les gains de temps permettront de se concentrer sur les questions fondamentales de la recherche, plutôt que sur ces aspects mécaniques», explique Giovanni Colavizza. Les chercheurs regretteront peut-être de moins voyager. «Mais la possibilité de comparer les sources d’une manière immédiate et ouverte peut avoir des répercussions majeures sur la recherche. On se souviendra que la révolution scientifique du XVIe-XVIIe siècle a été facilitée par ce même phénomène: la comparaison de données rendues universellement disponibles grâce à l’imprimerie.»

Comment aérer un écosystème fermé

Métadonnées: terme intimidant pour désigner les informations disponibles au sujet d’une source d’information. Dans le cadre d’une bibliothèque, ces données forment une description qui, du niveau minimaliste (titre, auteur, année) peut aller jusqu’à une «granularité» très fine: titre de chaque chapitre, résumé (abstract) placé au début d’un article scientifique. À qui appartiennent ces métadonnées? À tout le monde, en théorie. À la différence des contenus, soumis au droit d’auteur, elles sont libres. En pratique, la situation est un peu différente…

«Avec l’émergence de la documentation électronique, la masse des contenus à traiter est devenue telle qu’aucune bibliothèque ne peut plus effectuer seule la gestion de ses catalogues. Des opérateurs privés se sont intégrés à ce marché, en proposant des solutions logicielles. Autrefois, ils étaient très nombreux», relève Jérôme Kalfon, Directeur de l’Agence bibliographique de l’enseignement supérieur (ABES), sise à Montpellier. Et aujourd’hui? «La taille critique nécessaire pour gérer les catalogues dans un environnement qui intègre le numérique est beaucoup plus importante. Par conséquent, le nombre d’opérateurs spécialisés se réduit et on assiste à une concentration croissante. L’écosystème des métadonnées est aussi de plus en plus fermé: les données sont enfermées dans les outils. C’est un peu comme dans l’iPhone, fonctionnant avec une puce qui lui est propre et qui rend les logiciels dépendants de l’appareil.»

Cette situation freine le progrès scientifique: les métadonnées doivent «sortir de l’enfermement et dialoguer les unes avec les autres» pour faire avancer les connaissances. L’innovation technique est également entravée, «car un opérateur en situation de quasi-monopole s’intéressera davantage à la défense de sa rente de situation plutôt qu’à innover». Que faire? «La sphère privée est concentrée, et la sphère publique est éclatée. Si on veut garantir une forme d’indépendance, il faut que les métadonnées soient exposées dans ce que j’appelle des catalogues de sauvegarde nationale. Interconnectées et utilisables librement, elles permettront à de nouveaux opérateurs, et à d’autres acteurs, d’inventer toutes sortes de nouveaux services.»

«Big data et les bibliothèques de demain», jeudi 12 novembre à 18 à la Bibliothèque de Genève (Promenade des Bastions 1)

Conférences:

– Nicolas Prongué (Haute école de gestion de Genève): «Linked Library Data ou Les bibliothèques dans le web sémantique»

– Jérôme Kalfon (Agence bibliographique de l’enseignement supérieur, Montpellier): «Désencapsuler les données»

– Giovanni Colavizza (Laboratoire des Humanités digitales, EPFL): «Annotations, références et notes de bas de page: l’accélération dans la communication scientifique»

– Dominik Madon (Ville de Genève): «Ouverture virtuelle, barrières légales»

– Jens Vigen (CERN): «Accès aux données scientifiques: la prochaine étape»

– Laurent Bolli (Agence Bread and Butter, Lausanne): «Bookworld, la ville comme métaphore du livre»

En présence de Sami Kanaan, Conseiller administratif en charge du Département de la culture et du sport de la Ville de Genève

Publicité