digital

«Hackathon»: un safari culturel dans la jungle des données

Le premier marathon voué au traitement des documents culturels numériques se tient ce week-end à Berne. De quoi s’agit-il au juste? Exemples et explications

«Hackathon»: dans la jungle des données

Digital Le premier marathon voué au traitement des documents culturels numériques se tient ce week-end à Berne

De quoi s’agit-il au juste? Exemples et explications

«Tailler», «entrer par effraction», «bricoler»: si l’on en croit les significations du verbe anglais to hack, ce sont les trois opérations qu’il convient d’effectuer lorsqu’on se trouve en présence de vastes masses de données. «Tailler» des chemins à la machette dans la jungle numérique. «Bricoler» des montages inédits pour faire jaillir du sens à partir du foisonnement de l’information. «Entrer par effraction»? Il vaut mieux, sans doute, prendre cette dernière suggestion au deuxième degré: il s’agit de pousser les gardiens des données à les rendre ­accessibles, plutôt que de les leur voler.

«Ouvrir les données publiques, de façon libre et réutilisable pour plus de transparence, d’efficacité et d’innovation», c’est la mission que s’est donnée l’association Opendata.ch, initiatrice, ce week-end à Berne dans les locaux de la Bibliothèque nationale suisse, du premier «hackathon culturel» à l’échelle de la nation. «Hackathon», oui. Du verbe to hack détaillé ci-dessus et de «marathon»: il s’agit d’ouvrir un maximum de pistes et de produire un maximum de sens en un minimum de temps – deux jours, en l’occurrence. «Il y a déjà eu des hackathons en Suisse avec des données liées au sport ou à l’économie. Ce sera en revanche le tout premier où l’on travaillera sur des données culturelles», signale Frédéric Noyer, archiviste-informaticien aux Archives de l’Etat neuchâteloises et membre du groupe organisateur de la manifestation.

De quelles données parle-t-on, pour commencer? Une page web créée à l’occasion de ce hackathon contient une liste, évolutive et non exhaustive, des gisements offerts en ligne par les institutions culturelles suisses, souvent via le site Wikimedia Commons (qui s’autodéfinit, à l’heure où nous écrivons ces lignes, comme «une médiathèque de 24 831 897 fichiers média librement réutilisables et que chacun peut enrichir»).

Heidi à Machu Picchu?

Dans la liste préparée pour ce week-end, on trouve ainsi, par exemple, la plus ancienne collection de photos de police dont l’histoire mondiale ait gardé une trace: il se trouve qu’elle est suisse, due au Bernois Carl Durheim – lequel portraiturait des Heimatlos , c’est-à-dire des personnes sans domicile légal et notamment des gens du voyage, en 1852-1853. Saisissante, la galerie d’images vaut le détour. D’autres banques de données sont faites de documents relatifs à la politique étrangère de la Suisse à travers l’histoire, de photos aériennes vintage , ou encore des descriptions constamment actualisées des 1,9 million d’espèces vivantes connues sur Terre.

Que faire avec cette étrange aubaine? En vue du hackathon, les propositions affluent. L’une d’entre elles consiste à développer un outil de navigation numérique permettant de regrouper les livres selon le nombre de noms propres qu’ils ont en commun. «Cela permettrait peut-être d’établir des connexions surprenantes, ou de mettre au point une nouvelle modalité d’accès à ces textes», lit-on sur une page ouverte au brainstorming . C’est vrai: imaginons, par exemple, que la procédure génère une liste d’ouvrages qui auraient en commun le fait de citer les noms «Heidi», «Karl Marx», «Machu Picchu» et «James Bond»…

Autre proposition évoquée par les participants: le «Curateur virtuel». Le principe? L’utilisateur taperait quelques mots clefs qui l’intéressent et l’application, convertie en commissaire d’exposition, écumerait les banques d’images pour lui monter un accrochage virtuel, personnalisé sur mesure, basé sur les mots indiqués. Une autre suggestion vise à rendre annotables les images en ligne, de façon ouverte et participative, sur le modèle de ce que l’application Genius fait pour les textes. Vous repérez un détail troublant dans une photo, une carte ou un tableau, vous annotez le document visuel en ligne, et les utilisateurs suivants qui parcourent l’image avec leur souris se retrouvent enrichis par votre sagacité.

Faune du monde numérique

Les données représentent, si l’on veut, la flore, très luxuriante, de l’opération. Quelle est – si l’on ose dire – la faune? «Il y a des personnes qui viennent du monde artistique, dont la motivation est souvent de remixer des données ou des œuvres d’art qui sont dans le domaine public», répond Frédéric Noyer. Le premier Festival du domaine public, tenu à Paris en janvier, se consacrait à ce genre d’explorations (LT du 24.01.2015).

Qui d’autre? «Il y en a qui viennent du monde de Wikipédia et qui aimeraient, par exemple, illustrer leurs articles avec des scans de tableaux suisses, ou avec des images de la Première Guerre mondiale mises à disposition par la Bibliothèque nationale. Un autre groupe est celui des chercheurs en digital humanities, tels que l’équipe de Frédéric Kaplan à l’EPFL, qui se consacrent plutôt au traitement et à l’analyse des données». Tout ce monde fait un travail de médiation entre les données et le public. «On essaie de faire se rencontrer ces médiateurs, chacun avec son domaine spécifique, et les institutions patrimoniales – musées, archives, bibliothèques – qui, petit à petit, font des efforts pour mettre à disposition leurs données en ligne.»

Si le public généraliste n’est pas la cible du hackathon, il est désigné comme le bénéficiaire final de ces expériences, situées quelque part entre le brainstorming, l’expérience scientifique et le chantier ludique. Telle est du moins l’idée des organisateurs: les contacts et les vocations issus du hackathon déboucheront, idéalement, sur une plus grande richesse de données en libre accès – et sur des outils pour faire du sens dans cette abondance d’information de plus en plus démesurée.

«Hacker»? Il s’agit de pousser les gardiens des données à les rendre accessibles, plutôt que de les leur voler

Publicité