Révolution dans le domaine de l’archivage historique! Grâce à un projet d’une ampleur inédite, les étudiants de l’EPFL ont désormais «l’opportunité de développer de nouvelles approches computationnelles, qui ouvrent la voie à de nouvelles méthodes historiques». Le professeur Frédéric Kaplan, directeur du Laboratoire d’humanités digitales (DHLAB) de l’Ecole polytechnique fédérale de Lausanne (EPFL), insiste: ces méthodes «sont également susceptibles de transformer la linguistique et l’étude des médias».

Le temps du «Temps»

Tout cela grâce au passé du Temps. Mais remontons-le un peu, ce temps du Temps. Il y a dix ans, en 2006, débutait la numérisation des collections du Journal de Genève, de la Gazette de Lausanne et du Nouveau Quotidien, les trois titres de presse romande dont il est l’héritier. Ces collections historiques, progressivement, ont été mises à disposition du grand public, sur le site internet www.letempsarchives.ch.

Sept ans plus tard, en 2013, le DHLAB s’est joint au Temps pour faire profiter cet inestimable corpus historique des progrès réalisés depuis en linguistique informatique, ce champ interdisciplinaire basé sur la statistique du langage écrit. Ainsi, après une nouvelle indexation, toutes les données – de 1798 à 1998 – sont désormais disponibles en accès totalement gratuit dans une version modernisée et plus fonctionnelle du site historique.

Lire aussi: Des outils numériques du présent pour densifier le passé (interview du prof. Kaplan, 22.02.2013)

Remises en ligne ce vendredi 18 mars 2016, à l’occasion du 18e anniversaire du Temps (né le 18 mars 1998), ces archives constituent désormais un système d’information à part entière sur l’histoire suisse et mondiale des deux cents dernières années. Dans ce corpus, une recherche sur un thème précis ne se limite plus à l’énumération des articles pertinents. Elle indique aussi le nombre d’occurrences de tel ou tel mot au fil des années, depuis 1798.

Cette évolution permettra sans doute le développement d’autres applications dans le futur, comme une approche Big Data de l’évolution du langage, par exemple, ou de la pérennité (ou non) d’un thème d’actualité: «Des possibilités dont nous n’aurions pas osé rêver», se réjouit Gaël Hurlimann, rédacteur en chef numérique de la newsroom de Ringier, à Lausanne.

Dans le Web sémantique

Mais ce n’est pas fini. Car le site historique du Temps est aussi au bénéfice d’un outil très utile au public, pour identifier les lieux et personnes apparaissant dans les 4 millions d’articles qui constituent le corpus imprimé, soit plus d’un million de pages de journaux. Encore en version «beta», il permettra des recherches plus précises sur l’histoire de la Suisse et du reste du monde. Cette base de données sera alors interconnectable à d’autres, issues du Web sémantique. Un enrichissement considérable qui donnera à l’histoire suisse, telle que vue par trois médias francophones, une place de choix dans les banques de données historiques mondiales.

Un exemple pratique?

Il y a près d’une année, en fouillant les archives historiques du Temps par le simple mot-clé «1945» – nous avions voulu savoir à quels moments précis, durant cinquante ans d’histoire, le Journal de Genève, la Gazette de Lausanne et Le Nouveau Quotidien avaient le plus parlé de la fin de la Deuxième Guerre mondiale. Le résultat de la recherche est ici:

Armistice du 8 mai 1945: un demi-siècle de commémorations dans la presse, de 1955 à 1995

Dans les faits, cet article avait pu être conçu grâce à la possibilité de visionner, sur une courbe temporelle, la fréquence des occurrences du terme «1945», année par année, Et d’étudier, par le biais d’articles ciblés dans l’histoire des trois médias concernés, à quels événements, commémorations, remises en question, etc., faisaient référence les pics de fréquence de cette année symbolique marquant la fin de la Deuxième Guerre mondiale. Une forme de journalisme de données appliqué aux grands événements de l’Histoire.

A consulter: le communiqué de presse conjoint du Temps et de l'EPFL