Logo

Langue vendredi 17 décembre 2010

Les sens cachés de 500 milliards de mots

Par Denis Delbecq
La numérisation de 12 millions d’ouvrages datant de 1800 à 2000 permet d’étudier scientifiquement l’évolution du vocabulaire et de saisir toutes sortes de réalités plus ou moins connues

Combien existe-t-il de mots anglais ou français? Comment naissent-ils ou disparaissent-ils? Comment la censure efface-t-elle des noms? Une partie des réponses se trouve dans les quelque 130 millions d’ouvrages que les humains ont écrits au fil des siècles. Une équipe américaine propose un outil informatique pour explorer la gigantesque bibliothèque constituée par Google. Ses travaux sont présentés dans la revue Science aujourd’hui.

Depuis 2004, le géant d’Internet Google a numérisé 12 millions d’ouvrages. Pour chacun d’entre eux, les images des pages ont été traduites en textes par des programmes spécialisés. Ce réservoir de documents restait inaccessible aux chercheurs. Mais une équipe conduite par le Français Jean-Baptiste Michel à l’Université de Harvard s’est rapprochée de Google pour mettre au point des outils d’analyse de ce corpus géant. Elle en explique les principes dans Science, nourris de nombreux exemples, à partir de l’étude de 5 millions de livres, édités entre 1800 et 2000. Soit environ 4% de l’ensemble des livres jamais publiés! Au total, la base de données comprend 361 milliards de mots anglais, 45 milliards de mots français et espagnols, 37 milliards de mots allemands ainsi que des milliards de mots russes, chinois et hébreux. Du jamais vu, selon les linguistes.

Que ressort-il des exemples relatés par Science? On y redécouvre que le lexique anglophone comptait 500 000 mots en 1950, autant qu’en 1900 mais qu’il s’est enrichi depuis au point d’avoir doublé à l’aube du XXIe siècle. Et que les acteurs connaissent une notoriété plus jeune et plus importante que celle des scientifiques. Mais que leur célébrité est moins durable.

L’étude de la fréquence des mots révèle aussi leur lien avec des événements historiques. Ainsi, l’expression «grande guerre» apparu en 1914 a largement cédé la place à «première guerre mondiale» quand le conflit de 1939 a éclaté. Et le terme «grippe» a connu des pics après chaque épidémie meurtrière en 1889, 1918 et 1968.

La censure politique se lit clairement dans les bases de données: le mot «Tiananmen» a connu un vif succès dans les ouvrages anglophones après les événements de Pékin en 1989. En revanche, en chinois, ces derniers passent presque inaperçus. Dans les livres ­américains, les noms des «dix d’Hollywood», des personnalités soupçonnées en 1947 d’être communistes, seront moins fréquents avant de réapparaître à partir de 1960. De même Marc Chagall, peintre russe et juif, a presque disparu des textes en allemand pendant la période nazie.

«Il n’y a pas de découvertes dans ces résultats, prévient Jean-Marie Viprey, linguiste à l’Université de Franche-Comté (France). Mes collègues sont partis de faits avérés pour montrer que leur outil est valide.» Pour Jean Véronis, linguiste à l’Université de Provence et auteur d’un blog sur les technologies du langage (1), c’est un pas majeur qui est franchi: «Il y a vingt ans, nous avions accès à des corpus d’un million de mots. Ces dernières années, on avait atteint les cent millions. Celui dont nous parlons aujourd’hui est époustouflant.»

Le lexicographe Alain Rey, qui dirige le dictionnaire Le Robert, estime pour sa part que l’arrivée de cet outil est dans l’air du temps. «Les outils quantitatifs ont pris du poids depuis dix ou vingt ans, mais il faut se méfier de l’exhaustivité. Plus un corpus est immense, et plus son interprétation est difficile. Nous utilisons des banques de textes informatisés. Et le moteur de recherche Google nous permet de voir à quel point un mot nouveau s’est répandu. Mais c’est d’abord notre expérience qui dicte la décision.»

Les scientifiques s’interrogent sur l’utilité de la banque de données que Google met en ligne aujourd’hui (2). «Que fera-t-on de ces données?» s’interroge Jean-Marc Viprey. Sa collègue Antoinette Renouf, de l’Université de Birmingham (Grande-Bretagne), pointe les limites de l’outil, qui fournira, triées par année de publication, des listes de mots ou des suites de deux à cinq mots classés par fréquence d’apparition. «L’arrivée de cette base de données est une étape importante. Mais cela sera insuffisant. Nous, linguistes, avons besoin de savoir de quel type d’ouvrage il s’agit. Et surtout du contexte. Pour l’anglais, il faudrait accéder à des groupes de neuf mots pour faire de la phraséologie ou lever les ambiguïtés de certains termes. Pour le français, il faudrait des ensembles d’au moins treize mots.»

Pourquoi cette limite imposée par Google? «Parce qu’il y a des problèmes de droit d’auteur, regrette le biologiste et mathématicien français Jean-Baptiste Michel, cosignataire des travaux. Nous aurions souhaité offrir plus, mais on ne peut mettre à disposition les textes complets. Quoi qu’il en soit, cet outil devrait aider les chercheurs, même s’il ne remplacera jamais leur expérience et leur intuition.»

Ce qui surprend le plus, à découvrir les travaux publiés dans Science, c’est qu’ils émanent d’abord de biologistes, mathématiciens et statisticiens, et non des sciences humaines. «La raison en est simple, explique Jean Véronis. La génomique a beaucoup fait progresser les méthodes d’analyse des gros volumes de données. Et comme les linguistes portent rarement d’intérêt aux sciences dures, on ne les retrouve pas à la pointe.»

A Harvard, on a bien compris en tout cas comment faire du buzz. L’équipe a imaginé un nouveau mot, «culturomique», pour désigner sa méthode. Une contraction de culture et génomique. Résistera-t-il à l’épreuve du temps? «Nous l’espérons même si c’est surtout la méthode qui nous importe», s’amuse Jean-Baptiste Michel. Pour Jean Véronis, il ne survivra pas. «Le mot est excessif. Lexinomique aurait été plus approprié.» Réponse dans le Robert d’Alain Rey, dans quelques années, après, bien sûr, consultation de Google. A quelques heures de la parution de Science, le moteur ne connaissait pas encore de «culturomique». Gageons que cela ne durera pas.

(1) blog.veronis.fr
(2) www.culturomics.org