savoirs

2017, l’odyssée de la reconnaissance vocale

Le président de l'EPFL Martin Vetterli tient désormais une chronique dans «L'Illustré» et sur le site du «Temps». Il analyse comment nous sommes peu à peu «compris» par nos smartphones

Récemment, j’ai repensé au film 2001, l’odyssée de l’espace, de Stanley Kubrick. Il a été tourné pendant l’âge d’or de la course à l’espace, et fêtera bientôt son 50e anniversaire. Le film est une projection optimiste de la technologie. HAL, un ordinateur tout-puissant, est dépourvu de clavier: tous les échanges avec l’équipage se font sous forme de conversations. Pourtant, ce n’est que récemment que des applications comme Siri d’Apple commencent à mettre dans nos poches quelque chose qui ressemble à HAL. Comment apprendre à une machine à reconnaître les mots? Et pourquoi a-t-il fallu si longtemps?

Comme souvent lorsqu’on tente de concevoir une machine imitant des capacités humaines, la première chose à faire est de prendre du recul par rapport à ce que nous savons, et d’essayer de comprendre «informatiquement» comment fonctionne le langage humain. La parole est une séquence d’unités de sons basiques produites par le canal vocal, et les mots énoncés sont composés d’unités de sons successives (de la même manière que les mots écrits sont des séquences de lettres).

Pour comprendre un mot

Afin de comprendre un mot parlé, nous devons donc identifier les unités de sons sous-jacentes. C’est un processus délicat, dans la mesure où certains sons de base, comme les voyelles, doivent être analysés sur la base de leur ton (comme les notes de musique), tandis que les consonnes sont reconnues en observant comment le son change avec le temps. Chez les humains, cette étape est accomplie par notre oreille interne, tandis que quand vous parlez à Siri, elle est faite directement dans le smartphone auquel vous parlez.

Dans les faits, une liste d’unités de sons possibles est calculée (et non un son unique), puis envoyée à un serveur chez Apple via votre connexion Internet. Et c’est là que les choses deviennent intéressantes.

Prenons des mots écrits et des lettres, en lieu et place de sons, pour illustrer ce qui se passe ensuite. Considérez par exemple les deux mots «MAISON» et «place». Vous n’aurez aucune difficulté à lire les mots, même si, graphiquement, la lettre majuscule «I» dans «MAISON» est identique au «L» minuscule dans «place»! Cependant, dans le contexte formé par les autres lettres situées autour, vous pouvez facilement identifier de quelle lettre il s’agit (après tout, «piace» ne veut rien dire). Les deux possibilités sont donc évaluées sur la base de nos connaissances du langage.

De la nécessité d'un serveur

De la même façon, un modèle de langage sophistiqué sur le serveur d’Apple aide à choisir certaines constructions et à en rejeter d’autres, jusqu’à ce qu’il trouve la meilleure solution. Cela se passe au niveau des lettres, des mots, des phrases et finalement du sens.
Pourquoi a-t-il donc fallu tant de temps pour développer ces machines?

En fait, pour construire des modèles de langage, il faut une énorme quantité de données. Et cela n’est devenu possible que depuis peu. De plus, il faut des ordinateurs puissants et rapides pour comparer toutes les possibilités. C’est aussi la raison pour laquelle vous avez besoin d’une connexion Internet lorsque vous parlez à Siri: votre téléphone portable n’est pas capable de faire ce calcul, et la «compréhension» véritable a donc lieu à distance sur un serveur puissant. Nous allons donc pouvoir enfin atteindre le niveau de HAL dans le célèbre film, mais un peu après 2001.

(Cette chronique est parue dans L'Illustré).

Publicité