Table rase sur les tests d’intelligence artificielle

Technologie Un demi-siècle après sa création, le célèbre test de Turing, qui évalue la capacité d’une machine à penser, pourrait être abandonné

Une série de nouvelles expériences pour lui succéder sont sur les rails

Des ordinateurs «intelligents» doués de parole. De 2001 l’Odyssée de l’espace à A.I. Intelligence artificielle en passant par Les Robots, le concept a été exploré dans de nombreuses œuvres de science-fiction. La réalité, évidemment, est quelque peu nuancée: ceux qui ont essayé de tailler une bavette avec l’assistant vocal de leur smartphone en ont fait la triste (ou comique) expérience. C’est que programmer un logiciel capable de comprendre et de participer à une conversation n’a rien d’enfantin. Pour certains spécialistes, on ne pourra d’ailleurs commencer à parler de véritable intelligence artificielle que lorsqu’on y sera parvenu.

Cette idée, l’informaticien britannique Alan Turing l’a formulée le premier, lui qui est surtout connu pour ses travaux en cryptographie. C’est en effet à lui qu’on doit d’avoir cassé le «code secret des nazis» généré par la machine Enigma durant la Seconde Guerre mondiale, saga au centre d’un biopic, The Imitation Game, qui sortira en Suisse ce 28 janvier. Mais il a également laissé derrière lui le test de Turing, qui vise à évaluer l’intelligence d’une machine. Le principe de ce test est détaillé dans un article qu’il a publié en 1950 dans la revue Computational Machinery and Intelligence. Grossièrement résumé, si au cours d’une conversation une machine parvient à se faire passer pour un humain aux yeux de son interlocuteur de chair et de sang, c’est qu’elle est réellement intelligente. Un test somme toute basique, mais qui est encore utilisé aujourd’hui.

Soixante-quatre ans plus tard, il serait néanmoins temps de penser à dépoussiérer ce test vieillissant, estiment un nombre croissant de chercheurs en informatique. Le thème sera abordé lors d’un des ateliers de la 29e conférence de l’Association américaine pour l’avancement de l’intelligence artificielle, qui débutera à Austin (Texas) ce dimanche 25 janvier.

Mais que lui reproche-t-on au juste, à ce test? Dans une de ses versions les plus connues, un homme (le «juge») discute avec deux autres personnes, sans les connaître ni les voir, par l’intermédiaire d’un ordinateur, comme dans n’importe quelle messagerie instantanée. L’un de ces interlocuteurs mystérieux est un humain, l’autre une machine. Après quelques minutes de conversation, le juge doit désigner qui, de ses deux interlocuteurs, est une machine. S’il en est incapable, la machine a réussi le test: bravo, elle est intelligente. Voilà pour la théorie. Dans la pratique, certaines faiblesses sautent aux yeux: l’intelligence n’est évaluée qu’à travers le prisme de la communication, ainsi que celui du jugement humain, alors que certains comportements intelligents… ne sont justement pas humains.

Toujours est-il que malgré cette simplicité apparente et ces lacunes, le test continue de donner des insomnies aux informaticiens. Mort en 1954, Turing n’a d’ailleurs jamais vu la moindre machine réussir son épreuve: il a fallu attendre 1966 pour voir un premier logiciel (qu’on appelle agent conversationnel ou «chatterbot») y parvenir. Nommé Eliza, il s’agit d’un programme simulant une psychothérapeute. Parlez-lui de vos soucis, Eliza se fait un plaisir de vous aider. «Beaucoup de gens n’ont pu faire la distinction avec un être humain», affirme Boi Faltings, du Laboratoire d’intelligence artificielle de l’EPFL, qui considère que le logiciel a bien réussi le test. Mais ce n’est pas l’avis de tous, car sortie de son champ de compétence, la pertinence d’Eliza s’effondre. Demandez-lui si elle aime la fondue et Madame robot va rapidement répondre n’importe quoi. Elle a néanmoins ouvert la voie à une nouvelle génération de thérapeutes – parfaitement virtuels – dont certains ( Beating the Blues , Fear Fighter ) sont même recommandés par le Ministère britannique de la santé.

D’autres chatterbots ont succédé à Eliza, sans qu’un lauréat mettant tout le monde d’accord ne se dégage. Le dernier en date, Eugene Goostman, n’a pas dérogé à la règle. Ce programme simulant un gamin ukrainien de 13 ans a créé le buzz en juin dernier, lorsque ses géniteurs, chercheurs à l’Université de Reading, près de Londres, ont affirmé qu’il avait passé le test de Turing avec succès. Sur la trentaine de personnes ayant discuté avec lui pendant cinq minutes, un tiers a estimé être en présence d’un véritable garçon et non d’un logiciel. Mais à bien y regarder, les résultats d’Eugene ne sont guère impressionnants. Ses propos deviennent incohérents lorsque la conversation dépasse cinq minutes, et en se présentant sous les traits d’un ado de langue étrangère, il suscite l’indulgence de ses interlocuteurs en cas de réponse approximative ou de syntaxe douteuse. Enfin, Eugene utilise toujours les mêmes ficelles pour se ­dépêtrer d’une situation qu’il ne comprend pas: il change de sujet, répond par une autre question, ou fait de l’humour.

Si bien que pour certaines voix, ces programmes sont tout sauf intelligents. Basés sur des ruses pour tromper leur interlocuteur, ces chatterbots ne font en aucun cas preuve d’intelligence, déclare en substance au magazine Science le neuroscientifique Gary Marcus, de l’Université de New York, qui coorganise l’atelier sur «l’après-Turing». Prêts à tout pour réussir le test, les programmeurs créeraient des chatterbots qui ne pensent pas, mais qui se contentent d’imiter la pensée, dépouillant ainsi le test de sa substance. «Le test a grand besoin d’une mise à jour. Nous allons imaginer une compétition qui évaluera l’intelligence d’une machine autour de trois à cinq tâches distinctes» mobilisant des aspects ignorés par Turing, espère le chercheur. L’objectif: enrichir les critères utilisés pour évaluer l’intelligence artificielle, pour créer à terme des machines de plus en plus proches de l’homme. Mais quels sont ces critères au juste? «Posez la question à trois personnes, et vous aurez certainement trois réponses différentes, glisse Boi Faltings. Pour certains, l’intelligence se définit par la capacité à résoudre des problèmes, pour d’autres, c’est prendre des décisions, ou encore suivre une conversation.»

Un exemple: l’évaluation du contexte, une composante mal intégrée par les ordinateurs. Boi Faltings l’explique: «Prenons la phrase «Jacques est jaloux de Pierre, il a été nommé directeur.» Que remplace le pronom «il»? Un humain saura facilement qu’il s’agit de Pierre (un poste de directeur étant a priori enviable), alors qu’une machine peinera à en arriver à cette déduction.» Une nouvelle compétition annuelle, le Winograd Challenge , doit d’ailleurs départager à partir de fin 2015 les meilleures intelligences artificielles sur ce critère précis. Si le chatterbot du lauréat montre une intelligence comparable à celle d’un humain, ce dernier empochera même 25 000 dollars.

L’intelligence visio-spatiale pourrait faire l’objet d’un autre test. C’est grâce à elle que nous pouvons reconnaître des images, ce à quoi les machines demeurent aveugles. Les captchas, ces images contenant une série de petits caractères distordus que nous saisissons à grand-peine dans les formulaires web, servent d’ailleurs à prouver que nous sommes bien des êtres humains, et non de vulgaires machines. Un mini-test de Turing, en somme. La comparaison n’a rien d’anodin: le «T» de l’acronyme «captcha» désigne – je vous le donne en mille – Turing. Imaginezla puissance de Google si son algorithme de recherche pouvait comprendre et interpréter le contenu d’une image ou d’une vidéo…

Et ce n’est pas tout, l’intelligence corporelle (utiliser son corps pour s’exprimer) ou encore la prise de décision sont d’autres pistes envisagées pour compléter cette future mouture du test de Turing.

Reste que pour certains, abandonner Turing serait une erreur. Stevan Harnad, professeur en sciences cognitives à l’Université de Southampton, estime que le test n’a rien perdu de sa pertinence et que ce sont les essais réalisés jusqu’ici qui l’ont dévoyé. D’après lui, les chatterbots s’y étant frottés reposent sur un «malentendu, une idée simpliste et fallacieuse que le test de Turing est un jeu d’imitation de la pensée. C’est vrai que c’est le titre de son célèbre papier de 1950, mais voyons, il faut pouvoir avancer au-delà d’une lecture naïve d’un titre!» Le test de Turing, dit Stevan Harnad, «est un projet scientifique dont l’objectif est d’expliquer la cognition, c’est-à-dire la capacité de penser. Si on parvient à faire penser une machine comme un être humain, alors on aura fait la rétro-ingénierie de la cognition. Autrement dit, on saura par quel mécanisme causal la machine, et donc l’homme, peut penser.» C’était peut-être cela, le raisonnement d’Alan Turing: pour comprendre ce qu’est la pensée, il suffit de se demander comment elle fonctionne.

Imaginez la puissance de Google s’il pouvait comprendre le contenu d’une image ou d’une vidéo…