Coup de maître dans l’univers de l’intelligence artificielle. Pour la première fois un ordinateur a battu un joueur de Go professionnel, comme le détaille un article de recherche publié dans la revue Nature du 28 janvier. Les vingt auteurs sont tous membres de Google Deepmind, une entreprise britannique créée en 2010 et qui a été rachetée en 2014 par le géant californien. Leur algorithme, AlphaGo, a battu l’actuel champion européen, Hui Fan, par 5 victoires à zéro en octobre dernier à Londres. Il n’a en outre perdu qu’une partie sur 500 contre les meilleurs programmes. Hui Fan a mieux résisté dans des parties rapides, perdant 3 à 2.

« C’est époustouflant ! », s’exclame Olivier Teytaud, spécialiste français en intelligence artificielle à l'Institut national de recherche en informatique et en automatique (INRIA) et auteur de MoGo, un programme qui avait obtenu en 2009 une première victoire contre un professionnel sur une version réduite du plateau de jeu. « Ils sont une classe au-dessus de tout le monde. La différence de niveau est gigantesque », ajoute Rémi Coulom, ancien maître de conférences à l’université de Lille 3, aujourd’hui, développeur indépendant dans l’Intelligence artificielle pour les jeux. Il est surtout le créateur de Crazystone, l’un des deux meilleurs programmes actuels de jeu de Go. « Je n’attendais pas de tels progrès avant 10-15 ans. C’est très impressionnant », complète Tristan Cazenave, professeur à l’université Paris-Dauphine, spécialiste de la programmation des jeux.

Cet exploit est annoncé quasiment 20 ans jour pour jour après que le champion d’échec Garry Kasparov a perdu une première fois contre un ordinateur d’IBM avant d’être défait dans un match complet l’année suivante. L’entreprise annonce d’ailleurs qu’en mars à Séoul, AlphaGo affrontera l'actuel meilleur joueur mondial de Go, le coréen Lee Sedol.

Lire aussi:  Quand la machine a battu l'homme Kasparov

Le jeu de Go a été inventé en Chine il y a 3 000 ans environ et arrivé en Europe il y a seulement un siècle. Le principe? Deux joueurs tentent de se partager un plateau de 19 lignes sur 19 en créant des territoires qu’ils délimitent grâce à des frontières formées de pierres noires et blanches. Ce jeu est très difficile à simuler tellement le nombre de combinaisons à explorer est grand, estimé à 10 170 (un 1 suivi de 170 zéros). Contre 10 120 environ aux échecs. Jusqu’à présent les programmes n’avaient battu les professionnels que dans des parties dites à handicap, avec quatre pierres d’avance.

Deep learning

Les meilleurs algorithmes actuels, Crazystone ou Zen, profitent de la puissance des ordinateurs pour évaluer la pertinence des coups en jouant des milliers de parties aléatoires. Le pourcentage de parties gagnantes donne une estimation de la probabilité de victoire finale. Une version améliorée de ces simulations dites Monte-Carlo a été proposée au milieu des années 2000. « Le Monte Carlo est devenu plus intelligent. Au lieu de simuler n’importe comment, on simule de plus en plus les bons coups. Cela permet de fouiller les bonnes zones de l’arbre des possibilités », résume Olivier Teytaud.

Pour faire encore mieux, l’équipe de Deepmind a ajouté deux ingrédients qui ont prouvé leur efficacité dans d’autres domaines : les réseaux de neurones profonds (ou deep learning) et l’apprentissage renforcé. La première technique remonte aux prémices de l’intelligence artificielle. Il s’agit d'une fonction mathématique aux paramètres ajustables de telle manière à fournir la meilleure réponse possible. Une fonction qui est en fait la combinaison de milliers de variables reliées entre elles comme un réseau de neurones biologiques. Grâce notamment au français Yann LeCun, une percée a été effectuée dans les années 1990 afin de calculer rapidement et efficacement les meilleures «connections».

Dans les années 2000 ces techniques ont considérablement amélioré la reconnaissance vocale, permettant la réalisation des assistants vocaux des mobiles Siri, Cortana ou GoogleNow. Le deep learning fait aussi merveille dans la reconnaissance d’images, surpassant là aussi les méthodes antérieures. Son succès repose notamment sur des quantités énormes d’informations (images, textes, sons…) nécessaires pour « stimuler » et construire le réseau de neurones. AlphaGo s’est ainsi nourri de 30 millions de mouvements de joueurs pros.

Une seconde technique, spécialité de Deepmind, est l’apprentissage renforcé: en faisant joueur l’algorithme contre lui-même, les chercheurs améliorent leur réseau neuronal. C’est avec ces techniques que l’entreprise avait déjà fait parler d’elle en février 2015, en réalisant une machine capable de jouer à 49 jeux vidéos sans en connaître les règles et même parfois à gagner.

Lire aussi: Un programme autodidacte apprend à jouer aux jeux vidéos

Match spectaculaire

« Ces trois méthodes ne sont pas nouvelles, mais la combinaison des trois pour le Go l’est », constate Yann LeCun, à la tête du laboratoire d’Intelligence artificielle de Facebook. Un de ses collègues, Yuandong Tian, a d’ailleurs lui-même proposé récemment un programme appelé Darkforest qui utilise le deep learning et serait, selon des résultats à paraître, au niveau de Crazystone ou Zen. « Le nouveau DarkForest qui incorpore l’apprentissage par renforcement sera prêt dans quelques mois », indique encore Yann LeCun.

Les deux entreprises vedettes de la Silicon Valley se concurrencent donc aussi sur les plateaux de Go. Avec quelques différences. Le logiciel de Facebook est déjà en ligne sur les plateformes de jeu de Go et chacun peut l’évaluer. Google a opté pour le secret et la publication d’un article de recherche avec comité de lecture. Et pour le spectaculaire, avec l’annonce du match de mars à Séoul, équivalent du fameux affrontement IBM contre Kasparov.

Lire aussi:  Mon esprit téléchargé dans une machine

L’issue de ce match Humain contre machine est loin d’être certaine. « J’aurais le privilège d’affronter pour la première fois un ordinateur. J’ai entendu dire qu’AlphaGo est étonnamment fort et s’améliorera encore, mais je suis confiant que je pourrai gagner, au moins cette fois-ci », a déclaré par l’entremise de la revue Nature Lee Sedol. Ce dernier est bien mieux classé que Hui Fan. « Il y a un fossé important entre AlphaGo est les autres programmes. Celui-ci n’est pas très loin des meilleurs joueurs du monde mais il n’est pas encore au niveau de Sedol même s’il s’en est rapproché sacrément. Battre Sedol en mars, c’est ambitieux. Mais vu les avancées effectuées en un an, ils peuvent encore progresser », estime Tristan Cazenave.

Modélisation climatique

Ces progrès en intelligence artificielle permettent aux géants du numérique de mieux traiter les masses de données qu’elles génèrent mais aussi de les analyser pour proposer de meilleurs services comme la recommandation par exemple. Lors de la conférence de presse organisée par Nature le 26 janvier, Demis Hassabis, fondateur de Deepmind, était peu disert sur les perspectives futures, évoquant « la modélisation climatique, le diagnostic médical, ou d’autres jeux comme le poker ». 

Quant aux questions éthiques soulevées par ces progrès des machines supplantant l’Homme, Demis Hassabis a répondu, « Nos systèmes apprennent par eux-mêmes de l’expérience, mais c’est nous qui décidons de ce sur quoi ils apprennent. On parle d’un jeu. Complexe, certes, mais plus accessible aux ordinateurs que des problèmes généraux du monde réel. Ces technologies doivent bénéficier à tous. En outre, nous nous sommes mis d’accord avec Google pour qu’elles ne soient pas utilisées à des fins militaires ».

D’ici mars, son équipe pourra méditer l’adage coréen rappelé par une journaliste lors du point presse, « Au Go, si tu veux seulement gagner, tu ne peux pas gagner ».

Lire aussi:  Le jour où les robots penseront