informatique

L’IA de Google triomphe à «StarCraft II»… selon ses propres règles

Le «bot» AlphaStar de Google a écrasé deux joueurs professionnels de «StarCraft II», après s’être entraîné durant l’équivalent de 200 ans de jeu. Une belle performance, mais qui ne convainc guère quant à l’intelligence supposée de la machine

Après avoir triomphé au jeu de go, les machines de DeepMind ont anéanti les humains sur les lointains champs de bataille planétaires du jeu vidéo StarCraft II. Propriété d’Alphabet, maison mère de Google, l’entreprise a publié la semaine dernière sur YouTube le compte rendu de deux matchs joués dans ses locaux londoniens en décembre. Ils opposaient deux professionnels à AlphaStar, un agent d’intelligence artificielle (IA) spécialement conçu pour ce jeu de stratégie en temps réel.

Les meilleures copies d’AlphaStar ont joué l’équivalent de 200 ans

Les résultats font mal à notre humanité: AlphaStar a remporté dix parties, les humains une seule. Premier à se jeter à l’eau, l’Allemand Dario «TLO» Wünsch, 44e sur le circuit mondial, a été balayé 5-0. Le Polonais Grzegorz «MaNa» Komincz, 13e, s’est incliné sur le même score. Il est toutefois parvenu à remporter une manche par la suite.

Contrairement à la fameuse partie de jeu de go en 2016, où l’IA de Google AlphaGo avait gagné avec une dizaine d’années d’avance sur les prédictions des experts, la victoire écrasante des machines à StarCraft II a beaucoup moins surpris. Qu’une IA, biberonnée avec des quantités de données et des puissances de calcul aussi colossales que celles de Google, triomphe d’êtres humains sur une tâche spécifique ne surprend plus personne en 2019.

Lire aussi: Les machines se mesurent aux pros de Starcraft 2

Un demi-million de parties

Le robot gamer a appris à jouer à StarCraft II par apprentissage automatique ou machine learning, branche de l’IA au cœur des progrès actuels en la matière. Dans une première phase dite d’apprentissage supervisé, DeepMind a fait visionner à AlphaStar environ un demi-million de parties entre humains, avant de lui demander de reproduire ce qu’il avait vu. Les concepteurs ont alors comparé ses choix avec la moyenne des choix des humains dans une même situation et ont corrigé son comportement en fonction.

Lire également:  Pour gagner à DotA 2, les IA vont devoir collaborer

AlphaStar maîtrisant les basiques, restait à l’améliorer. Plus question d’utiliser l’apprentissage supervisé: «Il faudrait étiqueter toutes les actions possibles dans toutes les situations. C’est tout simplement impossible, même pour des jeux bien plus simples que StarCraft», précise Florian Richoux, fin connaisseur de StarCraft II et chercheur en informatique au Laboratoire des sciences du numérique de l’Université de Nantes.

Les informaticiens de DeepMind ont donc éduqué leur bébé via une autre méthode, l’apprentissage par renforcement. Dans celle-ci, l’IA joue contre elle-même comme dans un tournoi. Les meilleures copies d’AlphaStar ont joué l’équivalent de 200 ans, condensés en quelques mois grâce à l’appui de puces spécialisées développées par Google, les Tensor Processing Units.

Dans cet entraînement, «le modèle doit faire une suite de choix qui vont avoir un impact sur son environnement, et c’est par l’observation de cet environnement que s’effectue l’évaluation», confirme Florian Richoux. C’est exactement ce qui se passe dans StarCraft II, où les premières décisions en tout début de partie (bâtiments construits, troupes recrutées…) ont souvent des conséquences cruciales sur le dénouement, pas avant. C’est comme si AlphaStar jouait ses parties puis méditait ensuite sur les arbres d’actions qui lui avaient permis de gagner ou l’avaient fait perdre. Et c’est ce qui lui a permis d’opter pour des stratégies efficaces, souvent gagnantes, qui ont fait la différence.

Incapable de s’adapter

Sa victoire ne doit pas occulter les règles particulières mises en place pour ces matchs. AlphaStar ne choisit et n’affronte qu’une seule race, les Protoss, sur les trois disponibles quand bien même «TLO» ne joue pas professionnellement cette race («MaNa» joue bien les Protoss). L'IA ne joue en outre que sur une seule carte, sur les dizaines disponibles.

Autre biais, c’est une instance différente d’AlphaStar qui joue chaque manche, empêchant les humains de contrer la «philosophie» de jeu de celui qui vient de les battre. Enfin, l’IA «part avec une stratégie bille en tête et la tiendra jusqu’au bout, sans pouvoir modifier ses choix (et donc s’adapter) à la situation», tempère Florian Richoux. La seule partie remportée par «MaNa» l’a été en utilisant une technique farfelue de harcèlement de la base arrière d’AlphaStar, qui, incapable de comprendre, s’est perdu dans d’inutiles allers et retours de son armée.

Autant d’exemples qui prouvent que malgré les progrès récents, les IA ne sont capables d’exceller que sur un type de tâche précis, sans véritable capacité d’adaptation, bref sans véritable intelligence… Du moins pour l’instant.


Correction: MaNa joue bien Protoss professionnellement, contrairement à ce qui avait été initialement écrit

Publicité