intelligence artificielle

Les IA de Google brillent sur le jeu Quake III

Trente agents d'intelligence artificielle ont effectué 450000 parties d'entraînement sur Quake III Arena. Le processus a vu émerger des stratégies de jeu ultra efficaces qui ont écrasé les humains

Dota 2, Starcraft 2... Jeu vidéo après jeu vidéo, les programmes (ou agents) d'intelligence artificielle (IA) battent leurs adversaires humains. Cette semaine, c'est au tour de Google, via sa société DeepMind, de démontrer les progrès accomplis en la matière et de les relater dans un article de la revue Science du 30 mai.

En janvier dernier, leur agent baptisé AlphaStar avait écrasé, quoique selon des règles particulières, des joueurs professionnels de Starcraft 2.

La version de Quake 3 utilisée par DeepMind a été soigneusement censurée

Lire aussi: L’IA de Google triomphe à «StarCraft II»… selon ses propres règles

Cette fois, DeepMind a délaissé la stratégie en temps réel de Starcraft 2 pour s'attaquer à un autre classique vidéoludique: Quake III Arena. Les agents de Google ont démontré leur maîtrise «de compétences typiquement humaines» sur ce jeu de type FPS - l'acronyme anglais pour «jeu de tir en vue subjective» joué dans un mode particulier, bien connu des gamers, la capture du drapeau (CTF).

Echange de politesses

Le principe, deux équipes de joueurs doivent capturer un drapeau dans la base adverse et le ramener dans leur propre base, le tout en échangeant des politesses à l'aide d'armes lourdes. A noter que la version du jeu utilisée par DeepMind a été soigneusement censurée: tout comme les armes, les décors gothiques et inquiétants de Quake ont disparu. Les bots ne s'entretuent pas, ils se «tag», façon balle au prisonnier. A l'heure où les machines suscitent des interrogations quant à leur innocuité, les entraîner à manier un rail gun ou le fameux BFG, arme culte de Quake, serait malvenu…Si le porteur du drapeau tombe sous les tirs adverses, il lâche la bannière qui reste sur place pendant quelques secondes et finit par réapparaître dans sa base si personne ne s'en empare. Au bout de cinq minutes, l'équipe qui a capturé le plus de drapeaux remporte le match (voir la vidéo d'illustration ci-dessous).

Comme dans une partie de Starcraft 2, jouer à Quake III Arena constitue un défi pour les machines, qui n'ont qu'un accès incomplet aux informations du jeu. Elles évoluent sans connaître la position des ennemis, doivent interpréter où se trouve le drapeau, savoir quand attaquer ou défendre, etc.

DeepMind précise à ce sujet que ses agents ne sont pas des bots omniscients. Ils «voient» les pixels dans leur champ de vision, comme n'importe quel joueur humain installé devant un écran. Les cartes sur lesquelles ont lieu les matches sont uniques et générées aléatoirement pour empêcher les agents de reproduire en boucles certaines stratégies. 

Population d'agents

Les règles posées, ne reste plus qu'à entraîner les IA. Les ingénieurs de DeepMind ont pour cela opté, comme ce fut le cas avec AlphaStar, pour l'apprentissage par renforcement, un type d'apprentissage automatique en vogue à l'heure actuelle dans les recherches en IA.

Il consiste à faire jouer un grand nombre de parties (450 000 dans le cas présent) à un agent contre une copie de lui-même, sans connaissance préalable des règles du jeu. Après chaque partie, l'agent analyse et mémorise les décisions qui l'ont conduit à la victoire ou à la défaite et ce faisant, s'améliore.

Au rayon des nouveautés, DeepMind a fait entrer dans l'arène non pas un, mais 30 agents différents, un «apprentissage de population» censé accélérer le processus et faire émerger une large diversité de stratégies et de styles de jeu.

«Nos agents perçoivent leur environnement à partir d'une vue subjective, exactement comme un humain le ferait. Pour jouer intelligemment et collaborer avec leurs coéquipiers, ils doivent tirer des enseignements à l'issue de chaque partie, sans intervention d'un coach humain», détaille Thore Graepel, ingénieur chez DeepMind et l'un des signataires de l'article de Science

Camper, stratégie éprouvée

Aux dires de DeepMind, les IA ont in fine développé des facultés typiquement humaines. Après avoir intégré les règles de base (aller voler le drapeau), elles ont parfait leurs stratégies, par exemple en apprenant à «camper» dans la base adverse, en restant groupés quand la situation l'exigeait, ou en empruntant des passages détournés pour surprendre leurs adversaires.

Les agents, pourtant calibrés sur des temps de réaction comparables avec des humains (267 millisecondes), ont mis une raclée à des joueurs de chair et d'os «expérimentés» dans environ 75% des cas, écrivent les auteurs. Et même lorsque hommes et machines étaient mélangés au sein des deux équipes, les scores individuels étaient significativement supérieurs chez les agents (en moyenne 16 captures de drapeau de plus que les humains par partie). Interrogés sur leur ressenti, les humains ont même déclaré que leurs coéquipiers de silicium étaient bien meilleurs que leurs comparses organiques!

Cette approche algorithmique faisant intervenir toute une population d'agents, et non un seul, autorise une accélération de l'entraînement, analyse Max Jaderberg, autre signataire de l'étude. Et celui-ci de conclure: «Nous utilisons désormais cette méthode d'entraînement sur AlphaStar, et j'ai hâte de voir les résultats». Les pros de Starcraft 2 ne sont pas près de prendre leur revanche...

Publicité