numérique

L’intelligence artificielle vient à bout des «captchas»

Des chercheurs ont utilisé un nouveau type d’intelligence artificielle inspiré du cortex visuel humain pour déchiffrer des «captchas», ces images de lettres déformées utilisées sur Internet pour distinguer les robots des êtres humains

Les captchas? Ce sont ces fameuses images que vous avez forcément croisées en vous baladant sur le Web, composées de caractères déformés et utilisées sur de nombreux sites internet pour distinguer un robot spammeur d’un utilisateur humain normal.

L’idée était que les informaticiens n’arrivaient pas à créer des algorithmes reconnaissant facilement des lettres déformées, alors que l’humain, en général, n’est pas très dérangé par une légère déformation des caractères. Google a par ailleurs reconnu en 2008 que l’utilisateur, en répondant à un captcha, travaille en fait pour son projet de numérisation de livres Google Books, dont l’algorithme ne parvient parfois pas à reconnaître correctement les pages scannées.

Mais les captchas sont désormais mis au défi par l’intelligence artificielle (IA). Des chercheurs travaillant pour la start-up américaine Vicarious ont publié le 26 octobre un article dans la revue Science expliquant avoir mis au point un algorithme capable de reconnaître de manière assez efficace les caractères figurant sur les captchas, ce qui pourrait les rendre inutiles. Ce programme, dont le fonctionnement s’inspire de celui du système visuel humain, représente une alternative à la technique la plus en vogue en IA, le deep-learning.

Photos de chiens sur fond bleu

Le deep-learning consiste à analyser un très grand nombre d’images pour les répartir ensuite en plusieurs groupes qui ont des points communs. Par exemple, on lui donne des photos d’animaux à analyser et l’algorithme va séparer les photos de chats, de chiens et de chevaux. Mais on ne sait pas, à l’avance, quel critère permettra à l’algorithme de les séparer les unes des autres. Et si, par exemple, vous ne donnez à ce genre d’algorithme que des photos de chiens sur fond bleu, il risque de considérer que le fond bleu est une caractéristique de la photo de chiens.

C’est donc en analysant des millions de photos aléatoires de chiens, avec des environnements différents, que l’algorithme va apprendre à reconnaître qu’elles font parties d’un même groupe. Ces techniques sont dominées par ceux qui sont capables d’obtenir énormément de photos différentes et qui ont des capacités de traitement de données exceptionnelles, les GAFAM (Google, Apple, Facebook, Amazon et Microsoft).

Les chercheurs de Vicarious ont dû procéder autrement. Car, même s’ils ont des actionnaires comme Mark Zuckerberg, le créateur de Facebook, ils n’ont pas accès aux puissances de calcul et de stockage des GAFAM. Ils ont opté pour une méthode probabiliste. Contrairement au deep-learning, ils n’ont eu besoin de donner à leur algorithme que quelques centaines d’exemples de captchas. Après cet entraînement, il compare la lettre à analyser à celles qu’il a déjà rencontrées et ressort le caractère dont la forme se rapproche le plus, en s’appuyant sur des calculs de probabilités.

Couches d’information

Yann Chevaleyre, chercheur en apprentissage automatique à l’Université Paris 13, explique au Temps que les auteurs ont utilisé une méthode plus ancienne que le deep-learning: au lieu d’analyser toute l’image de façon monolithique «c’est un peu le contraire, on utilise une couche pour repérer les contours, une couche pour repérer les surfaces et on fabrique l’algorithme un peu «à la main».»

Les auteurs expliquent, eux, qu’ils se sont inspirés du cortex visuel humain qui ne travaille pas de manière monolithique. Ce cortex est, en effet, composé de plusieurs aires qui vont traiter la forme, la couleur et le mouvement de façon distincte pour ensuite en déduire une image unifiée. Ils ont donc décidé de séparer, dans leur système, l’analyse du contour des objets et l’analyse des textures pour ensuite créer cette image unifiée.

Dileep George, un des auteurs de l’étude, donne au site The Register, l’exemple d’un contour de banane rempli de fraises et explique que le deep-learning serait bien embêté pour analyser cette image complexe. Il espère que leur système arrivera à mener ce type d’analyse et à se rapprocher de celle du cortex visuel humain.

Ere de l’efficacité

Yann Chevaleyre est pourtant sceptique et pense que «cette technique ne peut marcher sur les captchas seulement parce que ce sont des images générées par des algorithmes, donc il n’y a pas de variabilité infinie, contrairement aux images de chats».

Pour Michèle Sebag, responsable du Laboratoire de recherche en informatique du Centre national français de la recherche scientifique, «le scoop de cette recherche est qu’ils arrivent à analyser ces images de captchas avec très peu d’exemples. Nous sommes, dans l’IA, au même moment qu’au temps des premières machines à vapeur. Celles-ci étaient extrêmement peu efficaces notamment parce qu’elles étaient placées à l’endroit où il y avait les mines de charbon. La sobriété n’avait, à ce moment-là, que peu d’intérêt. De la même manière, les GAFAM étant assis sur des piles de processeurs, ils n’ont pas d’intérêt à être sobre en temps de calcul. Les start-up et les petits laboratoires de recherche sont en train de chercher comment faire la même chose avec moins d’exemples et moins de puissance.»

Depuis deux décennies, le deep-learning écrase toutes les autres méthodes d’IA, mais peut-être entrons-nous dans le temps de l’efficacité?


A lire aussi:

Publicité