Après 50 000 heures, cette IA peut jouer à Pokémon Rouge

Après 50 000 heures, cette IA peut jouer à Pokémon Rouge

Il y a près de 10 ans, le phénomène en ligne « Twitch Plays Pokémon » a rassemblé plus d’un million de personnes pour jouer à Pokémon Rouge en même temps, les frappes de chaque joueur étant enregistrées comme des commandes pour l’avatar pixelisé. Aujourd’hui, à l’instar d’un Magikarp qui se transforme en Gyarados, l’évolution de la technologie soulève une nouvelle question : l’IA peut-elle jouer à Pokémon ?

Depuis quelques années, Peter Whidden, ingénieur logiciel basé à Seattle, entraîne un algorithme d’apprentissage par renforcement à naviguer dans le premier jeu classique de la série Pokémon – au cours de cette période, l’IA a joué plus de 50 000 heures de jeu. M. Whidden a publié sur YouTube une vidéo de 33 minutes racontant l’histoire du développement de l’IA. Après neuf jours, la vidéo a été visionnée 2,2 millions de fois.

« Ce qui est très amusant, c’est de voir le nombre de personnes qui s’intéressent à cette vidéo », a déclaré M. Whidden à TechCrunch. Il a téléchargé le code qu’il a utilisé sur GitHub, ainsi que des instructions sur la façon de faire fonctionner et d’entraîner l’IA. « Il y a une tonne de personnes qui semblent vraiment intéressées par ce processus de création ou de conception. Un fan a pu appliquer son code à Pokémon Crystal, un autre jeu rétro de la Game Boy.

Le modèle de renforcement de l’IA est pavlovien. L’IA est incitée par des points à augmenter le niveau des Pokémon, à explorer de nouvelles zones, à gagner des batailles et à battre les chefs de gymnase. Parfois, ces incitations ne correspondent pas parfaitement à la progression dans le jeu, mais les échecs de l’IA sont étrangement charmants, ce qui explique probablement pourquoi la vidéo de Whidden est devenue virale.

Dans l’une de ses tentatives, l’IA s’arrête simplement pour regarder l’eau à Pallet Town – le premier endroit que vous visitez dans le jeu – et ne bouge jamais. Elle reste bloquée dans une zone où l’eau, l’herbe et les PNJ sont animés et vont et viennent, ce qui fait que chaque image semble être une nouvelle expérience pour l’IA, même si elle reste immobile sans avoir encore obtenu son premier Pokémon. Mais cette IA n’est pas pressée de « tous les attraper ». Elle profite simplement de la beauté de la région de Kanto (ou peut-être prend-elle une position éthique contre le fait de forcer ces mignons petits animaux à se battre les uns contre les autres… qui peut le dire).

« Ainsi, selon notre propre objectif, il est plus gratifiant de se contenter d’admirer le paysage que d’explorer le reste du monde », explique Whidden dans la vidéo. « C’est un paradoxe que nous rencontrons dans la vie réelle : la curiosité nous mène à nos découvertes les plus importantes, mais en même temps, elle nous rend vulnérables aux distractions et nous attire des ennuis. »

L’IA continue d’une manière ou d’une autre à tirer sur nos cordes sensibles : Plus tard, elle fait l’expérience d’un événement traumatisant au Centre Pokémon. Le succès de l’IA est mesuré en partie par le niveau total de tous les Pokémon de votre groupe. Mais lorsqu’une IA se rend au Centre Pokémon et qu’elle casse suffisamment de boutons pour mettre un Pokémon en réserve, la somme de tous les niveaux diminue drastiquement, ce qui envoie un signal négatif à l’IA. Avec Pidgey et une créature non identifiée surnommée « AAAAAAAA » dans son groupe, la somme de tous les niveaux était de 25, mais une fois Pidgey déposé dans le PC, la somme n’est plus que de 12.

« Il n’a pas d’émotions comme un humain, mais un événement unique avec une valeur de récompense extrême peut quand même avoir un impact durable sur son comportement », explique Whidden. « Dans ce cas, perdre son Pokémon une seule fois suffit à former une association négative avec l’ensemble du Centre Pokémon, et l’IA l’évitera complètement dans tous les jeux à venir. »

Crédits image : Peter Whidden sur YouTube

Bien que l’IA soit capable de ressentir un traumatisme et d’admirer les jolis pixels de Pallet Town, elle n’est encore qu’un ordinateur. Cette IA n’est pas capable de lire et d’interpréter les dialogues dans le jeu, si bien que dans les premières itérations, le programme restait bloqué à un carrefour du jeu. Lorsque vous atteignez la deuxième ville de Pokémon Rouge, vous recevez un objet à rapporter au professeur de Pokémon à Pallet Town. Mais l’IA avait du mal à revenir en arrière pour livrer le colis, ce qui rendait la progression impossible. Whidden a donc décidé que chaque partie commencerait après la livraison du colis, avec Squirtle comme Pokémon de départ de l’IA, car le début du jeu est généralement plus facile avec un Pokémon aquatique à votre service.

« Dans la vidéo, le plus loin que (l’IA) atteint est le Mont Moon, entre le premier et le deuxième gymnase « , a déclaré Whidden à TechCrunch. Dans les premiers jeux Pokémon, les grottes sont notoirement frustrantes à parcourir, même si l’on dispose d’un véritable cerveau humain. Mais Whidden a récemment modifié certaines récompenses dans son code et essayé un algorithme d’apprentissage différent, et finalement, l’IA a réussi à sortir de la grotte et à arriver à Cerulean City.

D’autres chercheurs ont utilisé l’apprentissage par renforcement pour étudier l’utilisation de l’IA dans les jeux, comme avec AlphaGo de DeepMind, qui a été le premier programme informatique à vaincre un joueur de Go professionnel. Mais si la vidéo de M. Whidden a suscité autant d’intérêt, c’est parce qu’il est capable d’expliquer des concepts peu familiers à l’aide d’un support qui lui est familier : Pokémon.

IA