In beeld

AI worstelt met Pokémon Red: maar blijft dat lang zo?

Kunstmatige intelligentie is nu op veel gebieden van het moderne leven te vinden: of het nu gaat om het ontwerpen van afbeeldingen en teksten, autonoom rijdende auto’s, robots in fabrieken of in alledaagse apparaten zoals smartphones en thuiscomputers – AI wordt gezien als een veelbelovende technologie van de toekomst. Geen wonder dat mensen ook steeds creatiever worden in hun gebruik van AI.


Leestijd: 5 minuten

Software-ingenieur en YouTuber Peter Whidden vroeg zich af of AI ook in staat is om met succes het GameBoy-spel Pokémon Red te spelen, dat in 1996 werd uitgebracht als het eerste spel in de Pokémon-serie. Hoewel AI op veel gebieden al indrukwekkende vooruitgang had geboekt, bleek de AI een aantal grote problemen te hebben bij het spelen van Pokémon Red. Maar met zelflerende technologie was succes slechts een kwestie van tijd, toch?

De fascinatie van Pokémon: een uitdaging voor kunstmatige intelligentie

Pokémon is natuurlijk ideaal voor deze onderneming, want het is een iconische gameklassieker die wereldwijd enorm populair is. Veel fans van videogames hebben het spel honderden uren gespeeld. Pokémon Red heeft sinds de release een enorme schare fans opgebouwd en de hype rond Pokémon duurt nog steeds voort. 

Spelportalen werpen ook voortdurend een nieuwe blik op de spellen en analyseren de Pokémon-wereld. Zo onthulde een analyse van 1337.games onlangs welke Pokémon het populairst zijn in de Kalos-regio in termen van Google-zoekopdrachten. Dergelijke kennis zou AI-toepassingen ook kunnen helpen om de juiste beslissingen te nemen in het spel.

De faam en cultstatus van het spel maken het tot de perfecte proefbank voor het verkennen van de mogelijkheden en grenzen van kunstmatige intelligentie. De uitdaging om de complexe mechanica en strategische elementen van Pokémon Red onder de knie te krijgen, biedt een unieke kans om de kracht en flexibiliteit van AI te demonstreren. Whidden heeft het spel een nieuw niveau van intrige gegeven door een AI te trainen om Pokémon Red te spelen.

De AI trainen: een kijkje achter de schermen van Pokémon AI

Whidden baseerde zijn experiment op reinforcement learning, een methode van machinaal leren waarbij de AI door middel van beloningen en straffen leert om bepaalde taken onder de knie te krijgen. In dit geval trainde Whidden de AI door de technologie te belonen voor succesvolle acties en de bonussen in te trekken voor ongewenste acties. Dit beloningssysteem motiveerde AI om doelgericht te handelen en het gedrag van een menselijke speler na te bootsen.

De AI werd verondersteld de besturing onafhankelijk te gebruiken en na elke actie te controleren wat er op het scherm gebeurde om de volgende actie te plannen. Dit is vergelijkbaar met het gedrag van een speler die voor een Gameboy zit en Pokémon Red speelt. Om dit leerproces te versnellen, liet Whidden 40 parallelle testsessies lopen, waardoor de AI meer ervaring opdeed in minder tijd en sneller vooruitgang boekte.

Aanvankelijk had de AI geen kennis van het spel en kon hij alleen op willekeurige knoppen drukken. Maar door continu te leren en de prikkels van het beloningssysteem leerde de AI Pokémon te vangen, te evolueren en zelfs arenaleiders te verslaan. De truc met het beloningssysteem was cruciaal: telkens wanneer de AI iets nieuws ontdekte in het spel, ontving hij beloningspunten. Deze ontdekkingen werden gemeten aan de hand van het aantal verschillende pixels op het scherm.

Problemen en uitdagingen van de AI in Pokémon Red

Deze methode had echter ook zijn valkuilen. Soms raakte de AI gefascineerd door bepaalde animaties, zoals die van water, en stopte daardoor in plaats van het eigenlijke spel doel na te streven. Om dit tegen te gaan, introduceerde Whidden extra beloningspunten voor specifieke acties, zoals het vangen van Pokémon, het winnen van Trainer Battles en het winnen van Arena Battles. Deze specifieke doelen hielpen de AI om zich meer te richten op het succesvol voltooien van het spel.

Een andere grote hindernis was de interactie met het Pokémon Centre en Sister Joy. Bij het eerste bezoek aan het Pokémon Centre sloeg de AI een aantal Pokémon op in de PC, waardoor het algemene niveau van het team daalde. Deze negatieve ervaring leidde ertoe dat de AI het Pokémon Centre in de toekomst ging vermijden, waardoor het team niet kon worden genezen. Whidden moest daarom het beloningssysteem aanpassen om de AI aan te moedigen het Pokémon Centre te blijven bezoeken en het team te genezen.

Problemen met de navigatie

Daarnaast stortte de AI zich aanvankelijk op elk gevecht, ongeacht de kans op succes. Om dit tegen te gaan, introduceerde Whidden een straf voor verloren gevechten. Deze aanpassing bracht echter nieuwe problemen met zich mee: na een nederlaag weigerde de AI op de A-knop te drukken om het gevecht scherm te verlaten. Dit leidde tot eindeloos getreuzel in de vechtmodus en vereiste verdere aanpassingen aan het beloningssysteem.

De AI had ook problemen met navigeren. Hoewel hij erin slaagde de Moon Mountain binnen te gaan, voelde hij zich er onveilig en verliet hij de locatie weer. Zelfs na 50.000 speeluren kon de AI Azuria City en de tweede arena niet vinden, waaruit blijkt dat het vinden van de weg een grote uitdaging was.

Een bijzonder bizar voorval tijdens de leerfase van de AI was zijn voorliefde voor de Pokémon Karpador. Een louche handelaar verkocht Karpador voor 500 Poké Dollars en de AI kocht meer dan 10.000 van deze Pokémon. Geen wonder, want de AI was geprogrammeerd om nieuwe Pokémon te kopen. Dit leek dan ook de meest efficiënte manier om beloningspunten te verzamelen.

Conclusie: AI-potentieel zonder grenzen?

Het experiment van YouTuber en software-ingenieur Peter Whidden toont op indrukwekkende wijze aan dat kunstmatige intelligentie in het spel Pokémon Red weliswaar nog voor enkele uitdagingen staat, maar ook een enorm potentieel heeft om bijna elke taak aan te kunnen. Het grootste voordeel van AI ligt in het vermogen om zelfstandig te leren en zich voortdurend te verbeteren.

Door middel van ‘reinforcement learning’ werd het algoritme geleidelijk geïntroduceerd in het spel, waardoor het uiteindelijk Pokémon kon vangen en arenaleiders kon verslaan – taken die in het begin onoverkomelijk leken. Hoewel AI indrukwekkende vooruitgang heeft geboekt, zijn er nog steeds gebieden waar de technologie enorm worstelt. Een bijzonder prominent voorbeeld is het onvermogen om dialogen te evalueren en er logische conclusies uit te trekken.

Ondanks deze uitdagingen is het waarschijnlijk slechts een kwestie van tijd en training voordat AI ook deze hindernissen kan overwinnen. Zoals experimenten met andere spellen zoals schaken en Go al hebben laten zien, heeft reinforcement learning de potentie om algoritmes te ontwikkelen die extreem complexe taken aankunnen en bij elke taak en elke fout leren.