Konsolen-Klassiker Gedächtnis sei dank: Computer schlägt Mensch in Atari-Spielen

Autor / Redakteur: Stefan Parsch, dpa / Sebastian Gerstl

In Brettspielen wie Schach oder Go haben Menschen schon lange keine Chance mehr gegen Computer. An einigen Computerspiele sind Künstliche Intelligenz-System allerdings gescheitert - bisher. Go-Explore stellt in vielfacher Hinsicht sowohl andere KI-Systeme als auch menschliche Spieler in den Schatten.

Firmen zum Thema

Eine Spielkonsole vom Typi Atari 2600 samt einer Auswahl von Spielen. Ein KI-System namens Go Explore ist in der Lage, systematisch für das Atari 20600 geschreibene Videospiele zu erkunden und letztendlich besser zu absolvieren als jeder menschliche Spieler. Auch anderen KI-Systemen sei Go-Explorer den Forschern zufolge in mehrerlei Hinsicht deutlich überlegen.
Eine Spielkonsole vom Typi Atari 2600 samt einer Auswahl von Spielen. Ein KI-System namens Go Explore ist in der Lage, systematisch für das Atari 20600 geschreibene Videospiele zu erkunden und letztendlich besser zu absolvieren als jeder menschliche Spieler. Auch anderen KI-Systemen sei Go-Explorer den Forschern zufolge in mehrerlei Hinsicht deutlich überlegen.
(Bild: Pixabay)

Eine künstliche Intelligenz (KI) mit einer Art Umgebungsgedächtnis schneidet in Atari-Computerspielen besser ab als menschliche Spieler. Das System namens Go-Explore baut beim Erkunden von Umgebungen ein Archiv auf und greift immer wieder darauf zurück, wenn es neue Hindernisse zu überwinden gilt.

Es schlägt aber nicht nur menschliche Gegner in allen Spielen für den Atari 2600, sondern übertrifft auch bisherige KI-Systeme, berichten US-Forscher um Adrien Ecoffet von den Uber AI Labs in San Francisco in der Fachzeitschrift „Nature“. Deutsche Experten sehen in der Entwicklung einen wichtigen Schritt vorwärts.

KI erlernt durch wiederholtes Spielen die perfekte Route

In komplexen Spielen, wie Schach oder dem japanischen Brettspiel Go, haben KI-Systeme in den vergangenen Jahren jeden menschlichen Spieler geschlagen. Doch es gibt Computerspiele, wie „Pitfall“ für den Atari 2600, in denen die bisher angewendeten Algorithmen nicht zum Erfolg führen. „Bestehende Algorithmen zum Lernen durch Verstärkung scheinen Schwierigkeiten zu haben, wenn komplexe Umgebungen wenig Feedback bieten“, schreiben die Wissenschaftler in ihrer Studie. Beim Lernen durch Verstärkung (Reinforcement Learning) lernt ein System durch Versuch und Irrtum, welche Aktionen belohnt und welche etwa durch Punktabzug bestraft werden.

Während Go-Explore die Umgebung eines Spiels erkundet, werden einzelne Spielzustände in einer stark vereinfachten Weise in einem Archiv abgelegt. Nach jeder Erkundungsrunde wählt die KI im Archiv den Zustand (oder Weg) aus, der mit der höchsten Wahrscheinlichkeit einen Erfolg verspricht. Auf diese Weise nutzt die KI das „Erfahrungswissen“, auch wenn es noch nicht durch den angestrebten Erfolg (ein Level zu schaffen) verstärkt worden ist.

Durch diese Ergänzung der Reinforcement-Learning-Algorithmen konnte Go-Explore im Spiel „Pitfall“ Punkte sammeln - was den meisten KI-Systemen bisher nicht gelang. Dabei war Go-Explore etwas besser als der Durchschnitt menschlicher Spieler. Beim Spiel „Montezuma's Revenge“ gelang der von Ecoffet und Kollegen entwickelten KI sogar ein Weltrekord, nachdem sie von menschlichen Spielern gelernt hatte. In elf Spielen für den Atari 2600 schnitt Go-Explore besser ab als durchschnittliche menschliche Spieler und als KI-Systeme nach dem Stand der Technik.

Neue Erkenntnisse für die Robotik

Den Forschern zufolge kann ihr Ansatz auch in der Robotik hilfreich sein. Sie wendeten ihre Algorithmen bei einem Roboterarm an, der lernen sollte, einen Gegenstand nacheinander in vier Fächer zu legen, von denen zwei verschlossen waren. Im Gegensatz zu anderen KI-Systemen „vergaß“ Go-Explore nie, wenn es die Fächer bereits geöffnet hatte. So gelang es der KI, den Gegenstand schnell und zuverlässig in den vier Fächern zu platzieren. Als weitere mögliche Anwendungen von Go-Explore nennen die Wissenschaftler Sprachverständnis und die Entwickelung neuer Wirkstoffe.

Jan Peters vom Max Planck Institut für Intelligente Systeme in Stuttgart bezeichnet die Studie als Durchbruch. „Menschliche Experten in so vielen Problemen zu schlagen, ist ein eindrucksvoller Erfolg.“ Das Anwendungspotenzial in der Robotik hält er jedoch für begrenzt. Durchbrüche könnte der Ansatz in der Medizin, beim autonomen Fahren und bei anderen sicherheitskritischen Anwendungen hervorbringen.

Claus Horn von der Zürcher Hochschule für Angewandte Wissenschaften erklärte im Hinblick auf das Go-Explore-System: „Es wird uns ermöglichen, komplexere Probleme zu lösen, die eine längere Reihenfolge von Entscheidungen bis zur Lösung verlangen.“

(ID:47158321)