Suchen

Künstliche Intelligenz: In drei Tagen zum unschlagbaren Go-Meister

| Autor / Redakteur: Stefan Parsch, dpa / Sebastian Gerstl

Die Go-Software AlphaGo erregte Aufsehen, als es menschliche Champions schlug. Ein neues Programm perfektioniert das Spiel in drei Tagen, nur durch Partien gegen sich selbst. Die Entwickler sprechen von Künstlicher Intelligenz mit „übermenschlicher Leistung“.

In Go existieren 10^170 mogliche Konfigurationen - mehr, als Atome im Universum existieren. Auch wenn Googles AlphaGo bereits eindrucksvolle Leistungen gegen Menschen demonstriert hat, stellt das Spiel weiterhin eine enorme Herausforderung für maschinelle Intelligenz im Allgemeinen dar.
In Go existieren 10^170 mogliche Konfigurationen - mehr, als Atome im Universum existieren. Auch wenn Googles AlphaGo bereits eindrucksvolle Leistungen gegen Menschen demonstriert hat, stellt das Spiel weiterhin eine enorme Herausforderung für maschinelle Intelligenz im Allgemeinen dar.
(Bild: DeepMind)

Die Entwickler sprechen von Künstlicher Intelligenz mit „übermenschlicher Leistung“: Ein selbstlernendes Computerprogramm perfektioniert das chinesische Brettspiel Go ohne menschliches Zutun binnen weniger Tage. AlphaGo Zero besiegte seinen Vorläufer Alpha Go, der bereits die besten menschlichen Go-Spieler geschlagen hatte, in 100 Spielen 100 Mal. Neue Lernalgorithmen sorgten dafür, dass AlphaGo Zero das Spiel in nur drei Tagen, in denen er gegen sich selbst spielte, zur Perfektion brachte. Die Software sei „nicht länger durch die Grenzen menschlichen Wissens beschränkt“, betonen David Silver und Demis Hassabis von der Google-Entwicklerfirma Deepmind, die den Supercomputer im Fachblatt „Nature“ vorstellen.

„AlphaGo Zero ist jetzt die stärkste Version unseres Programms und zeigt, welchen Fortschritt wir auch mit weniger Rechenleistung und ohne die Nutzung menschlicher Daten erreichen können“, wird Hassabis in einer Mitteilung seines Unternehmens zitiert. Das ältere Modell AlphaGo war noch monatelang mit Spielzügen menschlicher Go-Meister trainiert worden und hatte etwa 30 Millionen Spiele absolviert. AlphaGo Zero benötigte drei Tage und knapp 5 Millionen Spiele, um besser zu werden als sein Vorgänger.

Dabei verzichtete das Team um Silver und Hassabis darauf, der Software die Taktiken menschlicher Go-Spieler anzutrainieren. AlphaGo Zero erhielt lediglich das Regelwerk und musste pro Zug zwei Dinge berechnen: Welche nächsten Züge sind möglich, und wie groß ist die Wahrscheinlichkeit, mit diesen Zügen am Ende zu gewinnen?

Die Entwickler gaben dem System auch keine Lernstrategie vor, es werden lediglich erfolgreiche Wege „belohnt“ und andere Optionen „bestraft“. Bei den Spielen gegen sich selbst konnte AlphaGo Zero Spielzüge ausprobieren und sich verbessern. Dabei war die Lernkurve zwar nicht so steil wie beim Vorgänger, der noch von menschlichen Spielern gelernt hatte, dafür wuchs sie aber höher.

Zudem kommt das neue Programm mit kleinerer Rechenarchitektur aus: Der Vorläufer benötigt zwei neuronale Netze, AlphaGo Zero nur eins. Wo dem Vorläufer 48 sogenannte Tensorprozessoren (Tensor Processing Units; TPUs) zur Verfügung standen, genügen AlphaGo Zero vier Prozessoren.

Das Team beobachtete, dass AlphaGo Zero anders an Go herangeht als ein Mensch. Zwar tauchten die meisten klassischen Go-Spielzüge früher oder später in den Spielen der Software gegen sich selbst auf, aber in anderen Lernphasen als beim Menschen. So zeigte AlphaGo Zero die Strategie „Shicho“, die Menschen häufig als Neulinge spielen, erst nach längerem Training. Am Ende bevorzugte die Software Spielzüge, die Go-Meistern bisher unbekannt waren.

In einem „Nature“-Kommentar spricht Satinder Singh von der University of Michigan in Ann Arbor von „einem der größten Fortschritte in Bezug auf Anwendungen für das Gebiet des bestärkenden Lernens“. Dass der Computer menschliche Fähigkeiten in den Schatten stelle, sei aber kein Anlass zur Sorge: „Dies ist nicht der Anfang vom Ende, da AlphaGo Zero wie jede andere erfolgreiche Künstliche Intelligenz bis jetzt extrem begrenzt ist, was es weiß und was es im Vergleich zu Menschen und sogar Tieren tun kann.“

Auch deutsche Experten sind beeindruckt: „Wieder einmal ist den Kollegen bei Deepmind ein echter und großartiger Coup gelungen, denn sie konnten zeigen, dass ein intelligentes Go-Programm, das gegen sich selbst spielt, lernt, noch besser zu werden, als wenn es aus Spielen von Menschen lernt“, sagt Klaus-Robert Müller von der Technischen Universität Berlin. „Das klingt, als ob man Wissen aus dem Nichts schöpfen könnte, sozusagen ein Münchhausen-Trick der Künstlichen Intelligenz.“

Andere Forscher relativieren den Begriff „übermenschlich“: „Zwar spielt dieses System besser Go als jeder Mensch, aber diese Fähigkeit ist nur ein minimaler Aspekt aller menschlichen Fähigkeiten“, sagt Philipp Slussalek vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Saarbrücken. „Die menschlichen Fähigkeiten sind offensichtlich dramatisch viel breiter, allgemeiner und flexibler als es jeder Computer auf absehbare Zeit sein wird.“

Entwickler Hassabis betont den Nutzen der Neuerung: Die Software solle helfen „bei der Lösung aller möglichen Probleme der realen Welt, wie Proteinfaltung oder dem Entwurf neuer Materialien“. Dass die neuen Erkenntnisse über Go hinausreichen, glaubt auch Slussalek: „Mit entsprechenden Simulationen von anderen Umgebungen sollte man auch sinnvolles Verhalten und gute Strategien für andere, wichtigere Anwendungsbereiche erlernen können.“ Das gelte etwa für die Sicherheit autonomer Fahrzeuge.

(ID:44958704)