KI-Intelligenztest belegt: 50% aller KI-Systeme schummeln

| Redakteur: Johann Wiesböck

Die Heatmap zeigt ganz deutlich: Der Algorithmus trifft die Entscheidung Zug oder nicht Zug anhand der Schienen-Bildpunkte und nicht anhand derer, die den Zug ausmachen. (Bild: Nature Communications/CC BY)
Die Heatmap zeigt ganz deutlich: Der Algorithmus trifft die Entscheidung Zug oder nicht Zug anhand der Schienen-Bildpunkte und nicht anhand derer, die den Zug ausmachen. (Bild: Nature Communications/CC BY) (Bild: / Nature Communications / BY 4.0)

In der medizinischen Diagnostik und in sicherheitskritischen Systemen dürfen keine KI-Algorithmen mit unsicheren Methodiken zum Einsatz kommen. Wissenschaftler der TU Berlin haben nun sichtbar gemacht, aufgrund welcher Kriterien KI-Systeme Entscheidungen treffen. Das Ergebnis: Die Hälfte aller getesteten Modelle könnte schummeln.

Algorithmen der Künstlichen Intelligenz (KI) und des Maschinellen Lernens wie beispielsweise Deep Learning erobern immer mehr Bereiche unseres Lebens: Sie ermöglichen digitale Sprachassistenten oder Übersetzungsdienste, verbessern die medizinische Diagnostik und sind unverzichtbarer Bestandteil von Zukunftstechnologien wie dem autonomen Fahren.

Gestützt durch eine stetig wachsende Anzahl verfügbarer Daten und leistungsfähiger Rechnerarchitekturen, scheinen Lernalgorithmen der menschlichen Leistungsfähigkeit gleichgestellt oder sogar überlegen. Das Problem: Bislang bleibt es den Wissenschaftlern meistens verborgen, wie die KI-Systeme zu ihren Entscheidungen kommen. Damit bleibt oft auch unklar, ob es sich wirklich um intelligente Entscheidungen oder statistisch erfolgreiche Verfahren handelt.

Forscher der Technischen Universität Berlin (TU Berlin), des Fraunhofer Heinrich-Hertz-Instituts (HHI) und der Singapore University of Technology and Design sind dieser Frage nachgegangen und haben in einer bei Nature Communications veröffentlichten Arbeit das ganze „Intelligenz“-Spektrum bestehender KI-Systeme mit einer speziellen, automatisierten Technologie analysiert und quantifiziert.

Wichtigste Voraussetzung für die neue Technologie ist eine von der TU Berlin und dem HHI entwickelte Technik, die sogenannte „Layer-wise Relevance Propagation“ (LRP), die sichtbar macht, aufgrund welcher Kriterien KI-Systeme Entscheidungen treffen. Die Weiterentwicklung der LRP-Technologie, die „Spectral Relevance Analysis“ (SpRAy), identifiziert und quantifiziert ein breites Spektrum erlernter Entscheidungsverhalten. So wird es möglich, auch in sehr großen Datensätzen unerwünschte Entscheidungen zu erkennen.

Erklärbare Künstliche Intelligenz vs. KI-Schummelei

„Diese sogenannte ‚explainable AI‘ (erklärbare Künstliche Intelligenz) ist einer der wichtigsten Schritte für die praktische Anwendung und Verbreitung von KI“, so Dr. Klaus-Robert Müller, Professor für Maschinelles Lernen an der TU Berlin: „Insbesondere in der medizinischen Diagnostik oder in sicherheitskritischen Systemen dürfen wir keine KI-Algorithmen mit unsicheren Problemlösungsstrategien oder sonstige KI-Schummel-Kandidaten einführen.“

Mit dem jetzt entwickelten Verfahren wurden nicht nur bestehende KI-Systeme auf die Probe gestellt, sondern diese Systeme auch quantifiziert: Vom naiven Problemlösungsverhalten, über Schummel-Strategien bis hin zu hochelaborierten „intelligenten“ strategischen Lösungsansätzen.

Dr. Wojciech Samek, Gruppenleiter am Fraunhofer HHI: „Wir waren sehr erstaunt über die große Bandbreite der gelernten Problemlösungsstrategien. Selbst moderne KI-Systeme haben nicht immer einen aus menschlicher Perspektive sinnvollen Lösungsweg gefunden, sondern nutzten bisweilen sogenannte ‚Clever-Hans-Strategien‘.“

Der Kluge Hans (Clever Hans) war ein Pferd, das angeblich rechnen und zählen konnte und in den Jahren um 1900 als wissenschaftliche Sensation galt. Wie sich später herausstellte, beherrschte Hans nicht die Mathematik, sondern konnte in etwa 90 Prozent der Fälle die richtige Antwort aus der Reaktion des Fragestellers ableiten.

Aus menschlicher Sicht naive Lösungsstrategie

Ähnliche „Clever Hans“-Lösungsstrategien konnten Klaus-Robert Müller und Wojciech Samek mit ihren Kolleg*innen auch bei verschiedenen KI-Systemen finden. So verfolgte ein KI-System, das vor einigen Jahren mehrere internationale Wettbewerbe zur Klassifikation von Bildern gewonnen hat, eine aus menschlicher Sicht naive Lösungsstrategie: Es klassifizierte Bilder vorwiegend anhand des Kontextes. Dabei wurden Bilder der Kategorie „Schiff“ zugeordnet, wenn viel Wasser im Bild zu sehen war.

Andere Bilder wurden als „Zug“ klassifiziert, wenn Schienen vorhanden waren. Wieder andere Bilder wurden anhand des Copyright-Schriftzuges der richtigen Kategorie zugeordnet. Die eigentliche Aufgabe, nämlich Schiffe oder Züge zu erkennen, hat dieses KI-System nicht gelöst – auch wenn es die Mehrzahl der Bilder im Endeffekt korrekt klassifiziert hat.

Diese Art von fehlerhaften Lösungsstrategien fanden sich auch bei einigen der neuesten KI-Algorithmen, den sogenannten tiefen neuronalen Netzwerken. Diese stützen ihre Klassifikationsentscheidung zum Teil auf Artefakte, die während der Präparation der Bilder entstanden und mit dem eigentlichen Bildinhalt gar nichts zu tun haben.

Es ist Zeit, sichere KI-Systeme zu entwickeln

„Solche KI-Systeme sind für den praktischen Einsatz völlig unbrauchbar. Ihr Einsatz in der medizinischen Diagnostik oder in sicherheitskritischen Bereichen birgt sogar enorme Gefahren“, weiß Klaus-Robert Müller: „Es ist durchaus denkbar, dass ungefähr die Hälfte der aktuell eingesetzten KI-Systeme implizit oder explizit solche ‚Clever Hans‘-Strategien nutzen. Es ist Zeit, das systematisch zu überprüfen, damit sichere KI-Systeme entwickelt werden können.“

Doch mit der neuen Technik wurden auch KI-Systeme identifiziert, die unerwartet „intelligente“ Strategien gelernt haben. Als Beispiele dienen unter anderem die Systeme, die gelernt haben, die Atari-Spiele „Breakout“ und „Pinball“ zu spielen. „Hier haben die KI-Systeme ganz klar das Konzept des Spiels ‚verstanden‘ und einen intelligenten Weg gefunden, zielgerichtet und risikoarm sehr viele Punkte zu sammeln. Dabei schlägt das System bisweilen Wege ein, die ein echter Spieler nicht nutzen würde“, so Wojciech Samek.

„Unsere automatisierte Technik ist Open Source und steht allen Wissenschaftlern und Wissenschaftlerinnen zur Verfügung. Wir sehen unsere Arbeit als einen wichtigen ersten Schritt, KI-Systeme in Zukunft robuster, erklärbar und sicher zu machen. Denn das ist die wesentliche Voraussetzung für den Einsatz von KI überhaupt“, so Klaus-Robert Müller.

Das Vorurteil der Maschine – die wahre Gefahr ist nicht nachvollziehbare KI

Das Vorurteil der Maschine – die wahre Gefahr ist nicht nachvollziehbare KI

03.02.19 - Gängige Bedrohungsszenarien zur Künstlichen Intelligenz warnen vor ihren vermeintlich überlegenen Fähigkeiten. Die wahre Gefahr liege aber eher in ihrer Überschätzung und im blinden Vertrauen in die ihre nur scheinbare Objektivität, meinen Chemnitzer Professoren. Sie plädieren: KI muss nachvollziehbar sein! lesen

MLPerf: Neue Benchmark misst KI-Performance

MLPerf: Neue Benchmark misst KI-Performance

04.05.18 - Google, Baidu sowie Forscher der Universitäten Harvard und Stanford haben eine Benchmark zum Messen der Leistung von maschinellem Lernen definiert. Ein erster Release der MLPerf genannten Suite ist für August vorgesehen. lesen

Kommentar zu diesem Artikel abgeben
Nutzen nicht einige Firmen KI für autonome Fahrzeuge? Tesla? Uber? Ob die wohl verstehen, was in...  lesen
posted am 14.03.2019 um 08:28 von Unregistriert

Für mich ist das Ergebnis der Algorithmen das identisch mit dem Fall, dass man nicht ausreichend...  lesen
posted am 13.03.2019 um 16:11 von Unregistriert


Mitdiskutieren
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45798999 / KI/Machine Learning)