Industrielle Bildverarbeitung IBV: Der visuelle Cortex als Vorbild für das Deep Learning

Redakteur: Gerd Kucera

Nach dem Vorbild des visuellen Cortex im menschlichen Gehirn entstanden an der TU Graz neue Algorithmen und Modelle für schnellere und intelligentere Bildverarbeitungsprogramme.

Firmen zum Thema

Bild 1: Erkennen Sie das Objekt? Dieses Bild wird regelmäßig in den Vorlesungen von Thomas Pock verwendet, um die Leistungsfähigkeit des menschlichen Gehirns zu demonstrieren. Etwa 10% der Studierenden erkennen das Bild sofort, weitere 10% nach einer Weile.
Bild 1: Erkennen Sie das Objekt? Dieses Bild wird regelmäßig in den Vorlesungen von Thomas Pock verwendet, um die Leistungsfähigkeit des menschlichen Gehirns zu demonstrieren. Etwa 10% der Studierenden erkennen das Bild sofort, weitere 10% nach einer Weile.
(Bild: Thomas Pock/TU Graz)

Unser visueller Cortex kann in Sekundenbruchteilen Bilder erfassen und Objekte erkennen, selbst wenn diese kaum oder nur bruchstückhaft zu sehen sind. Mit ein Grund für diese fantastische Höchstleistung des menschlichen Gehirns ist die hocheffiziente und hierarchische Schichtenarchitektur des visuellen Cortex; dem Teil im Gehirn, der auch unsere Lern- und Denkabläufe und die Entscheidungsfindung steuert. In dieser Schichtenarchitektur werden die visuellen Informationen gefiltert, Zusammenhänge erkannt und ein Bild anhand vertrauter Muster vervollständigt. Der "Denk"-Prozess dahinter wird in seiner Komplexität nach wie vor in der Wissenschaft kaum verstanden. Dennoch versucht die Forschung bestmöglich eine Projektion in technische Anwendungen wie etwa der industriellen Bildverarbeitung. Zwar existieren mittlerweile Deep-Learning-Algorithmen, die bei gewissen Mustererkennungsaufgaben die menschliche Leistungsfähigkeit erreichen können und teilweise sogar übertreffen. Aber ein großer Nachteil dieser Algorithmen als mathematische Grundlage bleibt, dass nämlich nicht oder nur wage nachvollziehbar ist, was sie gelernt haben, wie sie tatsächlich funktionieren oder wann sie Fehler machen.

Die Arbeit des visuellen Cortex analysieren und nutzen

Diesem Verständnis war Univ.-Prof. Dipl.-Ing. Dr. techn. Thomas Pock vom Institut für Maschinelles Sehen und Darstellen der TU Graz im Rahmen seines ERC-Starting-Grant-Projekts HOMOVIS (High Level Prior Models for Computer Vision) auf der Spur. Er beschäftigte sich intensiv mit der Frage, wie sich bekannte Arbeitsweisen des menschlichen visuellen Cortex mithilfe mathematischer Modelle berechnen und auf Bildverarbeitungsanwendungen übertragen lassen. Fünf Forschungsjahre, 41 Publikationen und ein Patent später haben der Forscher und seine Arbeitsgruppe dazu umfassendes Wissen gesammelt, das neue Bildverarbeitungsalgorithmen für verschiedenste Anwendungen ermöglichen können.

Bildergalerie
Bildergalerie mit 5 Bildern

Anregungen kamen von Wertheimer und Euler

Pock orientierte sich in seiner Arbeit an den Gestaltgesetzen der Wahrnehmung von Max Wertheimer. Der Hauptbegründer der Gestaltpsychologie hat mit diesen Gesetzen den Prozess des menschlichen Sehens zu erklären versucht, bei dem Reize und Sinneseindrücke zu einem großen Ganzen zusammensetzt werden.

„Der Mensch kann schon anhand einzelner Punkte oder subjektiver Konturen, so genannter Scheinkonturen, lückenhafte bzw. unvollständige Objekte korrekt erkennen“, erklärt Pock die Funktion der Gestaltfindung, „das menschliche Gehirn ergänzt die fehlende Bildinformation automatisch. Beispielsweise, indem es die Punkte über möglichst glatte Kurven miteinander verbindet.“

Dieses Phänomen der Gestaltfindung haben Pock und sein Team erstmals mithilfe mathematischer Modelle beschrieben, die auf Euler’s Elastica beruhen – einer berühmten Gleichung des Mathematikers Leonhard Euler, mit der Kurven minimalster Krümmung berechnet werden können. Die Elastica-Theorie von Euler befasst sich mit der Mechanik fester Materialien, die sehr große elastische Auslenkungen von Strukturen ermöglichen. Euler und Jakob Bernoulli entwickelten dazu die Theorie für elastische Linien.

Die einfachere Lösung liegt im höherdimensionalen Raum

Auf Basis von Euler’s Elastica entstanden nun neue Algorithmen, mit denen die Arbeitsgruppe von Thomas Pock bestimmte krümmungsabhängige Bildverarbeitungsprobleme in der Praxis lösen kann. Diese Lösung ist demzufolge umso leichter, wenn die (zweidimensionalen) Bilder und deren Merkmale als Datenpunkte in einem dreidimensionalen Raum dargestellt werden.

Dazu Pock: „In der dritten Dimension bekommen wir mit der Orientierung der Objektkanten eine zusätzliche Variable. Auch das ist dem menschlichen Sehen nachempfunden und geht zurück auf die bahnbrechenden Arbeiten der beiden Nobelpreisträger David Hubel und Torsten Wiesel, die 1959 feststellten, dass der visuelle Cortex aus orientierungssensitiven Schichten aufgebaut ist. Aus mathematischer und informatischer Sicht liegt der größte Vorteil dieser dreidimensionalen Einbettung darin, dass Bildverarbeitungsprobleme mit Hilfe konvexer Optimierungsalgorithmen lösbar sind. In der mathematischen Optimierung gilt die Grenze zwischen konvexer und nicht-konvexer Optimierung als jene große Barriere, die lösbare von nicht lösbaren Problemen unterscheidet. Somit können wir für alle gegebenen Eingangsbilder garantiert das beste Bild berechnen – natürlich nur in Bezug auf das verwendete mathematische Modell.“

Ausblick auf weitere Forschungsarbeit der TU Graz

Nach diesen Erkenntnissen arbeiten Pock und sein Team an weiter verbesserten Modellen, die die bekannten strukturellen Eigenschaften des visuellen Cortex mit Deep-Learning-Algorithmen kombinieren. Das Ziel: Die Entwicklung von Modellen, die genauso gut funktionieren wie derzeitige Deep-Learning-Algorithmen, aber auch ein tieferes Verständnis über die gelernten Strukturen erlauben. Erste Erfolge gibt es bereits bei der Rekonstruktion von Computertomographien und Magnetresonanzbildern.

„Mit unseren neu entwickelten Algorithmen lassen sich nun trotz weniger aufgenommener Daten Bilder mit höchster Qualität rekonstruieren. Das ist bislang einzigartig, spart Zeit und Rechenleistung und somit auch Kosten“, erklärt Pock.

Das ERC-Forschungsprojekt HOMOVIS wurde vom European Research Council (ERC) mit insgesamt rund 1,4 Millionen Euro gefördert. Dieses Projekt ist an der TU Graz im „Fields of Expertise“ Information, Communication & Computing verankert, einem von fünf strategischen Schwerpunktfeldern der Universität.

50 Jahre Forschung und noch kein Ende in Sicht

Ein Exkurs in die Anatomie verdeutlicht, wie leistungsstark unser Gehirn ist. Industriell angewandte optische Mustererkennung, Bildverarbeitung, neuronale Netze und die künstliche Intelligenz sind Versuche, mit Computertechnik es ihm gleichzutun. Der visuelle Cortex, umgangssprachlich Sehrinde genannt, ist derjenige Teil der Großhirnrinde, der zum visuellen System des Menschen zählt. Die Großhirnrinde umfasst die äußere und an Nervenzellen reiche Schicht des Großhirns. Das menschliche visuelle System indes ist der Teil eines Nervensystems, der das Verarbeiten der visuellen Information verantwortet. Dazu gehören u.a. das Auge mit Netzhaut, der Sehnerv, die Teile des Zwischenhirns und schließlich die Sehrinde. All das (und noch mehr) ermöglicht die visuelle Wahrnehmung, die über das reine Sehen hinausgeht und die schließlich die Beschreibung der beobachteten Szene vollzieht.

Seit mehr als 50 Jahren ist das Computersehen ein sehr aktives Forschungsgebiet. Software, Hardware, Prozessortechnik, Optoelektronik sind aber noch immer weit von den Fähigkeiten des menschlichen Sehsystems entfernt. Die verblüffende Leistung des menschlichen visuellen Systems ist hauptsächlich auf eine hocheffiziente Drei-Schichten-Architektur zurückzuführen: Eine Low-Level-Schicht, die die visuellen Informationen extrahiert, indem sie wichtige Bildmerkmale wie beispielsweise Bildgradienten erkennt, eine Mid-Level-Schicht, die Exklusions- und Vervollständigungsprozesse ausführt und schließlich eine High-Level-Schicht, die sich mit der Erkennung von Objekten beschäftigt.

Variationsverfahren sind sicherlich eine der erfolgreichsten Methoden für Low-Level-Vision, sagen ERC-Wissenschaftler im HOMOVIS-Projekt, es ist jedoch sehr unwahrscheinlich, dass diese Methoden ohne die Integration von High-Level-Vormodellen weiter verbessert werden können. Daher schlagen sie einen einheitlichen mathematischen Rahmen vor, der eine natürliche Integration von High-Level-Prioren in Low-Level-Variationsmodelle ermöglicht. Insbesondere meinen sie damit, Bilder in einem höher-dimensionalen Raum zu übertragen, der von der Architektur des visuellen Cortex motiviert ist. Diese Dekomposition der Bildgradienten in Größe und Richtung sorgt für ein Übertragen des 2D-Bildes in einen 3D-Raum.

Das hat mehrere Vorteile: Erstens erlaubt die höherdimensionale Einbettung Mid- Level-Aufgaben wie Boundary Completition und Disocclusion-Prozesse auf eine sehr natürliche Weise zu implementieren. Zweitens erlaubt der dimensional erweiterte Raum einen expliziten Zugriff auf die Orientierung und die Größe von Bildgradienten. Im Gegenzug können Verteilungen von Gradienten-orientierungen, von denen bekannt ist, dass sie für die Objekterkennung sehr effektiv sind, als High-Level-Prioren verwendet werden. Dies kehrt die Bottom-up-Natur von Objektdetektoren um und fügt somit den Low-Level-Variationsmodellen ein effizientes Top-down-Verfahren hinzu.

Die im ERC-Projekt HOMOVIS entwickelten mathematischen Ansätze gehen deutlich über die traditionellen Variationsmodelle für das Computersehen hinaus und definieren damit einen neuen Stand der Technik in diesem Bereich. Das Projekt fand am 31. Dezember 2020 seinen erfolgreichen Abschluss.

Interessant zu wissen: Das menschliche Gehirn enthält schätzungsweise 86 Milliarden Neuronen und eine ebenso große Anzahl von Stützzellen, die in komplexen Netzwerken und Schaltkreisen angeordnet sind, deren Architektur noch weitgehend unbekannt ist. Das EU-finanzierte Projekt MULTICONNECT will durch den Einsatz außergewöhnlicher bildgebender Verfahren Aufschluss über die Struktur des Gehirns geben. Nach Projekt-ende präsentieren Forscher der Universiteit Maastricht einen neuen Atlas des Gehirns mit noch nie dagewesenen Details.//

Artikelfiles und Artikellinks

(ID:47412806)