EP Basics Neuronale Netze Die wichtigsten Typen neuronaler Netze für Deep Learning

Von Dr. Aleksandra Klofat

Künstliche neuronale Netze sind zentraler Bestandteil von Deep-Learning-Algorithmen. Die Grundlage in der Architektur der künstlichen neuronalen Netze bilden künstliche Neuronen, die in mehreren Schichten – sogenannten Layers – aufeinander folgen.

Anbieter zum Thema

Neuronale Netze bilden die Grundlage für Maschinelles Lernen und Künstliche Intelligenz. Welches Neuronale Netz für eine Anwendung am besten geeignet ist, hängt auch von Faktoren wie dem verfügbaren Energiebudget ab.
Neuronale Netze bilden die Grundlage für Maschinelles Lernen und Künstliche Intelligenz. Welches Neuronale Netz für eine Anwendung am besten geeignet ist, hängt auch von Faktoren wie dem verfügbaren Energiebudget ab.
(Bild: gemeinfrei / Pixabay )

Eine vereinfachte künstliche Neuron-Architektur sieht folgendermaßen aus: Die blauen Kreise bilden die Input-Neuronen ab, die zu einem Output-Neuron führen.
Eine vereinfachte künstliche Neuron-Architektur sieht folgendermaßen aus: Die blauen Kreise bilden die Input-Neuronen ab, die zu einem Output-Neuron führen.
(Bild: Dr. Klofat)

In der Praxis haben sich einige Varianten von künstlichen neuronalen Netzen etabliert. Je nach praktischer Anforderung werden sie für verschiedene Anwendungsfälle eingesetzt.

Feedforward Neural Networks

Eine der bekanntesten Architekturen ist das sogenannte Feedforward Neural Network. Dieses Netz besteht meistens aus mehreren Schichten von Neuronen, die nacheinander geordnet sind (sogenanntes mehrschichtiges Feedforward-Netz). Im Fall von mehrschichtigen Feedforward-Netzen sind die jeweiligen Schichten nur mit den „Nachbar“-Schichten verbunden.

Wie der Name bereits sagt, bewegt sich die Datenleitung in einem Feedforward-Netz zwischen den künstlichen Neuronen in einer einfachen Linie: von der Eingabeschicht (Input Layer) zu den verdeckten Schichten (Hidden Layers) bis zu der Ausgabeschicht (Output Layers).

Diagramm eines Feedforward Neural Network
Diagramm eines Feedforward Neural Network
(Bild: Dr. Klofat)

Convolutional Neural Networks

Convolutional Neural Networks (CNNs) werden insbesondere im Bereich Bildbearbeitung eingesetzt. Im Fall von CNNs gibt es (ähnlich wie bei den mehrschichtigen Feedforward-Netzen) mehrere Schichten (Layers), die aufeinander folgen. Dabei gibt es hier drei Arten von Schichten: Convolutional Layer, Pooling Layer und Fully-Connected Layer.

Die Datenverarbeitung läuft in mehreren Schritten ab. Convolutional Layers stehen am Anfang und extrahieren die Merkmale aus dem Bild. Dabei extrahieren und identifizieren die tieferen Convolutional Layers immer komplexere Merkmale. Darauf folgt eine weitere Schicht, der sogenannte Pooling Layer. Die Pooling-Schicht reduziert die Dimensionen, um die erforderliche Rechenleistung zu minimieren. Generell folgt auf jede Convolutional-Schicht eine Pooling-Schicht. Am Ende werden die berechneten Daten entsprechend klassifiziert und eingeordnet. Das macht die letzte Schicht: Fully-Connected Layer.

Recurrent Neural Networks

Im Gegensatz zu Feedforward-Netzen sind die künstlichen Neuronen in Rekurrenten Neuronalen Netzen (RNNs) rückgekoppelt. Vereinfacht gesagt wird das Output eines künstlichen Neurons wieder als Input bei demselben oder zuvor verwendeten Neuron eingespeist (sogenannter Feedback Loop). So können die RNNs Information innerhalb eines künstlichen Neurons beibehalten. Insofern verfügen die RNNs über eine Art von Gedächtnis.

Aufgrund dieser Eigenschaft sind RNNs sehr gut dazu geeignet, sequenzielle Daten zu verarbeiten – wie zum Beispiel Sprache, aber auch generell Zeitreihendaten. Aus diesem Grund werden sie oft in der Sprachverarbeitung (Natural Language Processing, NLP) angewandt sowie auch bei Prognosen und Schätzungen.

Schematische Darstellung eines Recurrent Neural Networks
Schematische Darstellung eines Recurrent Neural Networks
(Bild: Dr. Klofat)

Aufgrund des Memory Loops sind die RNNs nicht leicht zu trainieren. Vereinfacht gesagt: Je mehr Schichten in einer RNN-Architektur vorkommen, desto schwieriger ist es, u. a. die Gewichtungen anzupassen (sog. Vanishing Gradient Problem). Als Lösung für diese Probleme gibt es verschiede Versionen der RNN-Architektur, wie Long Short Term Memory (LSTM) oder Gated Recurrent Unity (GRU).

Transformer-Netzwerke

Eine der neuesten Entwicklungen im Bereich künstlicher neuronalen Netze, die schnell an Bedeutung gewinnt, sind die Transformer-Netzwerke. Transformers wurden im Bereich der Sprachverarbeitung (Natural Language Processing, NLP) entwickelt. Die bekanntesten NLP Modelle auf der Transformer-Basis sind: BERT und GPT-3. Zunehmend werden sie aber auch in anderen Bereichen, insbesondere im Bereich Bildverarbeitung, sehr populär. Im Vergleich zu anderen neuronalen Netzen, wie beispielsweise RNNs, benötigen Transformer weniger Rechenkapazität, was sie sehr effizient im Einsatz macht.

Die Autorin: Dr. Aleksandra Klofat ist Data Scienist und bloggt zum Thema Data Science und Statistik auf datenverstehen.de.
Die Autorin: Dr. Aleksandra Klofat ist Data Scienist und bloggt zum Thema Data Science und Statistik auf datenverstehen.de.
(Bild: Dr. Klofat)

Die Funktionsweise der Transformers ist relativ komplex. Vom Prinzip, ähnlich wie RNNs, sind sie für die Verarbeitung sequenzieller Daten optimal, wie Sprache oder Zeitreihen. Die Grundlage der Funktionsweise der Transformer bilden mehreren Serien von Autoencoder: Encoder (Kodierer) und Decoder (Dekodierer). Vereinfacht dargestellt nimmt die Encoder-Schicht die Daten auf und verarbeitet sie in eine Vektorrepräsentation. Die Decoder-Schicht entschlüsselt die Output-Daten und liefert ein Ergebnis.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Neben den Autoencodern ist ein weiterer wichtiger Bestandteil der Transformer die sogenannte Attention. Vom Prinzip entscheidet die Attention, welcher Teil der eingegebenen Sequenz wichtig ist. Der Attention-Prozess gewichtet die Daten nach ihrer Bedeutung.

Generative Adversarial Networks (GANs)

Generative Adversarial Networks bilden eine besondere Gruppe der künstlichen neuronalen Netze. Im Gegensatz zu den anderen Netzen erzeugen die GANs aus Input neue Daten. Das bekannteste Beispiel für GANs ist die Erzeugung von Fotoportraits von fiktiven Menschen.

Schema eines Generative Adversarial Network
Schema eines Generative Adversarial Network
(Bild: Dr. Klofat)

GANs basieren generell auf anderen künstlichen neuronalen Netzen wie Convolutional Neural Networks oder Recurrent Neural Networks. Sie bestehen vom Prinzip aus zwei Arten von Netzen: Generatoren und Diskriminatoren. Die Generatoren generieren neue Daten und die Diskriminatoren bewerten, ob diese Daten realitätsnah aussehen.

Als Output kommt ein Datenpunkt, zum Beispiel ein realitätsnahes Portrait, welches eine fiktive Person darstellt. In der Praxis werden GANs deswegen oft in der Kunst (insbesondre bei der Erstellung von Bildern und Zeichnungen) eingesetzt.

Erstveröffentlichgun auf unserem Partnerportal Big Data Insider.

Artikelfiles und Artikellinks

(ID:48152797)