„Revolutionärer Ansatz“ für KI-Berechnungen Layer Processing Unit: Neue Architektur für Edge-AI-Anwendungen

Autor: Michael Eckstein

Die Layer Processing Unit (LPU) des österreichischen Vision-Spezialisten Eyyes soll in der Lage sein, alle Knoten eines Layers in einem Neuronalen Netz in einem Taktzyklus zu berechnen – und so die Performance von GPU- und TPU-basierten Systemen deutlich zu übertreffen.

Firmen zum Thema

Intelligent-Vision-Board RTI 3.0: In einem Zynq-4-MPSoC-FPGA von Xilinx lassen sich bis zu vier LPUs unterbringen – das reicht für 18 TOPS bei 400 MHz Systemtakt.
Intelligent-Vision-Board RTI 3.0: In einem Zynq-4-MPSoC-FPGA von Xilinx lassen sich bis zu vier LPUs unterbringen – das reicht für 18 TOPS bei 400 MHz Systemtakt.
(Bild: Eyyes)

Der Entwurf von Processing-Systemen für Edge-AI-Anwendungen muss Widersprüchliches vereinen: Einerseits sollen die Baugruppen viel Verarbeitungsleistung bereitstellen, um auch komplexe Aufgaben in einer sehr kurzen, am besten genau vorhersagbaren Zeitspanne lösen zu können. Im Verkehr zum Beispiel zählt jede Millisekunde beim Erkennen und Entschärfen brenzliger Situationen.

Andererseits sollen die Rechensysteme möglichst kompakt und äußert energieeffizient sein, damit man sie auch ohne aufwändige Entwärmungslösungen in kleine Gehäuse integrieren kann, ohne thermische Probleme zu riskieren. Darüber hinaus gilt es, das Energiebudget beispielsweise in Elektroautos so wenig wie möglich zu belasten.

Bildergalerie

Neue Architektur jenseits von GPU und TPU

Das Lösen dieser auf den ersten Blick diametral entgegengesetzten Anforderungen erfordern nach Ansicht von Johannes Traxler das Überdenken bestehender Architekturen für die Verarbeitung Neuronaler Netze (NN). Laut Traxler, Gründer und Geschäftsführer des österreichischen Vision-Spezialisten Eyyes (früher: AVI Systems), sind bisherige Ansätze wie der Einsatz von Graphic Processing Units (GPU) oder auch Tensor Processing Units (TPU) nur bedingt für intelligente Edge-Anwendungen geeignet.

Im Kern gehe es bei intelligenten Vision-Systemen um das Zusammenspiel von fünf Schritten:

  • Erfassen: Mit hochauflösenden Sensoren jedes Detail aufnehmen.
  • Analysieren: Objekte mithilfe tiefer Neuronaler Netze erkennen und identifizieren.
  • Verstehen: Komplexe Situationen verstehen, Bewegungsvorhersagen generieren, Kollisionsgefahren erkennen.
  • Präsentieren: Relevante Informationen genau zur richtigen Zeit bereitstellen
  • Entscheiden: Auf Basis der relevanten Informationen Entscheidungen treffen.

Nachteile von GPU und TPU überwinden

Traxler beschreibt die Unzulänglichkeiten bisheriger Prozessorarchitekturen so: Eine GPU könne pro Rechentakt immer nur eine Vektoroperation abarbeiten, dies aber sehr schnell. Um alle Layer eines NN abzuarbeiten, benötige sie daher viele Taktzyklen sowohl zum Berechnen als auch zum Zwischenspeichern der jeweiligen Ergebnisse.

Eine TPU würde bereits effizienter arbeiten: „Sie berechnet einen Tensor mit mehreren Vektoren auf einmal.“ Aber auch hier seien noch viele Takte zum Zwischenspeichern und der endgültigen Abarbeitung der Berechnungen aller Neuronen in einem Layer erforderlich.

Neue LPU-Architektur verarbeitet alle Neuronen eines Layer gleichzeitig

„Daher haben wir eine völlig neue Architektur für unseren KI-Chip entwickelt: die Layer Processing Unit oder kurz LPU“, erläutert Traxler. Die LPU ist eine Evolutionsstufe des Generic Neuro Chips und laut Eyyes so konzipiert, dass sie in einem Takt die Tensoren aller Neuronen in einem Layer eines NN gleichzeitig berechnen kann – inklusive Addition der Ergebnisse und unter Berücksichtigung der Aktivierungsfunktion der Neuronen.

Die LPU verarbeitet die eingehenden Daten demnach parallel und führt Aktivierung und Pooling in einem Operationsschritt aus. „Dadurch kann die LPU auch bei geringen Taktfrequenzen Milliarden von Rechenoperationen hocheffizient abarbeiten“, sagt Traxler. Zudem garantiere dies eine sehr kurze, vorhersagbare Latenz – was eine wichtige Voraussetzung für die deterministische Datenverarbeitung in sicherheitsrelevanten Systemen ist.

LPU ist eine Intelligent-Vision-Gesamtlösung

Beim LPU-Konzept spielen Hardware und Software Hand in Hand. In der Toolchain wird das NN zunächst verkleinert und so optimiert, dass es ohne merkliche Verluste wesentlich schneller abgearbeitet werden kann. „Per Simulation stellen wir sicher, dass der optimierte Algorithmus korrekt funktioniert“, sagt Traxler. Erst danach exportiert die Toolchain eine Binärdatei, die der Rechenkern der LPU verarbeiten kann. Hier erfolgt automatisch eine weitere Optimierung der parallelen Rechenoperationen. Im Gegensatz zu einigen anderen KI-Prozessoren sind Entwickler bei der Lösung von Eyyes nicht auf ein bestimmtes NN festgelegt, betont Dr. Wolfgang Domann, Managing Director und CCO von Eyyes: „Unserer LPU ist offen für alle Neuronalen-Netzwerk-Modelle.“

Konkret hat Eyyes seine LPU auf einem programmierbaren Zynq-UltraScale-MPSoC-FPGA-Baustein von Xilinx realisiert. Jede LPU hat 16 Rechenkerne und kann pro Taktzyklus simultan acht Sublayer eines NN verarbeiten. „Eine LPU schafft 2800 Rechenoperationen pro Takt. Bei einer Prozessortaktung mit 400 MHz sind damit rund 4,5 TOPS Rechenleistung möglich“, erklärt Domann. Auf einem Zynq-ZU4-MPSoC würden sich bis zu vier LPUs mit je 16 Kernen unterbringen lassen. „Insgesamt lassen sich so auf einem Baustein insgesamt 18 TOPS nutzen.“

Grundsätzlich ließe sich die Rechenleistung der Lösung noch erhöhen: „Die Taktfrequenz lässt sich theoretisch auf 1,6 GHz steigern. Eine LPU mit 16 Kernen würde dann 18 TOPS leisten, bei vier LPUs wären also 72 TOPS pro ZU4-Baustein erreichbar“, erklärt Traxler. Allerdings müssten dafür zwei DDR4-RAM-Bausteine integriert werden, da sonst die Speicherbandbreite den Durchsatz limitieren würde. Dies sei für bisherige Use-Cases aber nicht nötig. Domann ergänzt: "Eine noch bessere Performance und Energieeffizienz ließe sich mit einer ASIC-Implementierung erzielen."

„Deutlich schneller als GPU und TPU“

Die Parallelisierung der Verarbeitungsprozesse seien der wesentliche Unterschied zur Arbeitsweise von Grafikprozessoren – zumal dadurch viel weniger Zugriffe auf externen Speicher nötig seien. „Die LPU ist ein revolutionäres Konzept, weil wir pro Takt deutlich mehr Rechenoperationen gleichzeitig durchführen, als dies mit GPU und TPU möglich ist“, sagt Domann.

Unter dem Strich sei die Perfomance einer LPU sowohl einer GPU als auch einer TPU deutlich überlegen. „Bei vergleichbarer Implementierung in Bezug auf Taktfrequenz und Chiptechnologie arbeitet unsere LPU mindestens dreimal so schnell wie eine GPU und doppelt so schnell wie eine TPU“, freut sich Traxler. Das Verfahren hat sich Eyyes inzwischen patentieren lassen. Mit einer ASIC-Implementierung ließe sich die Performance und Energieeffizienz noch einmal steigern.

RTI 3.0: Komplettlösung auf Basis der „Layer Processing Unit“

Aufbauend auf seiner LPU-Architektur hat Eyyes das Real Time Interface 3.0 (RTI 3.0) entwickelt: Ein System-on-Module (SOM) auf Basis eines Zynq-UltraScale-MPSoC-Bausteins von Xilinx zur visuell basierten Objekterkennung, das für unterschiedlichste Anwendungsbereiche eingesetzt werden kann. Laut Domann sind bei dem SOM standardmäßig zwei FPD-LINK-III-Anschlüsse, Ethernet und einen Gigabit-Tranceiver an Bord: „Damit lässt sich das SOM direkt in bestehende Systeme einbinden.“

Bei voller Ausnutzung des programmierbaren Logikzellen-Bereichs des modernen Xilinx-MPSoC-FPGAs erreicht Eyyes nach eigenen Angaben die enorm hohe Rechenleistung von 18 TOPS auf einem lediglich 67 mm x 58 mm messenden Board. „Im Vergleich zu SOMs mit konventionellen TPU-Verarbeitungsprozessen zeichnet sich das RTI 3 durch geringe Hardwarekosten und um rund 25 Prozent geringere Energieaufnahme aus“, sagt Domann.

Ein Board verarbeitet zwei Full-HD-Streams

Das Modul sei in der Lage, zwei unabhängige Full-HD-Videostreams zu verarbeiten und die Ergebnisse an unterschiedlichen Interfaces auszugeben. Eyyes führt derzeit Versuche mit höheren Taktraten von bis zu 800 MHz durch, um die Rechenleistung zu steigern und die physikalischen Performancegrenzen des Boards bezüglich der Bandbreite und dem Speicherzugriff auszuloten.

„Die Flexibilität des SOM ermöglicht maßgeschneiderte Entwicklungen und die Integration über Linux-Treiber zum Beispiel in autonome Fahrassistenten“, sagt der Marketing-Chef. Man habe Custom-of-the-Shelf-(COTS-)Funktionen entwickelt, so dass bereits bei der Auslieferung ab Herbst diesen Jahres „alle Basisapplikationen zur Objektdetektion für Personen und Fahrzeugerkennung implementiert sind“, versichert Domann.

(ID:47486818)

Über den Autor

 Michael Eckstein

Michael Eckstein

Redakteur, Vogel Communications Group