Embedded-KI mit 8,8 TOPS/W dank neuer Processing-in-Memory-Architektur

| Redakteur: Michael Eckstein

Parallelrechner: Der KI-Beschleuniger besteht aus vier Clustern, vergleichbar mit einem Vierkern-Prozessor. Damit kann er vier KI-Berechnungen simultan durchführen.
Parallelrechner: Der KI-Beschleuniger besteht aus vier Clustern, vergleichbar mit einem Vierkern-Prozessor. Damit kann er vier KI-Berechnungen simultan durchführen. (Bild: Renesas)

Eine neue Processing-in-Memory-Technologie für Embedded-Anwendungen soll KI-Berechnungen deutlich beschleunigen und gleichzeitig sehr wenig Strom verbrauchen. Renesas zielt damit auf den wachsenden Markt für intelligente Endpunkte.

Renesas hat einen KI-Beschleuniger auf Basis einer Processing-in-Memory-Architektur entwickelt, der CNN-Berechnungen (Convolutional Neural Network) schnell und besonders energieeffizient durchführen können soll. Ein Test-Chip hat nach eigenen Angaben einen Wirkungsgrad von 8,8 TOPS/W erreicht. Das entspricht 8,8 × 10^12 Berechnungen pro Sekunde mit nur einem Watt Leistung – ein Topwert für Energieeffizienz. Die Technologie ist für die direkte Integration in Silizium-Chips gedacht (Embedded KI, e-KI oder e-AI). Renesas will damit seine Position im wachsenden Markt für intelligente Endpunkte ausbauen – also für Endgeräte, die beispielsweise mithilfe von integrierten KI-Beschleunigern Inferenzberechnungen über zuvor angelernte neuronale Netze durchführen.

Der Renesas-Beschleuniger basiert auf einer neuartigen Multi-Core-Processing-in-Memory-(PIM-)Architektur. Damit sollen sich 896.000 Knoten (Synapsen) eines neuronalen Netzes pro Quadratmillimeter Substrat integrieren lassen. Multiplikations- und Akkumulationsoperationen werden beim PIM-Ansatz beim Auslesen der Daten direkt im Speicher durchgeführt. Vorteil: Der sonst nötige Umweg über den Arbeitsspeicher des Prozessors entfällt, was potenziell schnellere Zugriffszeiten, einen höheren Datendurchsatz und eine höhere Verarbeitungsgeschwindigkeit ermöglich – wichtig gerade für Anwendungen der Künstlichen Intelligenz.

„Bisherige PIM-Technologien für CNN-Berechnungen ungeeignet“

Bisherige PIM-Architekturen konnten nach Angaben von Renesas für CNN-Berechnungen nicht überzeugen: Da die binäre SRAM-Struktur nur Daten mit den Werten 0 oder 1 verarbeiten kann, erreiche man „mit Einzelbitberechnungen kein ausreichendes Genauigkeitsniveau“. Auch würde die fertigungsbedingte eingeschränkte Zuverlässigkeit aufwendige Workarounds erfordern.

Um diese Einschränkungen zu umgehen, vereint der eigene KI-Beschleuniger laut Renesas drei neu entwickelte Technologien: Eine dreiwertige (-1, 0, 1) SRAM-Logik für das PIM; eine mit Komparatoren ausgestattete SRAM-Schaltung, die Daten mit geringem Energieaufwand aus dem Speicher auslesen kann sowie eine Technologie, die materialbedingte Rechenfehler verhindert. Gerade bei Low-Power-Schaltungen können Prozessschwankungen in der Fertigung dazu führen, dass einzelne Speicherzellen außerhalb der Norm liegen und nicht wie vorgesehen funktionieren.

Drei Entwicklungen formen mögliche Schlüsseltechnologie für KI am Edge

Renesas nennt drei Hauptmerkmale seiner neuen PIM-Technologie für KI-Chips:

  • Die dreiwertige (-1, 0, 1) SRAM-Logik PIM kann die Bitzahl für die Berechnung der geforderten Genauigkeit zwischen anpassen. Renesas verwendet für seine SRAM-PIM-Architektur eine Kombination aus einem ternären Speicher mit einer einfachen digitalen Recheneinheit. Damit sei es möglich, den Hardware-Aufwand klein zu halten und Berechnungsfehler auf ein Minimum zu reduzieren. Gleichzeitig sei ein Umschalten der Bitanzahl zwischen z.B. 1,5-Bit- (ternär) und 4-Bit-Berechnungen entsprechend der geforderten Genauigkeit möglich. Damit ließe sich die Rechengenauigkeit flexibel anpassen, so dass Anwender das Verhältnis zwischen Genauigkeit und Stromverbrauch entsprechend ihren Anforderungen ausbalancieren können.
  • Hochpräzise und stromsparende Schaltung zum Auslesen des Speichers, die Komparatoren und Replizierzellen kombiniert. Die Speicherdaten werden ausgelesen, indem der Wert des Bitleitungsstroms in der SRAM-Struktur erfasst wird. A/D-Wandler sind grundsätzlich für das präzise Messen des Bitleitungsstroms geeignet. Doch sie benötigen viel Chipfläche und Strom. Daher hat Renesas einen Komparator (1-Bit-Leseverstärker) mit einer Replizierzelle kombiniert. Die Kombination soll eine flexible Stromsteuerung beim Auslesen des Speichers ermöglichen. Die Technologie nutze die Tatsache, dass die Zahl der Knoten (Neuronen), die bei einem Betrieb des neuronalen Netzes jeweils aktiv sind, sehr klein ist (rund 1%). Indem die Ausleseschaltung für nicht aktive Knoten gestoppt werde, ließe sich der Stromverbrauch weiter senken.
  • Eine Technologie vermeidet, dass fertigungsbedingte Strukturabweichungen Berechnungen verfälschen. Trotz höchster Präzision in der Chip-Fertigung variieren die gefertigten Strukturen auf dem Substrat. Diese prozessbedingten Abweichungen können die Werte der Bitleitungsströme in der SRAM-Struktur verfälschen – und dadurch Fehler beim Auslesen von Daten verursachen. Zum Lösen dieses Problems hat Renesas mehrere Blöcke mit SRAM-Rechenschaltungen integriert. Für Berechnungen kommen jedoch nur Blöcke mit den geringsten Fertigungsvarianzen zum Einsatz. Da die aktivierten Knoten nur einen Bruchteil aller Knoten des CNNs sind, werden die aktivierten Knoten selektiv den SRAM-Blöcken zugeordnet, die nur minimale Abweichungen im Herstellungsprozess aufweisen. Durch diesen Kniff lassen sich laut Hersteller Berechnungsfehler auf ein vernachlässigbares Niveau reduzieren.

Im Zusammenspiel sollen diese drei Technologien die Speicherzugriffszeiten in der Deep-Learning-Datenverarbeitung reduzieren und den Energiebedarf für Multiplikations- und Akkumulationsprozesse senken. So gerüstet, erreicht der neue Beschleuniger laut Renesas beispielsweise in einem handschriftlichen Zeichenerkennungstest (MNIST) eine besonders hohe Energieeffizienz bei einem Genauigkeitsgrad von mehr als 99 Prozent. Auch eine Echtzeit-Bilderkennung mit einem batteriegespeisten Prototypen-Modul mit integriertem KI-Beschleuniger und Mikrocontroller hat Renesas bereits demonstriert.

Renesas hat vier Leistungsklassen für KI-Leistung definiert

Seit der Einführung seines „Embedded AI“-(e-AI-)Konzepts im Jahr 2015 hat Renesas die Entwicklung mehrerer e-AI-Lösungen vorangetrieben und vier Klassen auf der Grundlage der Effektivität der e-AI und der implementierten Anwendungen definiert:

  • Klasse 1: Beurteilung der Richtigkeit oder Anomalie von Signalwellenformen.
  • Klasse 2 (100-GOPS/W): Beurteilung der Korrektheit oder Anomalie mittels Echtzeit-Bildverarbeitung.
  • Klasse 3 (1-TOPS/W): Erkennung in Echtzeit.
  • Klasse 4 (10-TOPS/W): Inkrementelles Lernen an einem Endpunkt.

2017 hat Renesas eine Entwicklungsumgebung für e-AI eingeführt. 2018 kündigte das Unternehmen den RZ/A2M-Mikroprozessor an, der den eigenen DRP (Dynamic Reconfigurable Processor) auf einem Chip integriert. Bislang bietet Renesas diese Technologien für Anwendungen der Klasse 2 an. Eine gesteigerte Rechenleistung seiner DRP-Technologie ermöglicht nun auch das Implementieren von Anwendungen der Klasse 3.

Auf Basis der bisher gemachten Erfahrungen haben die Japaner nun ihren KI-Beschleuniger entwickelt. Sie sehen darin eine mögliche Schlüsseltechnologie für das Implementieren zukünftiger Klasse-4-Anwendungen. Um die hohen Performance-Vorgaben von 10 TOPS/W zu erreichen, seien noch kürzere Speicherzugriffszeiten und eine noch geringere Stromaufnahme der für KI-Berechnungen typischen Multiplizier- und Addieroperationen nötig.

5,8 TOPS am Edge: Kneron stellt neue Generation von KI-Prozessoren vor

5,8 TOPS am Edge: Kneron stellt neue Generation von KI-Prozessoren vor

28.09.18 - KI-Chip-Entwickler Kneron verspricht bis zu 5,8 Billionen Rechenoperationen pro Sekunde bei nur 0,5 W Leistungsaufnahme. Dazu waren einige Verbesserungen am ursprünglichen NPU-Design nötig. lesen

FD-SOI und SOTB: Neue Prozesstechnologien für Extreme-Low-Power-Controller

FD-SOI und SOTB: Neue Prozesstechnologien für Extreme-Low-Power-Controller

05.02.19 - Die Silicon-on-Insulator-Technik ermöglicht das Hochintegrieren von Transistoren, die sehr wenig Strom benötigen und schnell schalten – ideal für moderne Controller. Noch weiter geht die SOTB-Technologie von Renesas. lesen

Intelligentere Edge-Endgeräte durch Künstliche Intelligenz in FPGAs

Intelligentere Edge-Endgeräte durch Künstliche Intelligenz in FPGAs

28.03.19 - Künstliche Intelligenz scheint oft aufwändige Cloudverbindungen und hohen Stromverbrauch zu fordern. Doch auch mit Low-Cost-FPGAs lässt sich eine effiziente, günstige KI-Implementierung sicherstellen. lesen

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45985999 / Mikrocontroller & Prozessoren)