Neue High-Bandwidth-Memory-Architektur HBM-PIM: Spezial-Speicher für KI-Workloads

Redakteur: Michael Eckstein

Doppelte Systemleistung, 70% weniger Stromverbrauch: Samsungs neue HBM-Speicher mit integrierter Processing-in-Memory-Architektur sollen KI-Anwendungen beschleunigen – vom Training im Rechenzentrum bis zur Inferenz auf mobilen Endgeräten. Was steckt dahinter?

Firmen zum Thema

Flaschenhals weiten: Direkt in den Speicher integrierte, programmierbare Recheneinheiten (PCU) sollen die Datenbewegungen soweit wie möglich reduzieren und so die Systemleistung beflügeln.
Flaschenhals weiten: Direkt in den Speicher integrierte, programmierbare Recheneinheiten (PCU) sollen die Datenbewegungen soweit wie möglich reduzieren und so die Systemleistung beflügeln.
(Bild: Samsung)

Vor rund drei Jahren hat Samsung seinen schnellen HBM2-Speicher (High Memory Bandwidth der zweiten Generation) vorgestellt. Nach einigen Iterationsschritten folgt nun die nächste große Evolutionsstufe: Der südkoreanische Elektronikriese hat Blöcke in seinen Highend-Speicher integriert, die explizit für das Verarbeiten von Künstliche-Intelligenz-(KI-)Algorithmen vorgesehen sind. Nach eigenen Angaben bringe diese neue Processing-in-Memory (PIM)-Architektur „leistungsstarke KI-Computing-Funktionen in den Hochleistungsspeicher, um die Verarbeitung großer Datenmengen in Rechenzentren, High-Performance-Computing-Systemen und KI-fähigen mobilen Anwendungen zu beschleunigen“.

HBM-PIM sei die branchenweit erste PIM-Lösung, die ganz unterschiedliche „KI-getriebene Workloads wie HPC, Training und Inferenz“ verarbeiten können, sagt Kwangil Park, Senior Vice President of Memory Product Planning bei Samsung Electronics. Gemeinsam mit KI-Lösungsanbietern werde man „auf diesem Durchbruch aufbauen und noch fortschrittlichere PIM-gestützte Anwendungen“ entwickeln.

Die meisten der heutigen Computersysteme basieren auf der von-Neumann-Architektur, die separate Prozessor- und Speichereinheiten verwendet. Bei diesem sequenziellen Verarbeitungsansatz müssen Millionen von Daten ständig hin- und hergeschoben werden, um sie verarbeiten zu können. Angesichts der rasant wachsenden Datenmengen ist die Speicherschnittstelle längst zum systemverlangsamenden Engpass geworden.

FIMDRAM soll erforderliche Datenbewegung minimieren

Die neue HBM-PIM-Architektur stellt die Verarbeitungsleistung laut Samsung nun genau dort bereit, wo die Daten gespeichert sind. Dafür haben die Entwickler eine DRAM-optimierte KI-Engine (Programmable Computing Unit, PCU) in jeder Speicherbank – einer Speicheruntereinheit – platziert, was eine weitgehend parallele Verarbeitung der Daten ermöglichen und die Datenbewegung minimieren soll. Dieses Konstrukt nennt Samsung „Function-in-Memory DRAM“, kurz FIMDRAM.

Bei Anwendung auf Samsungs bestehende HBM2-Aquabolt-Lösung ist die neue Architektur nach eigenen Angaben in der Lage, mehr als die doppelte Systemleistung zu liefern und gleichzeitig den Energieverbrauch um mehr als 70 % zu reduzieren. Erfreulich für Anwender: HBM-PIM erfordert laut Samsung keine Änderungen an der Hardware oder Software, was eine schnellere Integration in bestehende Systeme ermöglicht.

Programmierbare KI-Recheneinheiten im Speicher-Sandwich

Details zur neuen HBM-PIM-Architektur hat Samsung auf der International Solid-State Circuits Virtual Conference (ISSCC) präsentiert. Wie den herkömmlichen HBM2-Speicher fertigt Samsung auch den HBM-PIM-Speicher als 3D-integrierten Sandwich-Chip. Allerdings stapelt der Hersteller zunächst vier FIMDRAM-Dies auf das Basis-Substrat mit der grundlegenden Schaltungslogik, bevor weitere vier Lagen HBM-Dies folgen. In jedem FIMDRAM-Chip stecken 32 der KI-Recheneinheiten, die jeweils mit 300 MHz takten. Laut Samsung kann jede Einheit verschiedene 16-Bit-Fließkommaoperationen ausführen. Insgesamt ergibt sich so eine Verarbeitungsleistung von 1,2 TFLOPS pro Speicherchip (4 x 32 x 32 Byte x 300 MHz).

Die PCUs benötigen Platz auf den FIMDRAM-Dies, der nicht mehr für HBM-Speicherzellen zur Verfügung steht. Deswegen haben die FIMDRAM-Dies nur die halbe Speicherkapazität der HBM2-Dies, nämlich 4 GBit. Durch die oben genannte Konstellation – vier HBM2-Dies über vier FIMDRAM-Dies – ergibt sich eine Gesamtspeicherkapazität von 6 GByte pro HBM-PIM-Chip – statt 8 GByte bei regulärem HBM2-Speicher.

Nun muss sich in der Praxis zeigen, inwieweit die 1,2 TFLOPS speichernahe Rechenleistung hilft, KI-Projekte zu beschleunigen. Zum Vergleich: Spezialisierte KI-Beschleunigern wie Nvidias A100 mit Tensor Cores und Sparsity-Packing-Algorithmen erreichen bis zu 624 TFLOPS. Laut Samsung durchläuft der HBM-PIM-Speicher derzeit die Test- und Validierungsphase bei KI-Lösungsanbietern. Diese werde voraussichtlich noch in der ersten Hälfte 2021 abgeschlossen sein.

(ID:47157525)