Größter KI-Prozessor der Welt Cerebras WSE-2: Der Pizza-Prozessor

Redakteur: Michael Eckstein

2,6 Billionen (!) Transistoren, 850.000 Rechenkerne, 40 GByte On-Chip-Memory, 20 kW Leistungsaufnahme: Die Wafer Scale Engine 2 von Cerebras ist in jeder Hinsicht extrem. Dabei ist der Name Programm: Der 7-nm-Chip belegt nahezu einen kompletten 300-mm-Wafer.

Firmen zum Thema

Es ist angerichtet: Die Wafer Scale Engine 2 ist groß wie ein Pizzateller – und um Größenordnungen teurer.
Es ist angerichtet: Die Wafer Scale Engine 2 ist groß wie ein Pizzateller – und um Größenordnungen teurer.
(Bild: ELIZAVETA ELESINA)

Schon der erste Chip des KI-Start-ups Cerebras, die Wafer Scale Engine (WSE), war ein Gigant. Die WSE-2 sprengt jedoch alle Grenzen: 2,6 Billionen (!) Transistoren verteilen sich auf 850.000 Rechenkerne, 40 GByte On-Chip-SRAM und weitere Schaltungsblöcke. Dabei ist der Prozessor nicht etwa aus mehreren einzelnen Chiplets zusammengefügt, sondern belegt mit seinen 46.255 mm2 einen kompletten Wafer.

WSE-2 ist in 84 (7 x 12) Rechtecke aufgeteilt, die nebeneinander angeordnet ein Quadrat mit 21 Zentimeter Kantenlänge ergeben. Da der Yield bei der Chipfertigung nie 100 Prozent beträgt, weisen Wafer immer Defekte auf. Ein gewisser Ausschuss ist also normal. Cerebras hat das einkalkuliert und lässt Ersatzkerne mitproduzieren. Sind Kerne unbrauchbar, lassen sich stattdessen andere nutzen. Der Chip ist für den modernen 7-nm-CMOS-Prozess der taiwanesischen Chipschmiede TSMC ausgelegt und soll ab Herbst 2021 erhältlich sein.

Bildergalerie
Bildergalerie mit 5 Bildern

Riesenchip WSE-2: Extrem in jeder Hinsicht

Zum Vergleich: Für den verbreiteten KI-Prozessor Nvidia A100 – der als derzeit größte Grafikrecheneinheit (GPU) gilt und wie die WSE-2 auf KI-Berechnungen ausgerichtet ist – integriert TSMC ebenfalls im 7-nm-Verfahren 54,2 Mrd. Transistoren auf einer Fläche von immerhin 826 mm2. Er bringt es immerhin auf 7.344 Kerne und 40 MByte On-Chip-Speicher.

Gegenüber dem zumindest flächenmäßig gleichgroßen Vorgänger WSE konnte Cerebras nach eigenen Angaben die Speicherbandbreite mehr als verdoppeln – von 9 auf jetzt 20 Petabytes pro Sekunde (PBytes/s). Gleichzeitig stieg demnach die Bandbreite des On-Chip-Netzwerks (Fabric) von 100 auf 220 PBit/s. Der Nvidia A100 wartet demgegenüber mit 155 GByte/s beziehungsweise 600 GByte/s auf – was für sich genommen bereits enorme Leistungsdaten sind, gegenüber den Übertragungswerten der WSE-2 aber verblassen.

Flaschenhals Speicherschnittstelle umgangen

Das Haupteinsatzgebiet des Riesenrechenchips ist – wenig überraschend – das Trainieren umfangreicher Neuronaler Netze (NN). Nach Ansicht von Cerebras hat sich Deep Learning „zu einer der wichtigsten Rechenaufgaben unserer Generation entwickelt“. Deep Learning ist aber eben äußerst rechenintensiv. Zwischen 2015 und 2020 sei der Rechenaufwand für das Trainieren der größten Modelle um etwa das 300.000-fache gestiegen, sagt Cerebras. Im Schnitt verdopple sich der Rechenbedarf für KI etwa alle 3,5 Monate.

Bei herkömmlichen Architekturen (etwa Von-Neumann) ist die Speicherschnittstelle und das Speichermanagement eine Engstelle, die besonders datenintensive Berechnungen stark ausbremst: Daten werden blockweise aus dem externen Speicher (in der Regel DRAM) in den Prozessor geladen, verarbeitet und die Ergebnisse wieder zurückgeschrieben. Das kostet Zeit und Energie.

Cerebras lässt zusammen, was zusammengehört

Die Idee hinter der WSE ist es daher, alle zur Berechnung benötigten Daten zeitgleich in unmittelbarer Nähe zu den KI-Kernen zu halten – im Falle von WSE-2 sind das KI-optimierte „Sparse Linear Algebra Compute“-(SLAC-)Kerne. Für große NN sind viele solcher Cores und viele Speicherzellen nötig. So viele, dass die dafür nötigen Transistoren nahezu einen ganzen 300-mm-Wafer füllen.

Prozessoren werden typischerweise hergestellt, indem viele Kopien desselben Chips auf einen Wafer belichtet werden. Die einzelnen Chips werden getrennt, verpackt und als einzelne Prozessoren verkauft. „Hersteller verbringen viel Zeit, Geld und Mühe, um diese Chips – über InfiniBand und andere Interconnect-Technologien – wieder zu Clustern zusammenzuschalten“, schreibt Cerebras: „Das ist, als ob man ein Produkt absichtlich kaputt macht, um es dann wieder zusammenzusetzen. Bei Cerebras lassen wir es zusammen. Wir schneiden das größtmögliche Quadrat aus einem einzigen Silizium-Wafer, und das ist unser Prozessor – der WSE-2.“

Sehr hohe Stromdichte erfordert Speziallösung zur Chipversorgung

Doch mit dem Wafer allein ist es nicht getan. Ein Problem ist die Stromversorgung des Riesenchips. Im sogenannten Engine Block werden die über die Power-Pins gelieferten Tausenden von Watts auf die von der WSE-2 verwendeten Sub-Volt-Pegel transformiert. Ergo muss der Chip beziehungsweise das gesamte Versorgungssystem mit sehr hohen Stromstärken zurecht kommen.

Da die resultierende Stromdichte so hoch ist, würde die übliche Methode der Leistungsverteilung über die Seiten der Platine zu einer zu hohen Verlustleistung in der Mitte des Chips führen. Die spezielle Gehäuselösung des Engine Blocks liefert stattdessen Strom und Daten über ein Verteilernetz direkt senkrecht auf die Hauptplatine. Eine neuartige, flexible Schicht zwischen dem Silizium-Wafer und der Hauptplatine hält die elektrische Verbindung zum Chip aufrecht. Das ist nötig, da sich die Bestandteile bei Erwärmung und Abkühlung unterschiedlich stark ausdehnen und zusammenziehen.

Enorme Leistungsaufnahme: Ohne Wasserkühlung geht nichts

An der deutlichen Leistungssteigerung von WSE-2 gegenüber seinem Vorgänger hat der Wechsel vom 16-nm- auf den 7-nm-Prozess einen großen Anteil. Laut TSMC ermöglicht dieser Schritt etwa die Verdoppelung der Transistordichte, einen Zuwachs des Rechentempos um rund 40 Prozent sowie – bei einem solchen Riesenchip besonders wichtig – eine Verringerung der Leistungsaufnahme um etwa 60 Prozent. Nach Angaben von Cerebras-CEO Andrew Feldman, der das Unternehmen 2015 gegründet hat, hat sein Team zusätzlich Optimierungen an der Mikroarchitektur der KI-Kerne vorgenommen.

Cerebras integriert seine WSE-2 in ein flüssigkeitsgekühltes (Closed-Loop) Computersystem mit der Bezeichnung CS-2. Über seine zwölf 100-GBit-Ethernet-Anschlüsse erreicht das System eine I/O-Bandbreite von 1,2 TBit/s. Für den Hausgebrauch ist es aber nicht geeignet: Laut Cerebras hat das System eine Leistungsaufnahme von bis zu 23 kW, sein Gehäuse füllt ein Drittel eines Standard-Racks für Rechenzentren.

Abgestimmte Software-Plattform macht Hardware-Power nutzbar

Neben der Hardware- haben die Kalifornier auch eine umfassende, auf den einzigen Anwendungszweck Maschinelles Lernen ausgerichtete Software-Plattform entwickelt. In seinem Whitepaper verspricht Cerebras, dass KI-Forscher damit die Rechenleistung von CS-2 nutzen können, ohne ihre bestehenden Workflows zu ändern.

Die Software besteht laut Hersteller aus vier primären Elementen: dem Cerebras Graph Compiler (CGC), einer flexiblen Bibliothek von Hochleistungskerneln und einer API für die Kernel-Entwicklung, Entwicklungswerkzeugen für Debugging, Introspektion und Profiling sowie der Clustering-Software.

Quantencomputer derzeit keine Alternative

Inzwischen hat Cerebras mehrere Kunden gewonnen, darunter GlaxoSmithKline, Edinburgh Parallel Computing Centre, Pittsburgh Supercomputer Center, Argonne National Laboratory und Lawrence Livermore National Laboratory. „Wir haben eine mehrjährige Partnerschaft mit diesen National Labs des US-Energieministeriums vereinbart, um Deep Learning für die Grundlagen- und angewandte Wissenschaft sowie die Medizin voranzutreiben“, verkündet CEO Andrew Feldman stolz.

Der Erfolg zeigt sich auch am Wachstum der Cerebras-Mannschaft: Mittlerweile arbeiten über 300 Ingenieure in den Niederlassungen in San Diego, Toronto, Tokio und natürlich am Stammsitz in Sunnyvale im Silicon Valley. Damit hat sich die Belegschaft seit 2019 mehr als verdoppelt.

Bis Quantencomputer mit mehreren tausend Qubits praktikabel nutzbar werden, dürften noch einige Jahre ins Land ziehen. Derzeit ist wohl kein anderes System in Sicht, das dem WSE-2/CS-2-Gespann bei ähnlicher Energieeffizient das Wasser reichen kann.

Artikelfiles und Artikellinks

(ID:47364561)