Suchen

KI-Beschleunigung: Graphcore präsentiert weltweit komplexesten Mikroprozessor

| Autor: Sebastian Gerstl

Ein britisches Startup bläst zum Kampf gegen NVIDIA: Graphcore hat mit seinem IPU (intelligence Processing Unit) die Messlatte für KI-Beschleunigungschips höher gelegt. Der Colossus Mark 2 vereint 59,4 Milliarden Transistoren auf einer Chipfläche von 823mm2.

Firma zum Thema

Neue Spitzenklasse für KI: Der Colossus Mark 2 vereint 59,4 Milliarden Transistoren auf einem Chip und ist in der Lage, mit 1472 unabhängigen Prozessorkernen 8832 separate Rechen-Threads parallel auszuführen.
Neue Spitzenklasse für KI: Der Colossus Mark 2 vereint 59,4 Milliarden Transistoren auf einem Chip und ist in der Lage, mit 1472 unabhängigen Prozessorkernen 8832 separate Rechen-Threads parallel auszuführen.
(Bild: Graphcore)

Graphcore, ein britisches KI-Startup mit Hauptsitz in Bristol, erregte Mitte 2018 mit der Vorstellung seines KI-Beschleunigungschips Colossus Mark 1 (auch GC2 genannt) Aufmerksamkeit. Der Prozessor, der speziell für das Training und die Inferenz der Maschinenintelligenz entwickelt wurde, wurde im 16nm-Prozess gefertigte Prozessor vereinte 23,6 Milliarden Transistoren auf einem Chip, enthielt 300MByte RAM On-chip und übertraf selbst seinerzeit maßgebende KI-Beschleunigungskarten wie Vertreter der NVIDIA Volta Reihe oder Googles TPU2. Zwar legten die genannten Firmen nur kurze Zeit später bessere, schnellere Varianten zur KI-Beschleunigung nach, doch zog das Startup große Aufmerksamkeit auf sich. Mittlerweile hat das junge Unternehmen mehr als 450 Millionen US-$ Wagniskapital eingefahren, auch deutsche Unternehmen wie Bosch oder BMW investieren in die KI-Chip-Schmiede.

KI-Startup präsentiert komplexesten Prozessor der Welt

Bildergalerie mit 6 Bildern

Fast 60 Milliarden Transistoren auf einem hochskalierbaren KI-Chip

Nun hat Graphcore mit seinem IPU der zweiten Generation die Messlatte abermals nach oben gelegt. Der Colossus Mark 2, auch als GC200 bezeichnet, nutzt nun den 7nm-Fertigungsprozess von TSMC, vereint 59,4 Milliarden Transistoren auf einem Die und erreicht nach Unternehmensangaben mit 1472 unabhängigen Prozessorkernen 250 TFlops Rechenleistung. Der Baustein verfügt mit 900MByte On-Chip über die dreifache Arbeitsspeichermenge als sein Vorgänger, bietet pro IPU eine Speicherbandbreite von bis zu 47,5 Tbyte/s und soll in der Lage sein, 8832 separate Rechen-Threads parallel auszuführen.

Laut Graphcore wurde damit die Leistung im Vergleich zum Mark 1 insgesamt etwa um das 8-fache gesteigert. Im Vergleich zu 8 GC2-IPUs können 8 Chips vom Typ Mark 2s das BERT-Training 9,3-mal schneller durchführen, ihre BERT-3Layer-Inferenz ist 8,5-mal schneller und EfficientNet-B3-Training soll um den Faktor 7,4 schneller sein. Laut Graphcore ist der Chip zudem hochskalierbar und erlaube die Verknüpfung von bis zu 64.000 Collossus-Mark2-Chips zu einer parallelen Prozessoreinheit mit rechnerisch bis zu 16 Exaflops Rechenleistung.

Während der Mark 1 ausschließlich in Form von PCIe-Erweiterungskarten mit je zwei Prozessoren pro Karte ausgeliefert wurde, ist der Mark 2 auch mit dem Graphcore M2000 in Form einer sogenannten IPU Machine erhältlich. Dabei handelt es sich um eine mit je vier GC200-Prozessoren bestückte in 1U-Server-Blade, die einen Petaflop an KI-Berechnung mit FP16-Präzision bietet. Graphcore-CEO Nigel Toon verglich den M2000 mit einer aktuellen A100-Einheit von NVIDIA: Laut Toon böte der M2000 bei vergleichbarem Preis das bis zu 12-fache an FP32-Rechenleistung gegenüber der NVIDIA-Plattform, das dreifache an reiner KI-Rechenleistung sowie die zehnfache Menge an für KI reservierten Arbeitsspeicher. Nähere Details finden Sie in der Bildergalerie zu diesem Beitrag.

(ID:46717730)

Über den Autor