Neue FPGA-basierte Beschleunigerkarten von Intel und Xilinx

| Redakteur: Michael Eckstein

Vielfältig einsetzbar: FPGA-gestützte Beschleunigerkarten wie Intel neue PAC D5005 erobern auch Anwendungsfelder außerhalb klassischer Rechenzentren.
Vielfältig einsetzbar: FPGA-gestützte Beschleunigerkarten wie Intel neue PAC D5005 erobern auch Anwendungsfelder außerhalb klassischer Rechenzentren. (Bild: Intel)

Fast zeitgleich haben Intel und Xilinx neue, FPGA-basierte Beschleunigerkarten vorgestellt. Während Intel seine PAC D5005 für den Einsatz in großen Rechenzentren vorsieht, hat Xilinx seine Alveo U50 für einen breiten Anwendungsbereich ausgelegt – vom On-Premise-Rechner bis hin zum Server im Cloud-Datenzentrum.

Rechenzentren sollen mit fixen Computerarchitekturen ganz unterschiedliche Aufgaben bearbeiten. Die Folge sind Kompromisse. Schließlich stellen Workloads wie Datenkompression bei Leitungsgeschwindigkeit, Preiswork- und Risikomodellberechnungen im Finanz- und Versicherungswesen oder Sprach- und Video-Inferenzbeschleunigung zum Teil ganz unterschiedliche Anforderungen an die Hardware. „Zunehmend dynamische Workloads wie Cloud Mikro-Services bringen die existierenden Infrastrukturen an ihre Grenzen“, sagt Jamon Bowen, Datacenter Marketing Director von Xilinx im Gespräch mit ELEKTRONIKPRAXIS. Das Berechnen derartiger Arbeitslasten auf dedizierten Hardware-Beschleunigern könne die Server in den Rechenzentren deutlich entlasten. Daher setzen viele Unternehmen auf FPGA-basierte, adaptierbare Hardware, die sich flexibel an die Arbeitslasten anpassen lässt.

Xilinx Alveo U50: Integrierter On-Chip-HBM2-Speicher

Die neuste konfigurierbare Beschleunigerplattform kommt von Xilinx: Alveo U50 rundet das Portfolio des FPGA-Marktführers nach unten ab – zumindest, was die Größe und Stromaufnahme angeht. Im Gegensatz zu anderen Beschleunigerkarten kommt die U50 im Half-Height-/Half-Length-Formfaktor und verbraucht maximal 75 W Leistung (TDP). Zudem belegt sie lediglich einen Steckplatz. Dadurch lassen sich mehrere Karten in einem auch kleineren Rechner kaskadieren – und so beispielsweise im firmeneigenen Rechenzentrum (on-premise) einsetzen.

„Unsere bisherigen Lösungen waren für Edge-Datacenter in Unternehmen oft überdimensioniert“, gibt Bowen zu. „Mit der Alveo U50 haben wir nun auch für diesen Bereich die passende Lösung im Angebot“. Gleichzeitig sei sie jedoch nicht darauf beschränkt, sondern eigne sich ebenso für „Scale-out-Architekturen und Domain-spezifische Beschleunigung in der Cloud und am Edge“. Durchsatz und Latenz bei anspruchsvollen Compute-, Netzwerk- und Storage-Workloads ließen sich für einen breites Spektrum an Applikationen verbessern.

Grundlage der Alveo-U50-Karte ist die MPSoC-Architektur UltraScale+ von Xilinx. Zu den Kernkomponenten zählen 8 GByte breitbandiger On-Chip-HBM2-Speicher (High Bandwidth Memory), Netzwerk-Konnektivität mit 100 GBit/s sowie Unterstützung von PCIe-Gen-4- und CCIX-Schnittstellen. Laut Xilinx unterstützt Alveo U50 mit seiner flexiblen I/O-Architektur Anwendungen wie NVMe-oF (NVM Express over Fabrics), disaggregierte Rechnerspeicher und spezielle Applikationen wie Finanzdienstleistungen.

„Durch diesen Aufbau konnten wir einen kleinen Formfaktor ohne Kompromisse realisieren“, erklärt Bowen – und bringt Beispiele, die die Leistungsfähigkeit der Xilinx-Lösung unterstreichen sollen. Dazu zählt etwa der Hochgeschwindigkeitshandel mit Wertpapieren (High-Speed-Trading) im Finanzsektor: „Hier konnten wir eine Latenz der Handelszeiten von lediglich 500 Nanosekunden sicherstellen“, sagt der Xilinx-Manager. Damit sei die Verzögerung im Vergleich mit dem reinen CPU-Einsatz mit Intels Xeon-Prozessoren um den Faktor 20 geringer. Bei Deep-Learning-Inferenzanwendungen erreichte Alveo U50 im Vergleich zu einer Nvidia Tesla-Lösung demnach bis zu 25-fach geringere Latenzwerte, zehnfach höheren Durchsatz und signifikant verbesserter Leistungseffizienz pro Knoten im Vergleich zu GPU-basierten KI-Lösungen für die Performance von Sprachübersetzungen.

„Wir verfolgen einen weitreichenden Hardware- und Software-Plattform-Ansatz“, sagt Bowen. „Durch diese Quasi-Standardisierung senken wir die Einstiegshürden für den Einsatz unserer FPGA-Technologie.“ Entscheidend für den Erfolg sei letztlich ein breites Ökosystem. Daher arbeite Xilinx mit Partnern zusammen, um das Einsatzspektrum mit neuen Applikationen zu erweitern.

Intel FPGA PAC D5005: 3x mehr Logikgatter, 4x mehr DDR-Speicher

Intel erweitert sein „Programmable Acceleration Card“-(PAC-)Portfolio um die neue FPGA PAC D5005. Sie ergänzt die seit Herbst 2018 erhältliche Arria 10 GX. Während die ältere Arria 10 GX um den gleichnamigen, ARM-basierten SoC herum aufgebaut ist, basiert die neue Beschleunigerkarte auf dem neueren und leistungsfähigeren Intel Stratix 10 SX FPGA. Beide sind für die Zusammenarbeit mit den eigenen Xeon-Server-Prozessoren ausgelegt. „Anders als GPU- oder CPU-basierte HPC-Ansätze arbeitet ein FPGA deterministisch, also mit einer konstanten Latenz“, sagt Patrick Dorsey, Vice President and General Manager Product Marketing der Intel Programmable Solutions Group (Intel PSG) gegenüber ELEKTRONIKPRAXIS. Die durch die Verarbeitung unvermeidbare Verzögerung sei also immer gleich – und sehr kurz.

Im Vergleich verfügt die D5005 über die dreifache Menge an programmierbarer Logik, bis zu 32 GB und damit viermal mehr DDR4-Speicher und schnellere Ethernet-Ports, nämlich zwei 100GE-Ports gegenüber einem 40GE-Port bei der Arria 10 GX. „So gerüstet eignet sich die PAC D5005 für anspruchsvolle Workloads wie Risiko-Management im Finanzsektor, Video-Transcoding und auch Sprach-zu-Text-Konvertierung mithilfe künstlicher Intelligenz“, sagt Dorsey. Großen Anteil an der hohen Rechengeschwindigkeit habe die speichernahe Datenverarbeitung. „D5005 verfügt über deutlich mehr On-Board-Speicher in direkter Nähe der großen Multiplikationsmatrizen. Dies ermöglicht sehr hohe Datendurchsätze durch massiv-parallel Berechnungen mit geringer Latenz.“

Das mehr an Rechenleistung fordert allerdings seinen Tribut in Form einer höheren Energieaufnahme: Während die Arria 10 GX sich mit maximal 66 W (TDP) begnügt, benötigt die D5005 bis zu 215 W (TDP). Immerhin: Gegenüber einer Nvidia V100 würde D5005 die sechsfachen Wert an TOPS pro W erreichen.

Der mitgelieferte, umfassende Intel Acceleration Stack enthält unter anderem Beschleunigungsbibliotheken und Entwicklungswerkzeuge. Zu den ersten Workloads, die speziell für die Intel FPGA PAC D5005 Beschleunigerkarte entwickelt wurden, zählen AI (Speech-to-Text-Übersetzung) von Myrtle, Netzwerksicherheit von Algo-Logic, Bildtranscodierung per CTAccel sowie Videokodierung über IBEX. „Entwickler können diese Stacks sofort einsetzen und ihre eigenen Produkte dadurch schneller auf den Markt bringen“, ist der Intel-Manager überzeugt. Hinzu kommt: „Applikationen, die sie für unsere bisherigen PAC-Produkte entwickelt haben, können sie auf der neuen Karte weiter nutzen.“

Zunächst wird die neue Karte als Komponente der ProLiant DL380 Gen10 Server von Hewlett Packard Enterprise (HPE) erhältlich sein. Laut Intel sind weitere Server-Anbieter bereits dabei, die Karte für ihre Systeme zu qualifizieren. Der HPE-Server ist von Intel zertifiziert und ermöglicht laut Dorsey „ein durchgängiges Management der integrierten Xeon- und D5005-Plattformen“. Dies würde die Gesamtkosten (Total Cost of Ownership, TCO) gegenüber anderen Systemen deutlich senken.

Speedster7t: 7-nm-FPGAs mit hoher Bandbreite und integrierten KI-Blöcken

Speedster7t: 7-nm-FPGAs mit hoher Bandbreite und integrierten KI-Blöcken

22.05.19 - Mit der Speedster7t-Reihe möchte sich Achronix als neuer Anbieter von FPGA-Chips für den Mid-Range- und unteren High-End-Bereich etablieren. Herausragende Eigenschaften sind integrierte Blöcke für künstliche Intelligenz, ein integriertes Network-on-Chip, GDDR6-Speicher und ein voraussichtlich niedrigerer Preis als vergleichbare Produkte von Intel oder Xilinx. lesen

FPGA-Kongress 2019: Elektronik zeitgemäß und zukunftssicher entwickeln

FPGA-Kongress 2019: Elektronik zeitgemäß und zukunftssicher entwickeln

28.05.19 - 75 Referenten, über 100 Vorträge, 350 Teilnehmer: Auf Europas größtem FPGA-Fachkongress drehte sich drei Tage lang alles um die programmierbaren Logik-ICs – und wie Embedded-Entwickler diese optimal einsetzen können. Achronix nutzte den Kongress, um eine brandneue FPGA-Architektur vorzustellen. lesen

KI-Technologie im internationalen Vergleich: Wo steht Deutschland?

KI-Technologie im internationalen Vergleich: Wo steht Deutschland?

03.06.19 - Was ist der weltweite technische Stand in KI und Machine Learning – und wo steht Deutschland im internationalen Vergleich? Der Beitrag zeigt unter anderem auf, was heute schon mit optimierten CNN-Netzwerken möglich ist und was wir in der nächsten Generation erwarten können. lesen

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46065908 / FPGA)