Xilinx Versal: SoC-Plattform für mehr Software-Programmierbarkeit und KI-Einsatz

| Redakteur: Sebastian Gerstl

Das beste aus drei Welten: Mit den voll software-programmierbaren ACAP-Bauteilen will Xilinx die besten Eigenschaften von FPGAs, GPUs und CPUs in einer SoC-Plattform vereinen.
Das beste aus drei Welten: Mit den voll software-programmierbaren ACAP-Bauteilen will Xilinx die besten Eigenschaften von FPGAs, GPUs und CPUs in einer SoC-Plattform vereinen. (Bild: Xilinx)

Eine neue Generation der FPGA-SoCs: Xilinx präsentierte auf dem Xilinx Developer Forum (XDF) die Adaptive Compute Acceleration Platform (ACAP) namens Versal. Die software-programmierbare SoC-Plattform verspricht, das Beste aus CPUs, GPUs und FPGAs zu vereinen. 2019 sollen die ersten 6 Produktfamilien erscheinen.

Bereits im März 2018 hatte Victor Peng die ersten Pläne zur Adaptive Compute Acceleration Platform ACAP angekündigt. Auf dem Xilinx Developer Forum (XDF) im kalifornischen San José ging der Xilinx-CEO nun erstmals näher ins Detail. Ab 2019 sollen die ersten sechs Produktfamilien der neuen, voll software-programmierbaren SoC-Plattform erhältlich sein zu Preisen, die vergleichbar mit "den üblichen Ultrascale-Chips" seien.

ACAP statt „nur“ SOC-FPGA

Das Xilinx Versal Portfolio basiert auf der 7-nm FinFET Prozesstechnologie von TSMC. Nach Victor Peng sei die voll Programmierbare SoC-Plattform die erste dieser Gattung, die Software-Programmierbarkeit mit Domain-spezifischer Hardware-Beschleunigung und der erforderlichen Adaptierbarkeit kombiniert, „um mit der heutigen raschen Innovation Schritt zu halten“.

Das Portfolio besteht aus sechs Baustein-Serien, die speziell dazu ausgelegt sind, Skalierbarkeit und AI-Inferenz in einer Vielzahl von Applikationen in den unterschiedlichsten Märkten zu ermöglichen – von Cloud-Diensten über die Netzwerk- und Mobilfunk-Kommunikation bis zum Edge- und Endpoint Computing. Die Bauteile der Versal-Familie sollen hinsichtlich ihrer Einsatzmöglichkeiten besonders Vielseitig und universell einsetzbar sein – worauf bereits der Name der Produktreihe anspielen soll („versatile“ & „universal“).

Heterogene Architktur: Drei Chip-Welten in einer Plattform vereinen

Programmierbare Logik (z.B. FPGAs) kann präzise an eine bestimmte Rechenfunktion angepasst werden, was sie am besten für harte Echtzeitanwendungen (etwa im Automotive- bzw ADAS-Umfeld) und unregelmäßige Datenstrukturen wie den Human Genome Project macht. Der Nachteil: algorithmische Änderungen haben traditionell Stunden zum Kompilieren im Vergleich zu Minuten in Anspruch genommen.

Für harte, anspruchsvolle Parallelität haben sich in den letzten Jahren GPUs immer mehr empfohlen, was sie auch für Deep Learning – dem Trainieren Künstlicher Intelligenz – spannend macht. Im Vergleich zu FPGAs sind GPUs allerdings starr und im Umgang mit Speicheradressierung unflexibel, was zu Effizienzeinbußen führt. Dieser Mangel an Flexibilität macht vorwiegend GPU-basierte Plattformen auch sehr energiehungrig. . Und Skalierbare CPUs und Mikrocontroller eignen sich sehr gut für die Abarbeitung komplexer Algorithmen und können verfügbaren Speicher hervorragend und gezielt nutzen.

Aus diesem Grund hatte sich Xilinx in den letzten vier Jahren der Entwicklung der ACAP-Plattform verschrieben: Sie soll all die genannten Vorteile der drei Chipgattungen FPGA, GPU und CPU in sich vereinen und gleichzeitig deren Nachteile ausmerzen. „Wir haben sie [die Adaptive Compute Acceleration Platform ACAP] spezifisch so ausgelegt, dass alle Entwickler ihre gesamten Applikationen durch optimierte Hardware und Software beschleunigen und beide sofort adaptieren können, so dass sie mit dem raschen Fortgang der Technologien Schritt halten. Dies ist genau das, was die Industrie zum gegebenen Zeitpunkt benötigt.”

ACAP verfügt über eine neuartige heterogene Rechenarchitektur. Sie vereint Vektor- und Skalarverarbeitungselemente, die eng mit der programmierbaren Logik (PL) gekoppelt sind. Um Latenzen so gering wie möglichg zu halten, sind diese Elemente über ein bandbreitenstarkes Network on Chip (NoC) miteinander verbunden, das einen Zugriff über Memory-Mapping auf alle drei Verarbeitungselementtypen ermöglicht. Diese eng gekoppelte Hybridarchitektur soll eine drastischere Anpassung an Workloads ermöglichen und mehr Leistung erzielen, als es mit der Implementierung der Chips einzeln möglich ist.

Softwareprogrammierbarkeit im Vordergrund

Anders als bei den High-End-FPGAs verspricht Xilinx auch bei der ACAP-Plattform volle Programmierbarkeit rein in Software – ohne Effizienzeinbußen. ACAPs ermöglichen C-basierte und Framework-basierte Designabläufe. Die integrierte Shell besteht aus einer cache-kohärenten Hostschnittstelle (PCIe- oder CCIX-Technologie) mit integriertem DMA, einem NoC und integrierten Speichercontrollern. Eine Programmierbarkeit über eine RTL wie VHDL oder Verilog soll dadurch komplett unnötig werden.

Zudem unterstützt die bereitgestellte Xilinx-Toolchain mehrere Eingabemethoden für jeden Entwicklertyp – ob man nun beispielsweise Framework-gestützte Entwicklung für KI unter zuhilfenahme von TensorFlow oder Caffe bevorzugt oder die direkte Verwendung der Programmiersprache C unter Nutzung vordefinierter Bibliotheken.

Künstliche Intelligenz ein besonderer Schwerpunkt

Das Portfolio der Produktfamilie besteht aus der Versal Prime Serie, der Premium-Serie und der HBM-Serie. Alle sind so strukturiert, dass sie industrieweit führende Performance, Konnektivität, Bandbreite und Integration auch in den anspruchsvollsten Applikationen bereitstellen. Ebenfalls eingeschlossen sind die AI Core Serie, die AI Edge Serie und die AI RF Serie, welche die hauseigene neue AI Engine enthalten. Hierin kommt wohl insbesondere auch das Fachwissen zu Tragen, dass sich Xilinx durch die Übernahme des chinesischen KI-Startups DeePhi einverleibt hat.

Bei dieser AI Engine handelt es sich um einen spezifischen Hardware-Block, der den zunehmenden Bedarf an KI-Inferenz mit geringer Latenz über einen weiten Bereich von Applikationen adressiert. Sie unterstützt auch fortschrittliche DSP-Implementierungen in Funk- und Radarsystemen. Die AI Engine ist eng gekoppelt mit den Versal Adaptable Hardware Engines. Das ermöglicht die Beschleunigung der gesamten Applikation und die Abstimmung von Hardware und Software für maximale Performance und Effizienz.

Als erste im Portfolio erscheinen die Versal Prime Serie, mit breiter Einsetzbarkeit in zahlreichen Märkten, und die Versal AI Core Serie. Diese bietet eine etwa achtfache Verbesserung der AI-Inferenz Performance gegenüber den führenden GPUs*.

Leistungsmerkmale der ersten ACAP-Produkte

Die Versal AI Core Serie liefert die höchste Rechenleistung mit niedrigster Latenz. Sie ermöglicht bahnbrechenden Durchsatz und Performance für die AI-Inferenz. Die Serie ist optimiert für Cloud-, Netzwerk- und autonome Technologien. Sie bietet den größten industrieweit verfügbaren Bereich an AI- und Workload-Beschleunigung. Versal AI Core besteht aus fünf Bausteinen, die jeweils 128 bis 400 AI Engines umfassen. Die Serie enthält Dual-Core Arm Cortex-A72 Application Processors, Dual-Core Arm Cortex-R5 Real-time Processors, 256 KB On-chip Speicher mit ECC, sowie mehr als 1900 DSP Engines, die für High-Precision Gleitpunkt-Operation mit niedriger Latenz optimiert sind.

Außerdem stehen mehr als 1,9 Millionen Logikzellen in Kombination mit 130 Mbit an UltraRAM, bis zu 34 Mbit Block-RAM, sowie 28 Mbit an verteiltem RAM und 32 Mbit an neuen Accelerator RAM-Blocks zur Verfügung. Sie können von jeder Engine adressiert werden. Alles das ist eine spezielle Funktionalität der Versal AI Serie zur Unterstützung kundenspezifischer Speicher-Hierarchien.

Die Serie enthält außerdem 8-lane- und 16-lane PCIe Gen4- und CCIX Host Interfaces, ein leistungs-optimiertes 32-Gbit/s SerDes, bis zu vier integrierte DDR4 Speicher-Controller, bis zu vier Multi-Rate Ethernet MACs, 650 High-Performance I/Os für MIPI D-PHY, NAND, Storage-Class Speicher-Schnittstellen und LVDS. Hinzu kommen 78 Multiplex I/Os zum Anschluss externer Komponenten und mehr als 40 HD-I/Os für 3,3 V. Alles das mit Interconnect über einen State-of-the-Art NoC (network-on-chip) mit bis zu 28 Master/Slave Ports, Multi-Terabit/s Bandbreite mit niedriger Latenz und hoher Leistungs-Effizienz, sowie nativer Software-Programmierbarkeit.

Die Versal Prime Serie ist für den breiten Einsatz in diversen Märkten ausgelegt. Sie ist optimiert in Bezug auf die Konnektivität und In-line Beschleunigung der verschiedensten Workloads. Ausgelegt als Mid-Range Serie besteht sie aus neun Bausteinen. Jeder enthält Dual-Core Arm Cortex-A72 Application Processors, Dual-Core Arm Cortex-R5 Real-time Processors, 256 KB On-chip Speicher mit ECC, sowie mehr als 4000 DSP Engines, die für High-Precision Gleitpunktverarbeitung mit niedriger Latenz optimiert sind. Sie enthält außerdem mehr als 2 Millionen Systemlogikzellen in Verbindung mit mehr als 200 Mbit an UltraRAM, mehr als 90 Mbit Block-RAM und 30 Mbit verteiltem RAM zur Unterstützung kundenspezifischer Speicher-Hierarchien.

Ebenfalls in der Serie enthalten sind 8-lane und 16-lane PCIe Gen4- und CCIX Host Interfaces, ein leistungsoptimiertes 32-Gigabit/s SerDes und ein 58-Gigabit/s PAM4 Mainstream SerDes, bis zu sechs integrierte DDR4 Speicher-Controller, bis zu vier Multi-Rate Ethernet MACs, 700 High-Performance I/Os für MIPI D-PHY, NAND, Storage-Class Speicher-Schnittstellen und LVDS, außerdem 78 Multiplex-I/Os zum Anschluss externer Komponenten und mehr als 40 HD-I/O für 3,3 V. Alles das mit Interconnect über einen State-of-the-Art NoC (network-on-chip) mit bis 28 Master/Slave-Ports. Das ergibt eine Bandbreite von mehreren Terabit/s mit niedriger Latenz, hohe Leistungs-Effizienz und native Software-Programmierbarkeit.

Xilinx steht gegenwärtig über sein Early Access Program mit zahlreichen Schlüsselkunden in Verbindung. Die Versal Prime Serie und die Versal AI Core Serie werden in der zweiten Jahreshälfte 2019 allgemein verfügbar sein.

Xilinx übernimmt chinesisches KI-Start-up Deephi

Xilinx übernimmt chinesisches KI-Start-up Deephi

20.07.18 - Wettrennenn um KI-Dominanz: FPGA-Spezialist Xilinx hat das 200 Mann starke KI-Start-Up Deephi Technology übernommen. Marktbeobachter vermuten hinter diesem Schritt, dass sich Xilinx speziell die chinesische KI-Expertise einverleiben wolle. Experten für Künstliche Intelligenz sind derzeit auf dem Weltmarkt enorm gefragt. lesen

Welche Hardware eignet sich besser zur KI-Beschleunigung?

Welche Hardware eignet sich besser zur KI-Beschleunigung?

04.06.18 - Moderne Hardwarebeschleuniger haben den praktikablen Einsatz von Künstlicher Intelligenz in IT und Industrie in greifbare Nähe gerückt. Doch welche Technologie eignet sich hierfür besser: GPUs, DSPs, programmierbare FPGAs oder eigene, dedizierte Prozessoren? ELEKTRONIKPRAXIS hat Hardwarehersteller und Embedded-Experten zu diesem Thema befragt. lesen

Xilinx-CEO Peng ruft die „anpassungsfähige, intelligente Welt“ aus

Xilinx-CEO Peng ruft die „anpassungsfähige, intelligente Welt“ aus

22.03.18 - Weniger als zwei Monate nach seinem Antritt als neuer CEO von Xilinx hat Victor Peng eine neue Strategie für die programmierbare Logik angekündigt. Speziell das Rechenzentrum und das „adaptive Computing“ sollen im Zentrum einer neuen Technologie namens ACAP stehen. Die ersten Produkte werden im 7nm-Verfahren gefertigt und sollen noch dieses Jahr zum Tape-Out gelangen. lesen

FPGAs und programmierbare SoCs: Grundlagen und Vorteile

FPGAs und programmierbare SoCs: Grundlagen und Vorteile

28.11.17 - Programmierbarkeit ist zu einem zentralen Begriff der Elektronikbranche geworden. Entwicklung von Embedded-Softwarelösungen macht mittlerweile einen Großteil der Budgets aus. Bausteine, die auf Hardware-Ebene konfigurierbar sind, erfreuen sich zunehmender Beliebtheit – und machen den Einsatz klassischer Prozessoren zunehmend überflüssig. lesen

FPGA oder Mikrocontroller?

FPGA oder Mikrocontroller?

02.04.18 - FPGAs haben in vielen Applikationsbereichen den Mikroprozessor verdrängt. Aber ist so ein Umstieg immer sinnvoll? Wann lohnt sich der Einsatz eines FPGAs, und wann sollte man im Design besser beim klassischen Mikrocontroller bleiben? lesen

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45531354 / FPGA)