Adaptive Rechenplattformen Energieeffiziente, flexible KI-Beschleunigung

Autor / Redakteur: Greg Martin * / Michael Eckstein

Anwendungen der Künstlichen Intelligenz entwickeln sich rasant und dringen in immer mehr Bereiche vor. Adaptive Rechenplattformen ermöglichen eine flexible und energieeffiziente KI-Beschleunigung.

Firmen zum Thema

Bild 1: 
Reale KI-Implementierungen benötigen typischerweise eine „Nicht-KI-Datenverarbeitung“ sowohl vor als auch nach der eigentlichen KI-Funktion.
Bild 1: 
Reale KI-Implementierungen benötigen typischerweise eine „Nicht-KI-Datenverarbeitung“ sowohl vor als auch nach der eigentlichen KI-Funktion.
(Bild: Xilinx)

Künstliche Intelligenz (KI) hat mittlerweile viele Facetten unseres Lebens verändert und bietet zahlreiche Möglichkeiten, gesellschaftliche Fortschritte zu erreichen. Von selbstfahrenden Autos bis zur KI-gestützten medizinischen Diagnose – wir stehen am Anfang einer transformativen Ära.

Aber mit neuen Möglichkeiten ergeben sich auch neue Herausforderungen. KI-Inferenzierung, also der Prozess, Vorhersagen auf Basis trainierter Machine-Learning-(ML-)Algorithmen zu treffen, benötigt viel Rechenleistung. Gleichzeitig sollen die Prozessoren so wenig Energie wie möglich aufnehmen – unabhängig vom Einsatzort wie Cloud, Edge oder Endpunkt.

Herkömmliche Prozessoren (Central Processing Units, CPUs) allein sind für diese Aufgabe schlecht geeignet. Vielmehr sind zusätzliche, spezialisierte Beschleuniger notwendig, die die Arbeitslasten beim KI-Inferenzieren effizienter abarbeiten können. Gleichzeitig schreitet die Entwicklung von KI-Algorithmen schnell voran, schneller als die Geschwindigkeit, mit der Halbleiter entwickelt werden. Halbleiter-ICs mit fester Funktionalität, etwa eine ASIC-Implementierung (Application Specific IC) eines KI-Netzes, laufen Gefahr, aufgrund des rasanten Innovationstempos bei den modernsten KI-Modellen schnell veraltet zu sein.

Die gesamte Anwendung beschleunigen

Darüber hinaus gibt es noch ein drittes, nicht ganz so bekanntes Problem. Dabei geht es um die Tatsache, dass KI-Inferenzieren nicht isoliert eingesetzt wird. Reale KI-Implementierungen benötigen typischerweise auch eine „Nicht-KI-Datenverarbeitung“ sowohl vor als auch nach der eigentlichen KI-Funktion. Beispiel Bildverarbeitung: Es kann sein, dass ein Bild zunächst dekomprimiert und skaliert werden muss, um zu den Anforderungen am Dateneingang des KI-Modells zu passen.

Diese traditionellen Verarbeitungsfunktionen müssen mit dem gleichen Durchsatz wie die KI-Funktion ablaufen. Also gilt auch in diesem Fall, dass eine hohe Rechenleistung erforderlich, bei gleichzeitig geringer Leistungsaufnahme. Das heißt, dass mittlerweile auch die nicht zur KI zählenden Funktionen der Vor- und Nachverarbeitung beschleunigt werden müssen – genauso wie die Implementierung der eigentlichen KI-Inferenz.

Kurzum: Die gesamte Anwendung muss energieeffizient implementiert werden. Dazu zählt neben der eingesetzten Hardware auch die Software. In Rechenzentren beispielsweise können Anwendungen Tausende oder sogar Millionen von parallelen Instanzen aufweisen. Jeder Bruchteil eines Watts, der pro Instanz eingespart werden kann, macht dementsprechend einen großen Unterschied beim Gesamtstromverbrauch aus.

Ein Lösungsansatz ist nur dann tragfähig, wenn die gesamte Anwendung sowohl das Performance-Ziel mithilfe einer Beschleunigung als auch die Energieanforderungen mithilfe einer höheren Effizienz erfüllt. Wie lässt sich also eine Beschleunigung der gesamten Anwendung tragfähig umsetzen? Dafür gibt es drei Schlüsselelemente: Die Möglichkeit, einen benutzerdefinierten Datenpfad zu erstellen; die Implementierung auf nur einem einzigen Chip; die Möglichkeit, die Vorteile der neuesten KI-Modelle zu nutzen, auch wenn sie sich sehr schnell weiterentwickeln und verbessern. Werfen wir einen Blick auf alle drei Elemente.

Erstellen von benutzer- definierten Datenpfaden

Die meisten Formen der KI-Inferenzierung arbeiten mit Datenströmen. Oft sind die Daten in Bewegung, wie beispielsweise ein Teil eines Video-Feeds, medizinische Bilder, die verarbeitet werden oder der Netzverkehr, der analysiert wird. Selbst wenn die Daten auf einer Festplatte gespeichert sind, werden sie von der Festplatte gelesen und durch die KI-Anwendung geleitet, also gestreamt.

Ein benutzerdefinierter Datenpfad stellt die effizienteste Methode dar, um solche Datenströme zu verarbeiten. Mit einem benutzerdefinierten Datenpfad fallen die Beschränkungen weg, die eine traditionelle Von-Neuman-CPU-Architektur aufweist, bei der Daten in kleinen Blöcken aus dem Speicher gelesen, bearbeitet und wieder zurück geschrieben werden.

Bei einem kundenspezifischen Datenpfad werden die Daten von einer Verarbeitungs-Engine an die nächste weitergeleitet, mit geringer Latenzzeit und dem richtigen Maß an Rechenleistung. Eine zu geringe Verarbeitungsleistung würde den Anforderungen der Applikation nicht gerecht. Eine zu hohe Rechenleistung wäre ineffizient und würde Energie sowie physikalischen Platz mit ungenutzten Ressourcen verschwenden. Ein benutzerdefinierter Datenpfad bietet die perfekte Balance – und passt die Implementierung an die Applikation an.

Implementierung auf einem einzigen Baustein

Einige Lösungen sind gut, wenn es um die KI-Inferenzierung geht, aber nicht bei der Verarbeitung der gesamten Applikation. Feststehende Architekturen wie GPUs fallen im Allgemeinen in diese Kategorie. GPUs zeichnen sich oft durch enorme Rechenleistungen mit hohen TOPS-Zahlen (Tera Operations Per Second) aus, eine typische Maßzahl. Aber die KI-Inferenzleistung muss typischerweise mit der Vor- und Nachverarbeitungsleistung abgestimmt werden.

Wenn die Nicht-KI-Anteile nicht effizient auf derselben GPU implementiert werden können, ist eine Mehr-Chip-Lösung notwendig. Dadurch wird Energie verschwendet, da Daten zwischen den Bausteinen hin und her gesendet werden, was in Hinblick auf den Stromverbrauch sehr ineffizient und kostspielig ist. Ein einziger Baustein, auf dem die gesamte Anwendung effizient implementiert werden kann, bietet also in realen KI-Inferenz-Implementierungen einen erheblichen Vorteil.

Neuste KI-Modelle mit geringem Aufwand einsetzen

Das Innovationstempo im Bereich KI ist erstaunlich. Was heute noch als Topmodern gilt, kann in sechs Monaten schon fast wieder veraltet sein. Anwendungen, die ältere Modelle verwenden, riskieren, nicht mehr wettbewerbsfähig zu sein. Deshalb ist die Möglichkeit, auch die neuesten Modelle schnell implementieren zu können, absolut entscheidend.

Welche Technologie erlaubt also dynamische Updates der KI-Modelle und bietet gleichzeitig die Möglichkeit, einen benutzerdefinierten Datenpfad zu realisieren, um sowohl KI- als auch Nicht-KI-Verarbeitungsprozesse zu beschleunigen und das Ganze noch auf einem einzigen Chip? Die Antwort lautet: eine adaptive Rechenplattform.

Adaptive Rechenplattformen lassen sich rekonfigurieren

Adaptive Rechenplattformen basieren auf einer Hardware, die nach der Fertigung dynamisch rekonfiguriert werden kann. Dazu gehören traditionelle Technologien wie FPGAs (Field Programmable Gate Arrays), aber auch jüngere Innovationen wie die KI-Engine von Xilinx. Eine Ein-Chip-Plattform wie die von Versal Adaptive Compute Acceleration Platform (ACAP) kann sowohl die KI- als auch die Nicht-KI-Verarbeitungsfunktionen beschleunigen, da es für den Entwickler möglich ist, benutzerdefinierte Datenpfade zu erstellen.

Mit diesen Bausteinen sind die Entwickler außerdem in der Lage, die neusten KI-Modelle schnell und effizient zu implementieren, denn die Hardware kann schnell rekonfiguriert werden. Adaptive Rechenkomponenten kombinieren das Beste aus beiden Welten: Sie bieten die Effizienzvorteile von kundenspezifischen ASICs, aber ohne langwierige und kostspielige Entwicklungszyklen.

Die beste Implementierung einer KI-Anwendung ist nicht die schnellste, sondern die effizienteste, die gleichzeitig flexibel rekonfigurierbar ist. Sie muss richtig dimensio­niert sein und genau die benötigte Leistung liefern, nicht mehr und nicht weniger.

KI-Inferenzierungen dringen in immer mehr Anwendungsbereiche vor. Bei ihrer Realisierung besteht die Herausforderung nicht nur darin, wie ein bestimmtes KI-Modell umgesetzt wird, sondern wie die gesamte KI-Anwendung am effizientesten realisiert werden kann. Wenn Anwendungen Tausende oder sogar Millionen Mal repliziert werden, könnte eine kleine Energieeinsparung in jeder einzelnen Instanz schnell ganze Kraftwerk an Energie einsparen.

Multipliziert man dies mit den unzähligen neuen KI-Anwendungen, die sich in der Entwicklung befinden, wird klar, dass die Auswirkungen enorm sind. Es sollte kein Zweifel daran bestehen, dass die effiziente Beschleunigung ganzer KI-Anwendungen ein Ziel für alle in der Technologiebranche sein sollte, und adaptive Rechenplattformen stellen eine wettbewerbsfähige Lösung dar.

* * Greg Martin ... ist Director of Strategic Marketing bei Xilinx in San José, Kalifornien

(ID:47343818)