FPGAs beschleunigen KI-gesteuerten Sprachassistenten

| Autor / Redakteur: Daniel Eaton * / Michael Eckstein

Schnell und rekonfigurierbar: Der Digital-Home-Assistenten NUGU von SK Telecom kann dank Kintex-UltraScale-FPGAs flüssig in koreanischer Sprache kommunizieren.
Schnell und rekonfigurierbar: Der Digital-Home-Assistenten NUGU von SK Telecom kann dank Kintex-UltraScale-FPGAs flüssig in koreanischer Sprache kommunizieren. (Bild: Xilinx)

Massiv-parallel Rechenleistung und Rekonfigurierbarkeit: Mit FPGAs verbessert SK Telecom sowohl die Genauigkeit der Spracherkennung als auch die Reaktionszeit seines sprachaktivierten Assistenten NUGU.

Künstliche Intelligenz (KI) verbreitet sich schnell in vielen Anwendungsgebieten. Die großen Player rüsten ihre Datenzentren für die Technologie auf. Inferenz, also das Anwenden zuvor angelernter neuronaler Netze, mit niedriger Latenz ist dabei eine Schlüsselforderung. Sie stellt sicher, dass etwa eine Spracherkennung verzögerungsfrei arbeitet. Neben Kosten, Stromverbrauch und Time to Market ist auch Flexibilität wichtig. Einerseits, um mit dem hohen Entwicklungstempo von KI Schritt halten zu können. Andererseits, um hohe Cost of Ownership aufgrund sonst nötiger häufiger Hardware-Wechsel zu vermeiden. Herkömmliche Hardware-Plattformen können die Anforderungen für neuronale Netzwerke bei umfangreichen kommerziellen Installationen nicht erfüllen.

Neue Ansätze sind gefragt. Südkoreas größter Telco-Konzern SK Telecom hat daher KI-Akzeleratoren in seinen Datenzentren installiert, konkret „Field Programmable Gate Array“-Komponenten (FPGA). FPGAs können viele Berechnungen parallel ausführen und erreichen hohe Datendurchsätze. Zudem lassen sie sich flexibel reprogrammieren, so dass beispielsweise Upgrades implementierter neuronaler Netze (NN) möglich sind. Anwender können so mit der sich rasch entwickelnden KI Schritt halten. Während die Tools zum Trainieren neuronaler Netze immer erschwinglicher werden und sich leichter bedienen lassen, schätzen Industrie-Experten, dass das Bereitstellen von Inferenz-Modellen heute zum größten zeitbezogenen Kostenfaktor für die Infrastrukturen geworden ist.

SK Telecom entwickelt derzeit KI-basierte Services. Zu diesen Angeboten zählt darunter der erste Digital-Home Assistant NUGU. Er soll in der Lage sein, flüssig in koreanischer Sprache zu kommunizieren. NUGU unterstützt Musik- und Smart-Home-Dienste, Information on Demand, Smartphone-Lokalisierung und Ernährungsberatung. Für die Zukunft sind weitere Funktionen geplant, einschließlich APIs, die Drittanbietern Zugang zu diesem Ökosystem gewähren. NUGU ist in der Lage, Sprechmelodien, Akzente und Dialekte zu verstehen und erzielt eine sehr hohe Spracherkennungsrate.

Im Zentrum von NUGU steht die Sprachverarbeitungs-Engine von SK Telecom. So gerüstet kann das System die Sprachinhalte der Benutzer erkennen und per Sprache direkt mit ihnen interagieren. Die bestmögliche Nutzererfahrung hängt von einer zuverlässigen Spracherkennung und der sofortigen Reaktion auf eine Anfrage ab. Daher hat SK Telecom den FPGA-basierten „AI Inference Accelerator“ AIX entwickelt. Er enthält mehrere kundenspezifische Network Processing Units (NPUs), die für die Spracherkennung mit niedriger Latenz optimiert sind.

Keine Verzögerungen bei der Spracherkennung

Extrem geringe Latenzen sind für eine gute Anwendererfahrung essenziell. Das gilt nicht zuletzt für sprachbasierte Systeme. Denn Konsumenten erwarten einen nahtlosen, natürlichen Verlauf ihrer Kommunikation. Dafür ist eine Inferenz in nahezu Echtzeit erforderlich – was heute noch nicht ganz gelingt. Trotzdem installieren immer mehr Netzbetreiber KI-basierte Systeme. Das Trainieren von neuronalen Netzwerken ist bereits gut erforscht. Große GPU-Arrays dienen bislang als bevorzugte Plattform dafür. Sie sind in der Lage, mit Teraflops an Rechenleistung viele Exabits an Daten zu verarbeiten.

Das Training findet offline statt und dauert zwischen wenigen Tagen und mehreren Wochen. Dabei muss die Applikation die erwartete Performance liefern, und zwar innerhalb strikter Anforderungen an die Latenz und den Leistungsverbrauch. Statt GPUs kommen mittlerweile verstärkt FPGA-gestützte Systeme zum Einsatz. Xilinx hat den Nachweis erbracht, dass solche Akzeleratoren eine Echtzeit-Inferenz liefern können, wie sie für die Spracherkennung und die Verarbeitung natürlicher Sprache erforderlich ist. Noch dazu verbrauchen sie dabei weniger Strom als GPUs.

FPGAs verbrauchen weniger Strom als GPUs

Obwohl auch ASIC-basierte Inferenz-Engines die niedrige Latenz mit geringem Leistungsverbrauch kombinieren könnten, bieten die FPGA-Akzeleratoren den zusätzlichen Vorteil der Rekonfigurierbarkeit. Damit können Nutzer die jeweils neuesten Machine-Learning-Verfahren sofort nutzen. Dies ist ein Grund, warum SK Telecom seinen AIX mit den „Datacenter Accelerator Cards“ KCU1500 mit Kintex-UltraScale-XCKU115-FPGAs von Xilinx aufbaut. Das AIX-System besteht aus einem großen Array von neuronalen Kernen. Diese sind in den DSP Slices der Kintex FPGAs implementieret, um die automatische Spracherkennungs-Applikation (ASR) von NUGU zu realisieren.

Bild 2: Durchsatz versus Zahl der Kanäle – Vergleich von Servern nur mit GPU- und FPGA-Beschleunigern.
Bild 2: Durchsatz versus Zahl der Kanäle – Vergleich von Servern nur mit GPU- und FPGA-Beschleunigern. (Bild: SK Telecom)

Das neuronale Array und die zugehörigen Funktionen, einschließlich Weight Feeder, Tensor Cache und Tensor Controller (Bild 1 oben) formen eine High-Performance NPU (Neural Processing Unit), die effektiv einige Zehntausend Akzeleratoren für die Inferenz umfasst. Durch den Einsatz von statischer und dynamischer Rechenoptimierung mit Vereinfachung (Pruning), Quantisierung und dynamischer Präzision stellen die Entwickler bei SK Telecom sicher, dass in jedem Zyklus mehr als 95 Prozent der DSP-Kerne der FPGAs aktiv sind.

Bild 3: Die FPGA-gestützte Lösung erreicht bei steigender Kanalzahl deutlich bessere Latenzwerte.
Bild 3: Die FPGA-gestützte Lösung erreicht bei steigender Kanalzahl deutlich bessere Latenzwerte. (Bild: SK Telecom)

Beim Betrieb von mehreren gleichlaufenden Sprachkanälen erzielt SK Telecom eine Verbesserung der Performance um 500 Prozent gegenüber GPU-basierten Akzeleratoren. Pro Watt Leistung liefert das System eine 16-fach bessere Performance. Dieses Projekt ist die erste kommerzielle Installation von FPGA-Akzeleratoren im KI-Bereich für große Datenzentren in Südkorea. Die adaptive Natur der Kintex UltraScale FPGAs erlaubt dem SK-Team die kontinuierliche Entwicklung neuer und verbesserter Akzeleratoren in kundenspezifischer Hardware, um mit dem Stand der Technik bei KI und Deep Learning Schritt zu halten.

Intel: Neues FPGA-Topmodell mit schnellen UPI- und PCIe-Gen4-Schnittstellen

Intel: Neues FPGA-Topmodell mit schnellen UPI- und PCIe-Gen4-Schnittstellen

19.09.19 - Seine neuen Stratix-10-DX-FPGAs hat Intel für ein bestmögliches Zusammenspiel mit seinen aktuellen und zukünftigen Xeon-Prozessoren ausgelegt. Ab 2021 sollen sie auch „Compute Express Link“ (CXL) unterstützen, den neuen offenen Schnittstellenstandard für Hochgeschwindigkeitsverbindungen. lesen

Neue CrossLinkPlus-FPGAs: Flexible Beschleuniger für Embedded-Vision-Systeme

Neue CrossLinkPlus-FPGAs: Flexible Beschleuniger für Embedded-Vision-Systeme

01.10.19 - In seinen neuen CrossLinkPlus-Bausteinen kombiniert Lattice Vision-fokussierte MIPI-Funktionalität mit FPGA-Flexibilität und Sofortstartfähigkeit. Eine umfangreiche Software-Modul-Bibliothek soll das Design von Systemen für den Industrie-, Automobil-, Computer- und Consumer-Markt beschleunigen. lesen

Xilinx Vitis: FPGA-Programmierung für alle

Xilinx Vitis: FPGA-Programmierung für alle

02.10.19 - Python und C++ statt HDL: Die „Vitis Unified Software Platform“ soll das Programmieren von Xilinx-FPGAs deutlich vereinfachen. So will das Unternehmen seine programmierbaren Logikbausteine einer breiteren Anwenderschaft zugänglich machen. lesen

Dieser Beitrag ist erschienen in der Fachzeitschrift ELEKTRONIKPRAXIS Ausgabe 21/2019 (Download PDF)

* Daniel Eaton ist Senior Manager für Market Development, Accelerated Computing, bei Xilinx.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46167246 / FPGA)