Automotive Electronics

Sprachsteuerungstechnologie im Auto – und für vieles mehr

Seite: 2/2

Firmen zum Thema

Mobile Anwendungen – wie der Knopf beseitigt werden kann

Die Notwendigkeit eines Knopfdrucks oder einer anderen Art der mechanischen Aktivierung stellt die hauptsächliche ergonomische Limitierung von Spracherkennung dar. Dies schränkt die Brauchbarkeit und Sicherheit nicht nur im Automotive-Bereich, sondern auch in vielen anderen Umgebungen ein.

Betrachtet man mobile Geräte, so ist diese mechanische Aktivierung letztlich das Ergebnis der Minimierung des Stromverbrauchs. Um konkurrenzfähige Akkulaufzeiten zu erhalten, sind die Standby-Leistungsbudgets bei mobilen Geräten extrem niedrig und liegen typischerweise im einstelligen Milliampere-Bereich. Spracherkennung (oder wenigstens willkürliche Spracherkennung) ist bei solch niedrigen Leistungsbudgets nicht kontinuierlich möglich.

Bildergalerie

Spracherkennungsfeatures cleverer und leichter nutzbar

Eine plumpe Lösung dieses Problems war bislang eine Aktivierung auf Knopfdruck. Der durchschnittliche Stromverbrauch wird dadurch minimiert, dass die Spracherkennung deaktiviert bleibt, bis der entsprechende Knopf gedrückt wird. Hingegen weisen die neuesten High-End-Audio-Hubs moderne Sprach-Trigger-Funktionen auf, nachdem OEMs darauf aus sind, Spracherkennungsfeatures cleverer und leichter nutzbar zu machen. Die drastische Reduzierung des durchschnittlichen Stromverbrauchs der Spracherkennung, sogar bis auf Werte, die den Standby-Budgets entsprechen, erlaubt dem Prozessor, im Sleep-Modus zu bleiben. Eine derartige Reduktion der Leistungsaufnahme (typischerweise um eine Größenordnung) ist so signifikant, dass die Notwendigkeit eines Knopfdrucks gänzlich entfallen kann.

Voice trigger architecture choices

Ein Sprach-Trigger ist ein kurzes Schlüsselwort oder ein Satz (wie beispielsweise „Hallo Smartphone”), von dem das Gerät aktiviert wird, so dass es auf nachfolgende Spracheingaben antwortet. Der in Bild 1 dargestellte halb-autonome Low-Power-„Always-On“-Verarbeitungsbereich bietet eine Plattform für diesen Sprachtrigger.

Audio-Hubs stellen eine natürliche Grundlage für die Sprachtrigger-Funktion dar. Sie besitzen Schnittstellen zu allen internen und Headset-Mikrofonen und unterstützen eine direkte Bluetooth-Transceiver-Verbindung. Außerdem laufen sie während des Standby-Modes ohnehin aus anderen Gründen wie beispielsweise der Überwachung von Zubehör-Schnittstellen. Dies reduziert die Verdopplung von Versorgungsfunktionen im System wie Taktgeneratoren und Spannungsreferenzen und damit auch die Leistungsaufnahme im Ruhezustand. Auf Sprachaktivierung zielende Hardware-Optimierungen in Audio-Hubs ermöglichen, die Signalverarbeitungszyklen auf einem absoluten Minimum zu halten, wenn sich das Störprofil der Umgebung ändert, wodurch der durchschnittliche Batteriestrom minimiert wird.

Diskrete Lösungen oder Sprachtrigger auf SoC-Basis

Alternative Architekturen tendieren dazu, in zwei Kategorien eingeteilt zu werden: diskrete Lösungen sowie Sprachtrigger auf Basis von Systems-on-Chip (SoC). Die Verlustleistungsprofile und die Art der Anwender-Interaktion können sehr stark davon abhängen, welche Architektur gewählt wird. Die Software-Architektur, insbesondere beim Management von Use-Case-Transitionen und bei der Konfiguration der seriellen Schnittstelle, spielt ebenfalls eine Rolle bei der Bestimmung von Dialogstilen.

SoC-basierte Sprachtrigger (Bild 2) leiden tendenziell unter dem sehr hohen Overhead der Leistungsaufnahme im Ruhezustand, welcher dadurch verursacht wird, dass die Haupt-Prozessoren (CPU) permanent aktiv sind. Der Batteriestrom-Overhead für diese Lösung ist typischerweise um eine Größenordnung höher als bei Audio-Hubs.

Diskrete Lösungen (Bild 3) nutzen häufig verschiedene Hardware-Interfaces der Haupt-Audio-Kanäle. Dies kann manchmal zu Audio-Unstetigkeiten führen, da das Management von Use-Case-Transitionen und der Aktivierung/Deaktivierung der Geräuschreduzierung durch die unterschiedlichen Latenzen und Signalformate über die verschiedenen integrierten Schaltungen (ICs) hinweg erschwert wird. Diese Unstetigkeiten können manchmal Unterbrechungen der Übertragung verursachen, besonders beim Übergang zum aktiven Betrieb. Dies macht akustische Aufforderungen notwendig, welche den Konversationsstil einschränken. In einigen Fällen kann auch der Zugriff auf eine begrenzte Anzahl Mikrofone die Brauchbarkeit (zum Beispiel den Betrieb mit Headset-Mikrofonen) limitieren.

Sicherstellung eines positiven Nutzererlebnisses

Wie bei allen technologischen Innovationen, welche die Art, wie Anwender mit Konsumer-Geräten interagieren, fundamental verändern, besteht das wahre Maß des Erfolgs darin, wie die Anwender auf die von ihnen erwarteten Änderungen reagieren. Um auf das Beispiel von Touchscreens zurück zu verweisen: das Endziel neuer Sprachsteuerungstechnologien ist, dass sie zu einem akzeptierten und erwarteten Feature mobiler Hardware der nächsten Generation werden, und zwar sowohl im allgemeinen Konsumer-Sektor als auch im Automotive-Bereich.

Wir werden wahrscheinlich recht schnell lernen, mit einer neuen Generation von Geräten zu interagieren, die auf Sprache reagieren, genauso wie wir eine intuitive Vertrautheit mit Touchscreens entwickelt haben, und zwar in dem Umfang, dass Touch-Funktionalität zu einem Standard-Feature neu auf den Markt kommender Geräte geworden ist.

Kriterien zur Bewertung der Spracherkennung sind nicht ausgereift

Dennoch ist es – im Gegensatz zu älteren Kommunikationstechnologien, bei denen Menschen untereinander kommunizieren – noch nicht sicher, dass Anwender nach einer Gewöhnung an das Verhalten der neuen Technologie wirklich von nützlichen oder unterhaltsamen Konversationen mit ihren Geräten profitieren werden. Es wird viel von der Performance der Technologie abhängen, aber die heutigen Kriterien zur Bewertung der Spracherkennung sind nicht ausgereift und vermutlich nicht ausreichend zur Beschreibung der Effektivität künftiger Generationen von Spracherkennungssystemen.

Es wird ein viel umfassenderer Ansatz benötigt, mit Berücksichtigung höherer Grade von Maschinen-Intelligenz und Interaktion mit dem Rest des Systems sowie mit der Cloud. Eine Audio-Architektur, welche künftige Verbesserungen weder einschränkt noch verzögert, wird dazu beitragen, dass diese Performance-Sprünge viel rascher stattfinden, und zwar weitestgehend uneingeschränkt durch Hardware und Low-Level-Firmware. Es ist bereits möglich, mobile Geräte mit dieser Art Technologie herzustellen.

Beseitigung des Knopfdrucks als Meilenstein

Obwohl die Beseitigung des Knopfdrucks einen wichtigen Meilenstein darstellt, ist sie einfach nur eine von vielen Verbesserungen der Spracherkennung für heutige mobile Plattformen. Durch die Auswahl der richtigen Architektur während der Integrationsphase kann ein vollkommen natürlicher Kommunikationsstil ermöglicht werden, der die Art und Weise, wie wir unsere mobilen Geräte während der nächsten paar Jahre nutzen, grundlegend verändern und – soweit es um Anwendungen in Fahrzeugen geht – unsere Straßen ein wenig sicherer machen kann.

* Rob Hatfield ist leitender Solutions-Architect bei Wolfson Microelectronics in Edinburgh, UK.

(ID:42479039)