Automotive Electronics Sprachsteuerungstechnologie im Auto – und für vieles mehr

Autor / Redakteur: Rob Hatfield * / Dipl.-Ing. (FH) Thomas Kuther

Sprachsteuerung hat vor allem beim Autofahren deutliche Vorteile, denn die Hände können am Lenkrad bleiben. Erfahren Sie mehr über den Stand der Technik und blicken Sie mit uns in die Zukunft.

Firmen zum Thema

Die Hände immer am Lenkrad: Sprachsteuerung macht's möglich
Die Hände immer am Lenkrad: Sprachsteuerung macht's möglich
(Bild: Dagmar Zechel, pixelio.de)

Spracherkennungsanwendungen sind inzwischen zu einer Schlüsselfunktion im Automotive-Bereich geworden. Wir verraten Ihnen, wie diese Technologie zur Reife gebracht wird und warum sprachgesteuerte Funktionen entscheidend sind, um die Verkehrssicherheit zu erhöhen und um Fahrern zu ermöglichen, in intuitiverer Weise mit einer neuen Generation von Anwendungen im Fahrzeug zu interagieren, welche auf Sprache reagieren.

Bildergalerie

Mit Maschinen zu sprechen ist noch immer eine heikle Erfahrung. Bis vor kurzem gingen die Fortschritte auf dem Gebiet der maschinellen Interpretation menschlicher Sprache noch nicht weit genug, als dass durchschnittliche Anwender nennenswerte Vorteile davon hätten. Jedoch besitzen aktuelle Entwicklungen in Sachen Audio-Technologie das Potenzial, diese Mensch-Maschine-Beziehung permanent zu verbessern, da Engpässe beseitigt werden, die zuvor einen echten Fortschritt bei der Spracherkennung verhinderten. Es eröffnet sich nunmehr ein Weg hin zu einem Zeitalter rascher Innovation im Bereich Mensch-Maschine-Interaktion. Dies wird zu interessanten Entwicklungen führen hinsichtlich der Art und Weise, wie wir mit Maschinen kommunizieren, die uns zuhören können und uns in zunehmendem Maße verstehen.

Sprache als natürlichste Art der menschlichen Kommunikation

Sprache ist vielleicht die natürlichste Art der menschlichen Kommunikation, aber die Einführung einer Maschine in diesen Prozess erzeugt einen Bedarf an neuen Verhaltensprotokollen, insbesondere wenn es während des Sprechens keine fortlaufenden visuellen Rückmeldungen von der anderen Seite gibt. Die ersten Telefongespräche waren für die ersten Anwender auch ein wenig schwierig, und die von Unterbrechungen geprägte Art der Konversation beim Zwei-Wege-Funk erfordert heutzutage immer noch ein wenig Eingewöhnung für neue Nutzer.

In beiden Fällen entwickelten sich rasch allgemeine Praktiken, um einen einigermaßen natürlichen Kommunikationsstil zu erreichen, insbesondere weil hierbei auch der Kommunikationspartner ein Mensch war. So wie Handynutzer mit neuen Spracherkennungsschnittstellen konfrontiert werden, ergeben sich für Anwender viel älterer Kommunikationsmedien ähnliche Herausforderungen.

In einem jüngeren Beispiel demonstrierte die Touchscreen-Revolution, wie neue, nicht geläufige und heikle Interfaces sich durchsetzen und populär werden, wenn sie gut funktionieren und Funktionen bieten, die einen echten Mehrwert für die Anwender darstellen.

Zukunftssichere Lösungen der Sprachsteuerung

Daher ist der Begriff „Performance” von Sprachsteuerungen es wert, in einem viel weiteren Sinn definiert zu werden als dies bislang der Fall war. Es lassen sich dann zukunftssicherere Lösungen entwerfen, die nicht nur zu einer intuitiveren Handhabung, sondern auch zu spürbaren Sicherheitsvorteilen beitragen.

Erhöhte Verkehrssicherheit mit Freihand-Sprachsteuerungssystemen

Sprachsteuerungsfunktionen sind inzwischen in Fahrzeugen etabliert und zu einem Standard geworden, den Automotive-OEMs nicht ignorieren können. Doch bislang erfordern die meisten Anwendungen immer noch, dass wenigstens ein Knopf gedrückt wird, um nämlich die Anwendung erst einmal zu aktivieren. Anwendungen wie beispielsweise Satellitennavigationsprogramme verlangen von uns, Hände und Augen zur Steuerung zu benutzen. Die kognitive Beanspruchung beim Versuch, sich eine unsichtbare Menü-Hierarchie ins Gedächtnis zurückzurufen oder ein spezifisches Protokoll zur Sprachsteuerung zu nutzen, stellt einen weiteren Ablenkungsgrund in Sprachsteuerungssystemen dar, die eine bestimmte Kommunikationsmethode vorschreiben.

Ablenkung im Straßenverkehr kann tödlich sein

Der entscheidende Moment, in dem die Aufmerksamkeit des Fahrers bezüglich des Verkehrs beeinträchtigt wird, kann tödlich sein. Deshalb sind die Anstrengungen von OEMs zunehmend darauf ausgerichtet, Sprachsteuerungssysteme so zu entwickeln, dass sie die Ablenkung des Fahrer auf ein Minimum reduzieren und die Verkehrssicherheit erhöhen. Die Ablenkung des Fahrers kann dadurch minimiert werden, dass eine berührungslose Sprachsteuerungsmethode entwickelt wird, die keinen künstlichen Interaktionsstil erfordert. Nun ist aber die Frage, wie es um die technische Realisierbarkeit der Implementierung solcher Systeme bestellt ist.

Eine wesentliche Einschränkung von Sprachsteuerungssystemen in Fahrzeugen ist der fehlende Cloud-Zugang, welcher in der Praxis benötigt wird, um die Verarbeitung natürlicher Sprache zu ermöglichen. Ein weiteres Problem besteht in dem hohen Geräuschpegel in Fahrzeugen, welcher die Qualität der Spracherkennung ernsthaft mindert.

Auf der anderen Seite unterstützen Smartphones den Cloud-Zugang, besitzen allerdings ein zu geringes Power-Budget und unterliegen aufgrund ihrer kompakten Bauform akustischen Einschränkungen, die eine Multi-MIC-Geräuschreduzierung zu einer Herausforderung machen. Durch die Verbindung des Smartphones mit dem Fahrzeug ist es jedoch möglich, diese Probleme zu lösen.

Ein Fahrzeug besitzt das Power-Budget und das Platzangebot, um fortschrittliche Technologien zur Geräuschreduzierung anzuwenden, welche sich hinsichtlich Spracherkennung optimieren lassen. In vielen Smartphone-Architekturen unterstützen Audio-Hubs eine direkte Verbindung zu Bluetooth-Chipsätzen innerhalb des Geräts, welche den Hauptprozessor überbrückt. Dies ermöglicht dem Audio-Hub den Empfang eines bereits geräusch-minimierten Audio-Streams vom Fahrzeug, ohne den Hauptprozessor des Smartphones zu aktivieren, so dass Strom gespart werden kann. Dieser Audio-Stream kann anstelle eines internen Mikrofons allgemein für die Sprachsteuerung und Spracherkennung während der Fahrt genutzt werden.

Vollständig natürliche Kommunikation bringt Vorteile

Wenn sowohl Fahrzeug- als auch Smartphone-Hersteller in der Lage sind, diese Art von Konnektivität zu unterstützen, ergeben sich für den Nutzer mehrere Vorteile aufgrund der vollständig natürlichen Kommunikation, der Unempfindlichkeit gegenüber Störgeräuschen im Fahrzeug sowie des minimalen Einflusses auf die Smartphone-Batterie. Durch die Unterstützung von Technologien zur Geräuschreduzierung für die maschinelle Spracherkennung zusätzlich zu jenen, welche für die Kommunikation zwischen Menschen optimiert sind, können Fahrzeug-Hersteller auch dazu beitragen, die Ablenkung und Frustration des Fahrers zu verringern.

Mobile Anwendungen – wie der Knopf beseitigt werden kann

Die Notwendigkeit eines Knopfdrucks oder einer anderen Art der mechanischen Aktivierung stellt die hauptsächliche ergonomische Limitierung von Spracherkennung dar. Dies schränkt die Brauchbarkeit und Sicherheit nicht nur im Automotive-Bereich, sondern auch in vielen anderen Umgebungen ein.

Betrachtet man mobile Geräte, so ist diese mechanische Aktivierung letztlich das Ergebnis der Minimierung des Stromverbrauchs. Um konkurrenzfähige Akkulaufzeiten zu erhalten, sind die Standby-Leistungsbudgets bei mobilen Geräten extrem niedrig und liegen typischerweise im einstelligen Milliampere-Bereich. Spracherkennung (oder wenigstens willkürliche Spracherkennung) ist bei solch niedrigen Leistungsbudgets nicht kontinuierlich möglich.

Spracherkennungsfeatures cleverer und leichter nutzbar

Eine plumpe Lösung dieses Problems war bislang eine Aktivierung auf Knopfdruck. Der durchschnittliche Stromverbrauch wird dadurch minimiert, dass die Spracherkennung deaktiviert bleibt, bis der entsprechende Knopf gedrückt wird. Hingegen weisen die neuesten High-End-Audio-Hubs moderne Sprach-Trigger-Funktionen auf, nachdem OEMs darauf aus sind, Spracherkennungsfeatures cleverer und leichter nutzbar zu machen. Die drastische Reduzierung des durchschnittlichen Stromverbrauchs der Spracherkennung, sogar bis auf Werte, die den Standby-Budgets entsprechen, erlaubt dem Prozessor, im Sleep-Modus zu bleiben. Eine derartige Reduktion der Leistungsaufnahme (typischerweise um eine Größenordnung) ist so signifikant, dass die Notwendigkeit eines Knopfdrucks gänzlich entfallen kann.

Voice trigger architecture choices

Ein Sprach-Trigger ist ein kurzes Schlüsselwort oder ein Satz (wie beispielsweise „Hallo Smartphone”), von dem das Gerät aktiviert wird, so dass es auf nachfolgende Spracheingaben antwortet. Der in Bild 1 dargestellte halb-autonome Low-Power-„Always-On“-Verarbeitungsbereich bietet eine Plattform für diesen Sprachtrigger.

Audio-Hubs stellen eine natürliche Grundlage für die Sprachtrigger-Funktion dar. Sie besitzen Schnittstellen zu allen internen und Headset-Mikrofonen und unterstützen eine direkte Bluetooth-Transceiver-Verbindung. Außerdem laufen sie während des Standby-Modes ohnehin aus anderen Gründen wie beispielsweise der Überwachung von Zubehör-Schnittstellen. Dies reduziert die Verdopplung von Versorgungsfunktionen im System wie Taktgeneratoren und Spannungsreferenzen und damit auch die Leistungsaufnahme im Ruhezustand. Auf Sprachaktivierung zielende Hardware-Optimierungen in Audio-Hubs ermöglichen, die Signalverarbeitungszyklen auf einem absoluten Minimum zu halten, wenn sich das Störprofil der Umgebung ändert, wodurch der durchschnittliche Batteriestrom minimiert wird.

Diskrete Lösungen oder Sprachtrigger auf SoC-Basis

Alternative Architekturen tendieren dazu, in zwei Kategorien eingeteilt zu werden: diskrete Lösungen sowie Sprachtrigger auf Basis von Systems-on-Chip (SoC). Die Verlustleistungsprofile und die Art der Anwender-Interaktion können sehr stark davon abhängen, welche Architektur gewählt wird. Die Software-Architektur, insbesondere beim Management von Use-Case-Transitionen und bei der Konfiguration der seriellen Schnittstelle, spielt ebenfalls eine Rolle bei der Bestimmung von Dialogstilen.

SoC-basierte Sprachtrigger (Bild 2) leiden tendenziell unter dem sehr hohen Overhead der Leistungsaufnahme im Ruhezustand, welcher dadurch verursacht wird, dass die Haupt-Prozessoren (CPU) permanent aktiv sind. Der Batteriestrom-Overhead für diese Lösung ist typischerweise um eine Größenordnung höher als bei Audio-Hubs.

Diskrete Lösungen (Bild 3) nutzen häufig verschiedene Hardware-Interfaces der Haupt-Audio-Kanäle. Dies kann manchmal zu Audio-Unstetigkeiten führen, da das Management von Use-Case-Transitionen und der Aktivierung/Deaktivierung der Geräuschreduzierung durch die unterschiedlichen Latenzen und Signalformate über die verschiedenen integrierten Schaltungen (ICs) hinweg erschwert wird. Diese Unstetigkeiten können manchmal Unterbrechungen der Übertragung verursachen, besonders beim Übergang zum aktiven Betrieb. Dies macht akustische Aufforderungen notwendig, welche den Konversationsstil einschränken. In einigen Fällen kann auch der Zugriff auf eine begrenzte Anzahl Mikrofone die Brauchbarkeit (zum Beispiel den Betrieb mit Headset-Mikrofonen) limitieren.

Sicherstellung eines positiven Nutzererlebnisses

Wie bei allen technologischen Innovationen, welche die Art, wie Anwender mit Konsumer-Geräten interagieren, fundamental verändern, besteht das wahre Maß des Erfolgs darin, wie die Anwender auf die von ihnen erwarteten Änderungen reagieren. Um auf das Beispiel von Touchscreens zurück zu verweisen: das Endziel neuer Sprachsteuerungstechnologien ist, dass sie zu einem akzeptierten und erwarteten Feature mobiler Hardware der nächsten Generation werden, und zwar sowohl im allgemeinen Konsumer-Sektor als auch im Automotive-Bereich.

Wir werden wahrscheinlich recht schnell lernen, mit einer neuen Generation von Geräten zu interagieren, die auf Sprache reagieren, genauso wie wir eine intuitive Vertrautheit mit Touchscreens entwickelt haben, und zwar in dem Umfang, dass Touch-Funktionalität zu einem Standard-Feature neu auf den Markt kommender Geräte geworden ist.

Kriterien zur Bewertung der Spracherkennung sind nicht ausgereift

Dennoch ist es – im Gegensatz zu älteren Kommunikationstechnologien, bei denen Menschen untereinander kommunizieren – noch nicht sicher, dass Anwender nach einer Gewöhnung an das Verhalten der neuen Technologie wirklich von nützlichen oder unterhaltsamen Konversationen mit ihren Geräten profitieren werden. Es wird viel von der Performance der Technologie abhängen, aber die heutigen Kriterien zur Bewertung der Spracherkennung sind nicht ausgereift und vermutlich nicht ausreichend zur Beschreibung der Effektivität künftiger Generationen von Spracherkennungssystemen.

Es wird ein viel umfassenderer Ansatz benötigt, mit Berücksichtigung höherer Grade von Maschinen-Intelligenz und Interaktion mit dem Rest des Systems sowie mit der Cloud. Eine Audio-Architektur, welche künftige Verbesserungen weder einschränkt noch verzögert, wird dazu beitragen, dass diese Performance-Sprünge viel rascher stattfinden, und zwar weitestgehend uneingeschränkt durch Hardware und Low-Level-Firmware. Es ist bereits möglich, mobile Geräte mit dieser Art Technologie herzustellen.

Beseitigung des Knopfdrucks als Meilenstein

Obwohl die Beseitigung des Knopfdrucks einen wichtigen Meilenstein darstellt, ist sie einfach nur eine von vielen Verbesserungen der Spracherkennung für heutige mobile Plattformen. Durch die Auswahl der richtigen Architektur während der Integrationsphase kann ein vollkommen natürlicher Kommunikationsstil ermöglicht werden, der die Art und Weise, wie wir unsere mobilen Geräte während der nächsten paar Jahre nutzen, grundlegend verändern und – soweit es um Anwendungen in Fahrzeugen geht – unsere Straßen ein wenig sicherer machen kann.

* Rob Hatfield ist leitender Solutions-Architect bei Wolfson Microelectronics in Edinburgh, UK.

(ID:42479039)