Suchen

KI versteht jetzt die Sprache besser als ein Mensch

Redakteur: Dipl.-Ing. (FH) Hendrik Härter

Erstmals ist eine Künstliche Intelligenz in der Lage, das spontan gesprochene Wort nicht nur besser zu verstehen, sondern das Ergebnis auch schnell wiederzugeben. Diese Verzögerung wurde jetzt auf eine Sekunde gesenkt.

Firma zum Thema

Eine Künstliche Intelligenz erkennt spontan gesprochene Worte bereits besser als ein Mensch. Auch die Verzögerung der Ausgaben konnte auf eine Sekunde gesenkt werden.
Eine Künstliche Intelligenz erkennt spontan gesprochene Worte bereits besser als ein Mensch. Auch die Verzögerung der Ausgaben konnte auf eine Sekunde gesenkt werden.
(Bild: KIT Karlsruhe)

Ein Alltagsgespräch zu verfolgen und genau wiederzugeben ist nicht nur für einen Menschen aufwendig. Auch Forscher an Künstlicher Intelligenz (KI) arbeiten daran, das gesprochene Wort wiederzugeben. „Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Hesitationen wie ‚äh‘ oder ‚hm‘, Lacher und Huster“, sagt Alex Waibel, Professor für Informatik am KIT. „Oft werden Worte zudem noch undeutlich ausgesprochen.“ So sei es schon für Menschen schwierig, einen akkuraten Mitschrieb eines informellen Dialogs anzufertigen. „Einer Künstliche Intelligenz fiel das bislang noch schwerer“, erzählt der Spracherkennungs-Experte.

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma KITES, einer Ausgründung aus dem KIT, hat nun weltweit erstmals ein Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller ist als andere Systeme. Waibel hat bereits einen automatischen Live-Übersetzer entwickelt, der bei Universitätsvorlesungen aus dem Deutschen oder Englischen schritthalten kann mit der Vorlesung in die Sprachen ausländischer Studenten überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz. „Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei um die 5,5%. Unser System erreicht 5,0%.“

Ergebnis wird innerhalb einer Sekunde ausgegeben

Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studenten der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel. Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „SwitchboardBenchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forscher-Gemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit Spontansprache zu erkennen herankommt oder diese übertrifft. Inhalte oder Zusammenhänge verstehen könne ein Erkennungs-System alleine aber noch nicht, sagt Waibel.

„Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“ Dialog-, Übersetzungs- und weitere KI-Module können nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

(ID:46942348)