Sprachanwendungen: Mit verbesserter Codec-Technologie zu modernen Anwendungen

| Autor / Redakteur: Richard Walton * / Richard Oed

Die Sprachcodecs der Serie CMX655 erlauben den Anschluss moderner MEMS-Mikrofone.
Die Sprachcodecs der Serie CMX655 erlauben den Anschluss moderner MEMS-Mikrofone. (Bild: CML Microcircuits)

Für reine Sprachanwendungen sind Multimedia-Codecs meist zu komplex und zu teuer und die oftmals schon seit Jahrzehnten verfügbaren Sprach-Codecs erlauben nicht immer den Anschluss moderner MEMS-Mikrofone. Ein neuer Codec ermöglicht nun zeitgemäße Applikationen.

Die seit Jahren in der gesamten Industrie stattfindende, fortschreitende und weitreichende Digitalisierung zeigt auf anschauliche Weise, dass wir die Welt heute zunehmend binär darstellen. Der Grund dafür ist nicht schwer zu verstehen: Binär ist einfach das effektivste Format, das wir bisher für den Umgang mit Daten entwickelt haben und ist heute ein Grundbaustein in allen Technologiebereichen.

Die Fokussierung auf das Digitale lässt uns leicht vergessen, dass das Analoge auch nur eine Art der Informationsdarstellung ist. Das Wort an sich bedeutet eigentlich nur „vergleichbar mit“. Das von uns wahrgenommene Fehlen einer Quantisierung im Analogbereich wird tendenziell durch die Tatsache verschleiert, dass sich ein analoges Signal als echt „anfühlt“.

Datenwandler bleiben noch lange aktuell

Solange es jedoch nicht praktikabel ist, Dinge wie Geräusche, Anblicke oder Gerüche in ihrem ursprünglichen Format zu speichern, zu übertragen oder auf andere Weise darzustellen, werden wir uns weiterhin auf Wandler verlassen müssen, um Informationen aus der realen Welt in eine Datenform umzuwandeln, mit der wir arbeiten können, sei es analog oder digital.

Die Allgegenwart der Analog/Digital- und Digital/Analog-Wandler (A/D-Wandler, D/A-Wandler) erinnert deutlich daran, dass wir uns zwischen den beiden Bereichen hin- und her bewegen müssen. Die Wandlung kann auf vielfältige Weise erfolgen, und die große Auswahl an verfügbaren Wandler-Architekturen spiegelt die, auf den Notwendigkeiten der jeweiligen Anwendung basierenden, unterschiedlichen Anforderungen an Genauigkeit, Wiederholbarkeit und Stabilität der Wandlung(en) wider. Dies stellt eine Herausforderung für Entwicklungsteams dar, wenn es darum geht, Wandler für eine bestimmte Applikation auszuwählen.

Ein nicht ganz so verwirrender Bereich ist die Verarbeitung von Sprachdaten. Generell benötigt die Verarbeitung von Audio- und Videodaten die Verwendung eines Codecs (Coder/Decoder). Dabei handelt es sich um eine Klasse von Datenwandlern, die auf Anwendungen optimiert sind, die sowohl mit analogen als auch mit digitalen Daten arbeiten und Audio- oder Video-Signale, einschließlich Sprache, enthalten.

Multimedia-Codecs können für Sprachanwendungen zu viel

Alle Signalwandler führen eine Quantisierung durch, da sie von Natur aus Informationen von einer Form in eine andere übersetzen, anstatt sie originalgetreu zu kopieren. Der primäre Ausgang eines Wandlers ist dabei typischerweise elektrischer Art und zeigt eine messbare Änderung des Widerstands, der Kapazität oder der Reluktanz an. Aus diesem Grund stellt ein Wandler auch eine Art Filter dar, da er einige Eingangswerte zugunsten anderer ignoriert. Da Audio- und Videosignale in Bezug auf die Bandbreite und die Frequenzen stark variieren können, sind Codecs so konzipiert, dass sie sich auf die Eigenschaften des nativen Signals konzentrieren.

Die Telefonie ist ein gängiges Anwendungsfeld für Codecs, da sie die analoge/digitale Schnittstelle zwischen Mikrofon und Lautsprecher bildet. In jüngerer Zeit haben sich die Halbleiterhersteller jedoch darauf konzentriert, Codecs für Multimedia-Signale zu entwickeln und zu verbessern – und nicht für Sprache. Durch das Aufkommen von Smartphones und Tablets wurde die Aufmerksamkeit der Branche in Bezug auf Codecs durch diese Applikationen in Anspruch genommen. Das ist nicht weiter verwunderlich, stellt dies doch ein Anwendungsfeld dar, das im Vergleich zum reinen Sprachmarkt große Stückzahlen bietet. Im Gegensatz zu einem herkömmlichen „Sprachgerät“, beispielsweise einem Telefon, müssen die in tragbaren Geräten verwendeten Codecs normalerweise mehrere Datentypen verarbeiten.

Bild 1: Solange es nicht möglich ist, Geräusche oder Texturen in ihrem ursprünglichen Format zu speichern, bleiben A/D-Wandler unentbehrlich.
Bild 1: Solange es nicht möglich ist, Geräusche oder Texturen in ihrem ursprünglichen Format zu speichern, bleiben A/D-Wandler unentbehrlich. (Bild: CML Microcircuits)

Der lukrative Markt tragbarer Multimedia-Anwendungen hat zu einem Rückgang der Investitionen in traditionellere Sprach-Codecs geführt. OEMs haben daher bei der Entwicklung sprachorientierter Produkte keine große Wahl: Entweder setzen sie einen Multimedia-Codec ein oder sie verwenden für ihre Neuentwicklungen Sprach-Codecs, die vielleicht ein Jahrzehnt oder noch älter sind. Dies führt dazu, dass von den Anforderungen neuer Anwendungen für rein sprachbasierte Produkte wie Mobilfunk, Festnetztelefonie, sprachgesteuerte Geräte oder öffentliche oder private Sprechanlagen keine Notiz genommen wird. Es limitiert auch die Möglichkeit der Hersteller solcher Anwendungen, die Vorteile moderner Wandler zu nutzen, die letztendlich kleinere, stromsparendere und leistungsstärkere Lösungen ermöglichen würden.

Existierende Sprach-Codecs sind oft veraltet

Derzeitige Sprach-Codecs sind meist für die Verbindung mit herkömmlichen Elektretmikrofonen ausgelegt worden. Diese erzeugen ein kleines Analogsignal, das vor dem Codec verstärkt werden muss. Bestehende Sprach-Codecs verfügen möglicherweise nicht über die zur Umsetzung der Sprachdaten notwendigen integrierten A/D- und D/A-Wandler. Dies führt zu mehr externen Bauelementen. Darüber hinaus enthalten die Codecs keinen Leistungsverstärker am Ausgang, was wiederum einen zusätzlichen Schaltkreis erfordert. Und schließlich werden die Komponenten höchstwahrscheinlich in einem veralteten Prozess hergestellt, was darauf hindeutet, dass ein niedriger Stromverbrauch bestimmt kein herausstechendes Merkmal ist. Zusammen betrachtet sind bestehende Lösungen aufgrund dieser Nachteile ungeeignet für moderne Anwendungen, in denen ein Sprach-Codec erforderlich ist, der klein, kostengünstig, hoch integriert und leistungsfähig sein soll – und dazu noch wenig Strom verbrauchen soll.

Der Erfolg tragbarer Multimediageräte hat jedoch nicht nur die Entwicklung von Codecs beeinflusst, sondern auch zu Weiterentwicklungen bei Sensoren auf Basis von mikroelektromechanischen Systemen (MEMS) beigetragen. Die bekanntesten MEMS-Sensoren sind Beschleunigungssensoren und Gyroskope. Sie ermöglichen es tragbaren Geräten, ihre Ausrichtung und andere Bewegungen zu erkennen. Da MEMS-Mikrofone auf der gleichen Technologie basieren, sind sie kleiner und verbrauchen viel weniger Energie als herkömmliche Mikrofone und bieten dabei aber eine höhere Leistung und mehr Funktionen. Dadurch erübrigen sich externe Schaltkreise, und für die Codec-Entwicklung ergibt sich die Möglichkeit, den erzielten technologischen Fortschritt voll auszunutzen.

Ein weiterer Bereich, in dem sich die Technologie in den letzten Jahren weiterentwickelt hat, ist der Klasse-D-Verstärker. Dabei handelt es sich um einen Analog-Verstärker, der in der digitalen Domäne arbeitet. Sein Name erinnert an andere Formen der Verstärkung (beispielsweise Klasse A, AB). Verstärker der Klasse D sind eine ideale Ergänzung zur MEMS-Technologie, waren aber bis vor kurzem noch komplex und daher schwer zu implementieren. Die Effizienzgewinne, die ein Klasse-D-Verstärker bietet, haben die Industrie jedoch ermutigt, diese Entwicklung weiterzuverfolgen. Heute befinden wir uns an einem Punkt, an dem sich Klasse-D-Verstärker immer mehr durchsetzen.

MEMS-Mikrofone verlangen nach neuen Entwicklungen

Angesichts des wachsenden Bedarfs an dedizierten Sprach-Codecs für neue Anwendungen bietet CML Microcircuits nun die Serie CMX655 an. Sie wurde speziell für Sprachanwendungen entwickelt, die auf Standardtelefonie und hochqualitative (HD/High-Definition-) Sprache abzielen. Die Codecs bieten fortschrittliche Funktionen, unter anderem den direkten Anschluss an analoge und digitale MEMS-Mikrofone. Dadurch eignet sich die Serie CMX655 sowohl hinsichtlich ihrer Funktionalität als auch bezüglich der Energieeffizienz besser als Universal-Multimedia-Codecs oder existierende Sprach-Codecs. Sie bietet durch ihre Unterstützung für MEMS-Mikrofone und den integrierten Klasse-D-Ausgangsverstärker, der bis zu 1 W Leistung an einen Lautsprecher liefern kann, eine hohe Audioqualität und ein einfacheres Systemdesign als bestehende Sprach-Codecs.

Bild 2: Blockschaltbild des Codecs CMX655D.
Bild 2: Blockschaltbild des Codecs CMX655D. (Bild: CML Microcircuits)

Das Blockdiagramm in Bild 2 zeigt die für den Anschluss von digitalen MEMS-Mikrofonen geeignete Variante der CMX655-Serie, den CMX655D, und veranschaulicht die wichtigsten Funktionen, unter anderem die digitale Mikrofonschnittstelle, den Klasse-D-Verstärker und den Audiosignalverarbeitungsblock. Der Baustein kann mit zwei digitalen MEMS-Mikrofonen gleichzeitig verbunden werden, was erweiterte Funktionalitäten wie die Rauschunterdrückung ermöglicht.

Normalerweise stellt ein MEMS-Mikrofon einen seriellen Ausgang bereit, der entweder dem PDM-(Pulse-Density-Modulation-) oder dem I2S-Protokoll entspricht. Beide verwenden eine einzelne digitale Leitung zur Kodierung analoger Daten, die über ein Taktsignal synchronisiert sind. Sowohl PDM also auch I2S können von sich aus mehrere Mikrofonsignale auf demselben Bus unterstützen. Dies spiegelt sich im Design des CMX655D dadurch wider, dass er zwei unabhängige, aber vollständig synchronisierte Mikrofonsignale gleichzeitig verarbeiten kann.

Integrierte Signalprozessoren vereinfachen das Design

In einem MEMS-Mikrofon mit digitalem Ausgang findet die anfängliche Wandlung innerhalb des Geräts statt, wobei die Vorverstärkung mit einer PDM-Modulation kombiniert wird. Die Ausgabe wird dann vom Codec verarbeitet, der zunächst den PDM-Bitstrom in Data Frames umwandelt. Dabei kommen Dezimationsfilter zum Einsatz, um die niederfrequenten Daten aus dem hochfrequenten PDM-Signal wiederherzustellen. Dies erfolgt über einen DSP (digitaler Signalprozessor), wobei die verwendeten Softwarealgorithmen komplex, die Kosten des DSPs relativ hoch und der Gesamtstromverbrauch beträchtlich sein können.

Durch die Integration dieser Funktionalität als Hardware-Block in den Codec ergibt sich ein einfacheres Design, ein geringerer Systemstromverbrauch und niedrigere Gesamtkosten. So verbraucht der CMX655D im Mithörmodus nur 300 µA Strom. Die Funktion kommt in modernen Anwendungen immer häufiger zum Einsatz – wenn das System auf ein Ereignis wartet, wie beispielsweise ein Aktivierungswort bei einem digitalen Assistenten oder auf das Geräusch von brechendem Glas bei einem Sicherheitssystem. In diesen Anwendungen kommt es auf einen Betrieb mit geringem Stromverbrauch an.

Durch den hohen Integrationsgrad des CMX655D können OEMs jetzt Produkte mit einer wesentlich einfacheren Signalkette entwickeln, da die meisten Funktionen in einem einzigen Baustein zusammengefasst sind. Er unterstützt Bandbreiten sowohl für die herkömmliche Telefonie (300 Hz bis 3,4 kHz) als auch auch für HD-Sprache (50 Hz bis 7 kHz), was neue Geräte ermöglicht, die Sprache in HD-Qualität bereitstellen können. Dazu zählen Telefone, Betriebsfunk und öffentliche oder private Sprechanlagen. Aufgrund seines geringen Stromverbrauchs eignet sich der CMX655D auch für Sicherheits- und Brandmeldesysteme, sprachgesteuerte Endgeräte und tragbare Anwendungen, die ständig eingeschaltet bleiben müssen. Hier zahlt sich die äußerst niedrige Stromaufnahme des CMX655D aus – ein echtes Unterscheidungsmerkmal im Vergleich zu bestehenden Sprach- oder Multimedia-Codecs.

Mit modernen Sprach-Codecs zu zeitgemäßen Applikationen

Sprach-Codecs wurden von der Halbleiterindustrie lange Zeit stark vernachlässigt, so dass OEMs kaum eine andere Wahl hatten, als entweder einen komplexeren und teureren Multimedia-Codec zu verwenden, einen Sprach-Codec, der die neueste MEMS-Technologie nicht unterstützt, oder die Signalverarbeitung in Software zu implementieren.

Mit der Einführung der HD-Sprach-Codecs der CMX655-Familie haben OEMs nun die Möglichkeit, innovative Technologie in Sprachanwendungen einzusetzen. Mit den Varianten für digitale und analoge MEMS-Mikrofone bieten diese Codecs die Chance, eine neue Generation sprachbasierter Produkte zu entwickeln, die auch die Ansprüche moderner Verbraucher bedient.

* Richard Walton arbeitet als Applications Engineer für digitale Sprachprodukte bei CML Microcircuits.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45906481 / Analog)