Echtzeit-Optimierung von Sprachverständlichkeit
Die Sprachwiedergabe von Kommunikationssystemen ist oft von Hall und Umgebungsgeräuschen überlagert. Mit AdaptDRC bietet das Fraunhofer IDMT eine patentierte Softwarelösung, die die Sprachverständlichkeit auch in Hörsituationen mit unbekannten, variablen Störgeräuschen automatisch und in Echtzeit verbessert.
Near-end listening enhancement – Signalanpassung bei Störgeräuschen auf Empfängerseite
Über ein Mikrofon – z.B. auf der Rückseite von Mobiltelefonen –, wird die akustische Situation auf Empfängerseite erfasst und die Verständlichkeit des Sprachsignals in der aktuellen Hörsituation analysiert. Anhand dieser Analyse optimieren modell-basierte Signalverarbeitungsverfahren die Sprachverständlichkeit in Echtzeit. Durch Berücksichtigung aktueller Erkenntnisse aus der Hörforschung erreicht AdaptDRC auch bei schmalbandigen Signalen und für Menschen mit Hörbeeinträchtigung einen hohen Hörkomfort.
Hörmodell-basierte Signalverarbeitung
AdaptDRC nutzt Modelle der menschlichen Hörwahrnehmung, um die Verständlichkeit eines Sprachsignals zu bewerten und zu verbessern. Der Algorithmus schätzt dabei kontinuierlich die aktuelle Verständlichkeit basierend auf dem Sprachverständlichkeitsindex SII. Sinkt die Verständlichkeit, z.B. durch zunehmende Störgeräusche, wird die Signalverarbeitung aktiviert. Gezielt werden einzelne Frequenzbänder verstärkt und die Dynamik des Signals komprimiert. So kann auch ohne Anheben der Lautstärke eine Verbesserung der Sprachverständlichkeit von 30-80 Prozent erreicht werden. Wissenschaftliche Studien mit normal- und schwerhörenden Probanden haben gezeigt, dass auch Menschen mit Hörminderung von der Signalverarbeitung profitieren und Sprachsignale besser und mit weniger Höranstrengung verstehen. Zum Hörkomfort und einer natürlich klingenden Sprachwiedergabe trägt bei, dass das Signal nur dann bearbeitet wird, wenn die Sprachverständlichkeit beeinträchtigt ist.
Anwendungsspezifische Anpassung
Mit AdaptDRC ist eine Verbesserung der Sprachverständlichkeit in unterschiedlichen technischen Systemen und mit unterschiedlichen Bandbreiten möglich – von herkömmlicher Telefonübertragung bis zu Bandbreiten zu voller Bandbreite bei hochwertigen Multimediaanwendungen. Aufgrund der eingesetzten Dynamikkompression ist eine Verbesserung der Sprachverständlichkeit auch in schwierigen akustischen Umgebungen möglich. Der Algorithmus liegt als plattform-unabängige C-Implementierung vor, und kann an anwendungsspezifische Szenarien und technische Bedingungen angepasst werden.