Besser verstehen
Neue Audioanalyseverfahren des Fraunhofer-Instituts für Digitale Medientechnologie IDMT unterstützen Tonschaffende dabei, die Verständlichkeit von Sprache objektiv einzuschätzen und leisten damit einen wichtigen Beitrag zum optimalen Audio-Mix. Auf der 31. Tonmeistertagung vom 03. bis 06. November 2021 in Düsseldorf stellt der Oldenburger Institutsteil Hör-, Sprach- und Audiotechnologie HSA sein Lösungsportfolio vor.
Bei Medienproduktionen oder im Broadcast-Bereich wird oftmals subjektiv entschieden, ob Sprachanteile für Zuhörende ausreichend gut verständlich sind. Jeder Mensch hat jedoch unterschiedliche Hörpräferenzen. Außerdem kann es sinnvoll sein, je nach Zielgruppe auf den demographischen Wandel und bestehende Höreinschränkungen Rücksicht zu nehmen. Die auf maschinellem Lernen basierende Verfahren des Fraunhofer IDMT bieten eine zuverlässige Entscheidungsgrundlage für Tonschaffende. Die Softwarelösungen reichen von der reinen Bewertung bis hin zur automatischen Anpassung der Verständlichkeit in Echtzeit. Die Expertinnen und Experten des Oldenburger Institutsteils sehen zusätzlich zur Anwendung in Film-, Rundfunk- und Fernsehproduktionen großes Potential in der personalisierbaren Anpassung der Verständlichkeit in Streaming Diensten oder auch live am Set bzw. in der Beschallungstechnik.
Erst die Analyse…
Die Sprachverständlichkeitslösungen des Fraunhofer IDMT basieren stets auf der Analyse des Audiosignals. Mit Verfahren des maschinellen Lernens werden automatisch Signale mit Sprachanteilen erkannt, deren Qualität bzw. Verständlichkeit anschließend automatisch beurteilt wird. In der Praxis dient häufig das Lautstärkeverhältnis zwischen Sprache und Hintergrund (SNR = Signal-to-Noise Ratio) als Bewertungsmaß. Das Team um Dr. Jan Rennies-Hochmuth geht am Institutsteil HSA darüber hinaus. Der Gruppenleiter erklärt: »Mit Algorithmen auf KI-Basis ermitteln wir die tatsächliche Höranstrengung des bereits gemischten Signals (»Listening Effort«), die vom Zuhörenden aufgebracht werden muss. Damit ermöglichen wir eine deutlich zuverlässigere Einschätzung des Mixes und erhöhen die Wahrscheinlichkeit, dass bei einer optimalen Bewertung die Zuhörenden das gesprochene Wort gut verstehen. Denn zwei Signale mit demselben SNR können sich je nach Art der Hintergrundgeräusche oder der Deutlichkeit der Aussprache sehr in ihrer Höranstrengung und Verständlichkeit unterscheiden.«
… dann die Verbesserung
Bei einer schlechten Sprachverständlichkeit müssen Audioprofis entweder die Tonmischung überarbeiten oder die Aufnahmeverhältnisse anpassen. Hier setzt eine weitere Lösung des Fraunhofer IDMT an. Sie ermittelt notwendige Anpassungen für eine bessere Sprachverständlichkeit, gibt entsprechende Hinweise und führt die Verbesserungen bei Bedarf sogar automatisch durch. Dabei kommen eigens entwickelte Algorithmen zur Quellentrennung zum Einsatz. Dialoge werden auch bei komplexer Hintergrundakustik, wie Musik oder Soundeffekten, isoliert und hervorgehoben. Da dies bereits mit minimaler Verzögerung bei der Signalverarbeitung umsetzbar ist, können die Lösungen neben der Vorverarbeitung auch im Sendebetrieb oder in Endgeräten beim Hörenden eingesetzt werden. Dort kann eine weitere Technologie des Oldenburger Institutsteils den Hörenden einen Vorteil bieten. Die adaptive Signalverarbeitung bezieht laute Umgebungsgeräusche vor Ort ein und passt das Audiosignal entsprechend für eine optimale Verständlichkeit an, ohne dass dafür die Lautstärke erhöht werden muss.
Welcher Sprecher ist wichtig?
In Audiomischungen sind verschiedene Sprecher zur gleichen Zeit keine Seltenheit – doch manchmal beeinträchtigt dies die Sprachverständlichkeit. Auch für diesen Fall hat das Fraunhofer IDMT eine Lösung im Gepäck, die natürlich auch am Messestand der Tonmeistertagung demonstriert wird. Die zuverlässige Erkennung und Trennung verschiedener Sprecher wird durch sogenanntes Voice Filtering ermöglicht, das auf Basis weniger Sekunden den akustischen Fingerabdruck eines Sprechers erzeugt, um diesen später aus einem Mix aus mehreren Sprechern zu extrahieren.
Das erwartet Sie am Messestand des Fraunhofer IDMT auf der TMT31
Die Tonmeistertagung ist eine Messe für Audio-Profis, die im Turnus von zwei Jahren aktuelle Trends und Entwicklungen der Branche aufzeigt. Besuchen Sie vom 03. – 06.11.2021 den Stand des Fraunhofer IDMT und lassen Sie sich die genannten Software-Lösungen zum Thema »Sprachverständlichkeit« live demonstrieren. Ihre Ansprechpersonen vor Ort erläutern gerne die Möglichkeit einer Integration in Ihre Anwendung oder Ihr Produkt. Hannah Baumgartner, Projektleiterin am Oldenburger Institutsteil sowie Vorstandsmitglied im Verband Deutscher Tonmeister (VDT), kuratiert und moderiert zudem eine Session zum Thema »Sprachverständlichkeit in Rundfunk und Film« am 05.11.2021 von 10:00 – 12:40 Uhr.
Hör-, Sprach- und Audiotechnologie HSA am Fraunhofer-Institut für Digitale Medientechnologie IDMT in Oldenburg
Der im Jahre 2008 als Projektgruppe gegründete Institutsteil Hör-, Sprach- und Audiotechnologie HSA des Fraunhofer-Instituts für Digitale Medientechnologie IDMT steht für marktnahe Forschung und Entwicklung mit Schwerpunkten auf
- Sprach- und Ereigniserkennung
- Klangqualität und Sprachverständlichkeit sowie
- Mobile Neurotechnologie und Systeme für eine vernetzte Gesundheitsversorgung.
Mit eigener Kompetenz in der Entwicklung von Hard- und Softwaresystemen für Audiosystemtechnologie und Signalverbesserung setzen die über 90 Mitarbeitenden am Standort Oldenburg wissenschaftliche Erkenntnisse in kundengerechte, praxisnahe Lösungen um.
Über wissenschaftliche Kooperationen ist der Institutsteil eng mit der Carl von Ossietzky Universität, der Jade Hochschule, der Hochschule Emden/Leer und weiteren Einrichtungen der Hörforschung verbunden. Das Fraunhofer IDMT ist Partner im Exzellenzcluster »Hearing4all«.
Letzte Änderung: