Eine gute Sprachverständlichkeit ist bei Medienproduktionen, im Broadcasting oder bei Streaming-Dienstleistungen von fundamentaler Bedeutung. Dabei gilt: Jeder Mensch hört anders gut. Aus diesem Grund ist es für Tonschaffende oftmals eine Herausforderung, objektiv zu bewerten, ob Sprache für Zuhörende ausreichend gut verständlich ist.
Zuerst analysieren, dann verbessern
Die Expertinnen und Experten des Fraunhofer-Instituts für Digitale Medientechnologie IDMT in Oldenburg entwickeln Softwarelösungen, welche unter anderem die Verständlichkeit von Sprache in Echtzeit analysieren und bewerten. Auf Wunsch geben intelligente Algorithmen Hinweise für den perfekten Audio-Mix oder verbessern die Sprachverständlichkeit automatisch. Das generiert Mehrwerte in unterschiedlichen Branchen, wie beispielsweise Rundfunk und Fernsehen, bei Content Providern sowie in den Bereichen Telekommunikation, Consumer Electronics und Sicherheit.
Intelligente Bewertung und Trennung von Dialog und Atmo
Mit Verfahren des maschinellen Lernens identifizieren die Lösungen des Fraunhofer IDMT automatisch Audiosignale, in denen Sprache vorkommt. Die Besonderheit besteht darin, dass bei ihrer anschließenden Qualitätsbewertung nicht, wie häufig üblich, das Lautstärkeverhältnis zwischen Sprache und Hintergrund (SNR), sondern die Verständlichkeit als Bewertungsmaß herangezogen wird. Dazu wird mittels künstlicher Intelligenz die Höranstrengung (»Listening Effort«) des bereits gemischten Signals ermittelt. Bei Bedarf kommen eigens entwickelte Algorithmen zur Quellentrennung zum Einsatz, wodurch Dialoge auch bei komplexer Hintergrundakustik, zum Beispiel mit Musik und Soundeffekten, hervorgehoben werden können. Da dies bereits mit minimaler Verzögerung bei der Signalverarbeitung umgesetzt werden kann, können die Lösungen neben der Vorverarbeitung auch im Sendebetrieb oder in Endgeräten beim Hörenden eingesetzt werden. Auch ein Einsatz direkt am Set oder im Bereich der Beschallungstechnik ist denkbar. Bei Konferenz- oder Telefonielösungen kann das Sprachsignal durch adaptive Signalverarbeitung automatisch an Umgebungslärm angepasst werden. Darüber hinaus setzt das Fraunhofer IDMT einen weiteren Entwicklungsschwerpunkt auf Technologien zum Erkennen und Hervorheben einzelner Sprecher (Voice Filtering).