Zuverlässige Unterscheidung von Sprechenden in wenigen Sekunden

In Audiomischungen sind verschiedene Sprecherinnen und Sprecher zur gleichen Zeit keine Seltenheit – doch manchmal beeinträchtigt dies die Sprachverständlichkeit. Das Fraunhofer IDMT in Oldenburg bietet eine Lösung dafür. Die zuverlässige Erkennung und Trennung verschiedener Sprecherinnen und Sprecher wird durch sogenanntes Voice Filtering ermöglicht, das innerhalb weniger Sekunden den akustischen Fingerabdruck eines Sprechenden erzeugt, um diesen später aus einem Mix mehrerer Sprecherinnen und Sprecher zu extrahieren. Auf Basis unserer Technologie zur Sprecherinnen- und Sprecherauthentifizierung (Link einfügen) werden die verschiedenen Audiosignale aus dem Audiomix herausgefiltert, um eine Trennung der Sprechenden zu ermöglichen.

Voice Filtering kann ebenfalls dazu verwendet werden Hintergrund- oder Störgeräusche aus einem Mix zu entfernen. Dadurch erhöht sich sowohl die Sprachverständlichkeit als auch die Klangqualität.

Voice Filtering bei Hörminderung

Gerade Schwerhörende können in einer Gruppe Probleme haben, sich akustisch auf eine Person zu konzentrieren. Das wird auch als Cocktail-Party-Effekt bezeichnet. Hier können die intelligenten Algorithmen der Voice-Filter-Technologie dabei unterstützen eine Person aus dem komplexen Gemisch herauszufiltern und so die Sprachverständlichkeit zu verbessern.

Voice Filtering in der Telekommunikation

Die Technologie unterstützt nicht zur Schwerhörende bei der Fokussierung auf eine bestimmte sprechende Person, sondern kommt auch in der Telekommunikation oder bei der Übertragung von Sprache über das Internet, also Voice over IP (kurz: VoIP), zum Einsatz. Durch die Minimierung der Störgeräusche erhöht sich die Verständlichkeit der gesprochenen Sprache, etwa bei Online-Meetings, Videokonferenzen oder in Call Centern.

In der Produktion ist das Voice Filtering hilfreich, damit nur eine bestimmte Person einem System Sprachbefehle erteilen kann. Auch hier werden Umgebungsgeräusche sowie weitere Sprechende herausgefiltert werden. Insbesondere in lauten Umgebungen ist das von Vorteil, um beispielsweise die Genauigkeit der Spracherkennung zu erhöhen. Die Voice-Filtering-Technologie kann auch im Sicherheitsbereich zum Einsatz kommen.