Sprecherinnen- und Sprecherauthentifizierung ist überall dort wichtig, wo Menschen sprechen und eindeutig erkannt werden sollen. Das kann sowohl bei der Mensch-Maschine-Interaktion der Fall sein als auch bei Gesprächen zwischen mehreren Personen.
Nur wenige Sekunden Audiomaterial reichen aus, um mit Hilfe intelligenter Algorithmen eine sprechende Person zu identifizieren. Das heißt aktuelle Daten werden mit bereits bekannten vergleichen, um zu bestätigen oder falsifizieren, dass die Daten ähnlich sind. So lässt sich beispielsweise herausfinden, ob in verschiedenen Audioaufnahmen dieselbe Person spricht.
Wir können aber durch die Unterscheidung der einzelnen Sprechenden nicht nur einschätzen, wer gerade in der Aufnahme spricht. Sondern auch, wo und wie viele Personen in der gesamten Aufnahme zu hören sind. Zusätzlich identifizieren wir die gesprochene Sprache in der Audiodatei.
In der Produktion
Wenn in Produktionsumgebungen identifiziert werden soll, welche Person gerade spricht, kommen die intelligenten Algorithmen des Fraunhofer IDMT aus Oldenburg zum Einsatz. Gerade dann, wenn bestimmte Maschinen nur von autorisierten Nutzenden bedient werden dürfen, ist es wichtig zu wissen, wer den Befehl gerade spricht. Sollte die Maschine erkennen, dass die Bedienerin oder der Bediener nicht autorisiert ist, wird sie nicht angesteuert.
Um weiteren Personen Zugriff zu ermöglichen, kann innerhalb weniger Sekunden mit unserer Sprecherinnen- und Sprechererkennung eine neue SpeakerID angelegt werden. Im Anschluss ist die neue Bedienerin oder der neue Bediener befähigt, ebenfalls Sprachbefehle an der Maschine auszuführen. In unserem Industriearbeitskreis »Audiotechnologie für die intelligente Produktion AiP« arbeiten wir zusammen mit den Industriepartnern an den Einsatzmöglichkeiten dieser Technologie in der Praxis.
Broadcasting
Wenn einzelne Sprechende identifiziert werden können, ist das auch eine Möglichkeit, um beispielsweise Medienarchive gezielt zu durchsuchen. Spricht auf mehreren Aufnahmen dieselbe Person, kann das herausgefiltert werden. Es ist eine möglich zu erkennen, wie viel Redeanteil welche Person hat, um hiernach gezielt zu filtern. Sucht man nur nach Inhalten in einer bestimmten Fremdsprache, kann auch das dank der intelligenten Algorithmen extrahiert werden.
In sicherheitsrelevanten Bereichen
Über die Stimme lässt sich eine einzelne Person identifizieren, ähnlich wie bei einem Fingerabdruck. In Kombination mit anderen biometrischen Identifikationsmerkmalen, etwa der Gesichtserkennung, kann die Sprechererkennung in sicherheitsrelevanten Bereichen eingesetzt werden. Beispielsweise lässt sich im Bereich der Forensik damit auf Tonaufnahmen die Identität einer Sprecherin oder eines Sprechers feststellen.
In der Gesundheitswirtschaft
Gruppenübergreifend setzen wir am Fraunhofer IDMT auf vielfältige Einsatzmöglichkeiten unserer Technologien. Die Sprecherinnen- und Sprecherauthentifizierung lässt sich auch für das Monitoring von Sprech- und Stimmstörungen verwenden. Zugleich kann sie für die Überprüfung des Fortschritts bei logopädischen Maßnahmen verwendet werden.