Analyse und Annotation von Audio- und Videoinhalten

Extrahieren aussagekräftiger Daten aus audiovisuellen Inhalten

Im Mittelpunkt der Forschungsaktivitäten steht die Entwicklung von Technologien für die umfassende Analyse und Annotation von Audio- und Videoinhalten mittels Signalanalyse und Maschinellem Lernen. Die Extraktion von Metadaten aus Mediendaten liefert die Basis für zahlreiche Anwendungen wie z. B. automatische Verschlagwortung, inhaltsbasierte Suche und Empfehlungssysteme. 

Aktuelles

 

Event / 11.3.2025

Data Technology Seminar 2025

Vortrag "Cross-modal content analysis: finding, identifying and analyzing people in media" zum EBU event für Innovatoren in KI, Data und Medientechnologie.

 

Artikel / 21.2.2025

InsightPersona auf heise online

Artikel »KI-Recherche-Tool: InsightPersona für genauere Politik- und Medienanalysen« auf heise online

 

Workshop

WSDB 2024

Am 5. und 6. November 2024 fand der 18. Workshop for Digital Broadcasting and Media 2024 in Erfurt statt.

Forschung

Medieninhalte analysieren und zugänglich machen

Die Nutzung und Verwertung audiovisueller Inhalte steht und fällt mit der Verfügbarkeit aussagekräftiger Metadaten – also von Daten, die Daten beschreiben. Sie liefern die Basis zum Auffinden, Sortieren und Kategorisieren der einzelnen Inhalte, und zur Realisierung von Empfehlungssystemen. Technologien zur automatischen Extraktion von Metadaten sind deshalb entscheidend, um Medieninhalte wirklich zugänglich und nutzbar zu machen.

Multimodale Analyse und Annotation von Mediendaten

Die Entwicklung von Technologien zur automatischen Analyse und Annotation von audiovisuellen Daten erfordert fundierte Kenntnisse in den Bereichen Signalverarbeitung und Maschinelles Lernen sowie ein gutes Verständnis der zugrundeliegenden Anforderungen.

Eine weitere Herausforderung stellen die multimodale Analyse und Orchestrierung dar: Die Extraktion von Metadaten aus Audio-, Video- und Bilddateien umfasst eine Vielzahl von Prozessen, die von der Vorverarbeitung über die Merkmalsextraktion bis hin zur Klassifizierung reichen. Dabei werden unterschiedliche Methoden und Technologien eingesetzt, die flexibel integriert und orchestriert werden müssen. Die Integration von heterogenen Daten aus unterschiedlichen Quellen und Formaten erfordert zudem die Auswahl oder Entwicklung geeigneter Datenmodelle und Metadaten-Standards. Medienarchive zeichnen sich häufig durch große Datenmengen aus, was besondere Anforderungen an die Systemarchitektur und die Effizienz und Optimierung der eingesetzten Algorithmen stellt. 

Darüber hinaus beschäftigen wir uns mit Metadaten-Standards und der Integration und Orchestrierung von Analyse-Komponenten. Wir adressieren zudem Datenschutzfragen und andere Aspekte vertrauenswürdiger KI, um die Bereitstellung von umfassenden Lösungen für konkrete Anwendungsanforderungen zu ermöglichen.

Forschungsbereiche Analyse und automatische Annotation von audiovisuellen Inhalten

 

Musik- und Klanganalyse

Im Mittelpunkt steht die Erkennung musikalischer Merkmale wie Tonhöhe, Rhythmus, Timbre und Genre bis hin zur musikalischen Transkription. Unsere Technologien ermöglichen Musikklassifizierungen, Ähnlichkeitsanalysen zwischen Stücken und die Detektion spezifischer Klangereignisse und akustischer Umgebungen.

 

Videoanalyse

Im Bereich der visuellen Analyse legen wir den Fokus auf die Analyse von Gesichtern in Videos. Mittels Gesichtserkennung und -verfolgung können wir menschliche Gesichter analysieren und identifizieren. Darüber hinaus nutzen wir bildverarbeitende Techniken und maschinelles Lernen, um Tiere in Videos zu erkennen und zu klassifizieren.

Herkunftsanalyse und Matching

Die Erkennung von wiederkehrenden Mustern, Wiederverwendung von Medieninhalten und Transformationsschritten zwischen verschiedenen Inhalten lässt Rückschlüsse über deren Herkunft und Weiterverarbeitung zu.

Multimodale und crossmodale Analyse

Um optimale Ergebnisse zu erzielen, lassen sich die beschriebenen Verfahren in vielen Anwendungsfällen miteinander kombinieren oder mit anderen Analyseverfahren, wie einer Metadaten-Analyse, ergänzen. Eine wichtige Voraussetzung dafür sind geeignete Schnittstellen, ein gemeinsames Datenmodell und die Möglichkeit einer flexiblen Orchestrierung und Konfiguration der verwendeten Analysekomponenten.

Eingesetzt werden die beschriebenen Technologien insbesondere zur Verschlagwortung und Erschließung von A/V-Archiven, für Empfehlungssysteme und Programmanalyse, Content-Tracking und Rechtemanagement, aber auch für die audio-visuelle Biodiversitätsmessung, sowie zur Unterstützung von Desinformationserkennung.