Analyse und Annotation von Audio- und Videoinhalten

Extrahieren aussagekräftiger Daten aus audiovisuellen Inhalten

Im Mittelpunkt der Forschungsaktivitäten steht die Entwicklung von Technologien für die umfassende Analyse und Annotation von Audio- und Videoinhalten mittels Signalanalyse und Maschinellem Lernen. Die Extraktion von Metadaten aus Mediendaten liefert die Basis für zahlreiche Anwendungen wie z. B. automatische Verschlagwortung, inhaltsbasierte Suche und Empfehlungssysteme. 

Aktuelles

 

Messe / 13.9.2024

IBC 2024

Zur IBC 2024 in Amsterdam präsentieren wir unsere kombinierte Gesichts- und Sprecheranalyse für die Messung der Medienpräsenz

 

Workshop

WSDB 2024

Am 5. und 6. November 2024 veranstalten wir den 18. Workshop for Digital Broadcasting and Media 2024 in Erfurt.

 

Pressemitteilung / 12.4.2024

Werbemonitoring für SWR Radio

Unser Audio Matching ersetzt manuelle Überprüfung ausgestrahlter Werbespots 

Medieninhalte analysieren und zugänglich machen

Die Nutzung und Verwertung audiovisueller Inhalte steht und fällt mit der Verfügbarkeit aussagekräftiger Metadaten – also von Daten, die Daten beschreiben. Sie liefern die Basis zum Auffinden, Sortieren und Kategorisieren der einzelnen Inhalte, und zur Realisierung von Empfehlungssystemen. Technologien zur automatischen Extraktion von Metadaten sind deshalb entscheidend, um Medieninhalte wirklich zugänglich und nutzbar zu machen.

Multimodale Analyse und Annotation von Mediendaten

Die Entwicklung von Technologien zur automatischen Analyse und Annotation von audiovisuellen Daten erfordert fundierte Kenntnisse in den Bereichen Signalverarbeitung und Maschinelles Lernen sowie ein gutes Verständnis der zugrundeliegenden Anforderungen.

Eine weitere Herausforderung stellen die multimodale Analyse und Orchestrierung dar: Die Extraktion von Metadaten aus Audio-, Video- und Bilddateien umfasst eine Vielzahl von Prozessen, die von der Vorverarbeitung über die Merkmalsextraktion bis hin zur Klassifizierung reichen. Dabei werden unterschiedliche Methoden und Technologien eingesetzt, die flexibel integriert und orchestriert werden müssen. Die Integration von heterogenen Daten aus unterschiedlichen Quellen und Formaten erfordert zudem die Auswahl oder Entwicklung geeigneter Datenmodelle und Metadaten-Standards. Medienarchive zeichnen sich häufig durch große Datenmengen aus, was besondere Anforderungen an die Systemarchitektur und die Effizienz und Optimierung der eingesetzten Algorithmen stellt. 

Darüber hinaus beschäftigen wir uns mit Metadaten-Standards und der Integration und Orchestrierung von Analyse-Komponenten. Wir adressieren zudem Datenschutzfragen und andere Aspekte vertrauenswürdiger KI, um die Bereitstellung von umfassenden Lösungen für konkrete Anwendungsanforderungen zu ermöglichen.

Forschungsbereiche Analyse und automatische Annotation von audiovisuellen Inhalten

 

Musik- und Klanganalyse

Im Mittelpunkt steht die Erkennung musikalischer Merkmale wie Tonhöhe, Rhythmus, Timbre und Genre bis hin zur musikalischen Transkription. Unsere Technologien ermöglichen Musikklassifizierungen, Ähnlichkeitsanalysen zwischen Stücken und die Detektion spezifischer Klangereignisse und akustischer Umgebungen.

 

Videoanalyse

Im Bereich der visuellen Analyse legen wir den Fokus auf die Analyse von Gesichtern in Videos. Mittels Gesichtserkennung und -verfolgung können wir menschliche Gesichter analysieren und identifizieren. Darüber hinaus nutzen wir bildverarbeitende Techniken und maschinelles Lernen, um Tiere in Videos zu erkennen und zu klassifizieren.

Herkunftsanalyse und Matching

Die Erkennung von wiederkehrenden Mustern, Wiederverwendung von Medieninhalten und Transformationsschritten zwischen verschiedenen Inhalten lässt Rückschlüsse über deren Herkunft und Weiterverarbeitung zu.

Multimodale und crossmodale Analyse

Um optimale Ergebnisse zu erzielen, lassen sich die beschriebenen Verfahren in vielen Anwendungsfällen miteinander kombinieren oder mit anderen Analyseverfahren, wie einer Metadaten-Analyse, ergänzen. Eine wichtige Voraussetzung dafür sind geeignete Schnittstellen, ein gemeinsames Datenmodell und die Möglichkeit einer flexiblen Orchestrierung und Konfiguration der verwendeten Analysekomponenten.

Eingesetzt werden die beschriebenen Technologien insbesondere zur Verschlagwortung und Erschließung von A/V-Archiven, für Empfehlungssysteme und Programmanalyse, Content-Tracking und Rechtemanagement, aber auch für die audio-visuelle Biodiversitätsmessung, sowie zur Unterstützung von Desinformationserkennung.

 

Forschungsprojekt

AI4Media

Exzellenzprojekt für KI im Medienbereich – unsere Beiträge: Audioforensik, Audio-Herkunftsanalyse, Musikanalyse, technischer Datenschutz und Empfehlungssysteme

 

Forschungsprojekt

Construction-sAIt

Multimodale KI-basierte Technologien zur automatischen Baustellenüberwachung

 

Forschungsprojekt

SAISBECO

Software für Biodiversitätsmonitoring, die automatisch einzelne Bilder, Video- und Audioaufnahmen nach Sequenzen mit Menschenaffen durchsucht

 

Forschungsprojekt

iMediaCities

Entwicklung einer digitalen Plattform, um das audiovisuelle Kulturerbe der europäischen Städte zugänglich zu machen 

 

Forschungsprojekt

CUBRIK

Framework zur Multimedia-Suche, das Nutzerwissen und -fähigkeiten verwendet, um automatische Analyseverfahren zu optimieren und zu ergänzen

 

Forschungsprojekt

MiCO

Plattform für multimodale und kontextbasierte Analyse, in die unterschiedlichste Analysekomponenten für verschiedene Medientypen integriert werden können

Dienstleistungen

  • Media Analytics: Dienstleistungen zur Analyse und Annotation von Medieninhalten
  • Evaluation (Visual AI Assessment): Technische Evaluation von Verfahren, Komponenten und Systemen im Bereich Audio- und Videoanalyse

Jahr
Year
Titel/Autor:in
Title/Author
Publikationstyp
Publication Type
2024 Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol
Apostolidis, Konstantinos; Abeßer, Jakob; Cuccovillo, Luca; Vasileios, Mezaris
Konferenzbeitrag
Conference Paper
2022 Construction-sAIt: Multi-modal AI-driven technologies for construction site monitoring
Abeßer, Jakob; Loos, Alexander; Sharma, Prachi
Konferenzbeitrag
Conference Paper
2016 A workflow for cross media recommendations based on linked data analysis
Aichroth, P.; Berndl, E.; Weißgerber, T.; Kosch, H.; Köllmer, T.
Konferenzbeitrag
Conference Paper
2015 MICO - Media in Context
Aichroth, P.; Kurz, T.; Stadler, H.; Drewes, F.; Björklund, J.; Schlegel, K.; Berndl, E.; Perez, A.; Bowyer, A.; Volpini, A.; Weigel, C.
Konferenzbeitrag
Conference Paper
2011 Automated detection of errors and quality issues in audio-visual content
Kühhirt, U.; Paduschek, R.; Nowak, S.
Konferenzbeitrag
Conference Paper
2008 Personal television: A crossmodal analysis approach
Dunker, Peter; Gruhne, Matthias; Sturtz, S.
Konferenzbeitrag
Conference Paper
Diese Liste ist ein Auszug aus der Publikationsplattform Fraunhofer-Publica

This list has been generated from the publication platform Fraunhofer-Publica