Forschungsprojekt MANGAN

Intelligente Metadatenextraktion und intuitive Suche bei gesprochenen Audioinhalten

Voraussetzungen

Das Angebot gesprochener Audioinhalte steigt rasant: Hörbücher, Hörspiele aber auch Podcasts, Bildungsinhalte Radioreportagen, gesprochene Inhalte von Printmedien und nicht zuletzt filmische Inhalte von der Talkshow über Dokus bis hin zu Spielfilmen basieren auf gesprochenen Audioinhalten.

Herausforderung

Die Inhalte müssen den Nutzern zugänglich gemacht und vor allem von diesen gefunden werden. Dabei ist eine einfache und präzise Extraktion von Metadaten notwendig, um die Inhalte effektiv und effizient in die Wertschöpfungskette integrieren zu können. Auf der anderen Seite spielen leistungsfähige und intuitive Suchansätze eine immer größere Rolle - insbesondere vor dem Hintergrund einer zunehmenden Individualisierung des Konsums.

Ziel des Vorhabens

Die Ziele des Vorhabens sind zwei zentrale, auf künstlicher Intelligenz (KI) basierende, Innovationsschritte im Bereich gesprochener Audioinhalte:

Es werden Verfahren zur automatisierten Metadatenextraktion entwickelt und angewendet, bei der z. B. der Inhalt einer gesprochenen Audiodatei, aber auch andere Aspekte, wie die Stimmlage- und -alter der Sprecher:innen, indiziert werden.
Auf Basis dieser Metadaten wird eine intuitive Suche entwickelt und erprobt. Nutzenden soll ein zielgerichteter, individueller Zugang zu gesprochenen Inhalten auf Basis des MIC-Profils (Mood, Intent, Context) - also eines Suchverfahrens, das auf Stimmungen, Absichten und Zusammenhängen basiert - ermöglicht werden. Das Vorhaben macht Audioinhalte unmittelbar attraktiver und sichtbarer und bildet so einen wichtigen Baustein für die Unabhängigkeit kleinerer Akteure in einem von internationalen IT-Konzernen dominierten Markt - und hat positive Strahlkraft für die gesamte Branche.

Anwendungsbeispiel

Eine Nutzerin sucht unbestimmt nach einem Krimi, der nicht zu aufregend ist. Noch muss sie sich mühsam durch Kataloge-Bäume hangeln. Mit der KI-basierten MIC-Suche kann sie über Schieberegler (siehe Grafik) intuitiv suchen und bekommt so den für sie bestmöglichen Titel vorgeschlagen.

Konsortium und assoziierte Partner:innen

Das Konsortium umfasst drei Partner aus der Leipziger IT-, Medien- und Kreativwirtschaft, welche die Schwerpunkte Anwendung (BUCHFUNK), wissenschaftlich-technische Fragestellungen (URZ der Universität Leipzig) sowie Implementierung (ifabrik) abdecken. Als assoziierte Partner unterstützen der Argon Verlag, das Streamingportal BookBeat, der Contentaggregator Zebralution, das Deutsche Zentrum für barrierefreies Lesen (DZB), die Buchhandelsgruppe Thalia sowie die MVB als Wirtschaftstochter des Börsenvereins des Deutschen Buchhandels das Konsortium bei der Anforderungserhebung, Evaluation und Verbreitung der Ergebnisse.

Gefördert vom BMBF

Das Projekt wird von 2022 bis 2025 drei Jahre lang vom Bundesministerium für Bildung und Forschung gefördert.