Das TIB AV-Portal 2024: Fortschritte in Bereitstellung, mobiler Nutzung und Datensouveränität
read this article in English
Das TIB AV-Portal ist eine offene und kostenfreie Plattform für wissenschaftliche Videos, die eine Vielzahl von Services für den fachgerechten Einsatz audiovisueller Medien in der Wissenschaft bereitstellt. Dazu zählen etwa die dauerhafte Zitierbarkeit, die Langzeitarchivierung und eine zielgenaue Suche in den Videoinhalten. Das werbefreie Portal bietet ein sicheres und datenschutzkonformes Umfeld, das speziell auf die Anforderungen der akademischen Gemeinschaft zugeschnitten ist. Seit 2020 geben wir jährlich einen Überblick über die Weiterentwicklungen und neuen Funktionen des TIB AV-Portals. Hier folgt ein Rückblick auf die Innovationen und Highlights in 2024.
Adaptives Streaming und Hosting an der TIB
MPEG-DASH und HLS sind verbreitete Streaming-Protokolle, die eine effiziente Bereitstellung von Videoinhalten über das Internet ermöglichen. Beide Technologien zerlegen Videodateien in kleinere Segmente, die abhängig von der verfügbaren Bandbreite und der Leistung des Endgeräts in unterschiedlicher Qualität gestreamt werden. Dies sorgt für ein flüssiges Videoerlebnis und ist ein essenzieller Bestandteil moderner Videoportale.
Über das gesamte Jahr 2024 haben wir zunächst in der Entwicklungsumgebung MPEG-DASH- und HLS-Derivate erstellt und sowohl das Frontend als auch das Backend darauf vorbereitet. Am 8. Januar 2025 wurde das adaptive Streaming erfolgreich live geschaltet. Die Auslieferung der neuen Derivate erfolgt nicht mehr über das bisher genutzte externe Media Asset Management, sondern über TIB-eigene Server. Dieser Schritt stärkt unsere Datensouveränität und setzt die Strategie fort, die wir bereits in den Jahren 2019 und 2020 mit der Migration von Frontend und Backend in die TIB-Infrastruktur eingeleitet haben (siehe Blogartikel aus 2020).
Im Produktivsystem werden aktuell für die neu veröffentlichten Videos adaptive Derivate erzeugt.
Server-Side-Rendering
Wir haben für das AV-Portal Server-Side-Rendering (SSR) mit Nuxt.js eingeführt, einem auf Vue.js basierenden Framework, das die Entwicklung moderner Webanwendungen erheblich vereinfacht. Durch SSR wird der HTML-Inhalt der Seiten direkt auf dem Server gerendert und nicht erst im Browser der Nutzerin erstellt. Dies führt zu schnelleren Ladezeiten, verbessert die Suchmaschinenoptimierung und sorgt für ein insgesamt reibungsloseres Nutzererlebnis, insbesondere in Umgebungen mit eingeschränkter Bandbreite.
Wissenschaftliche Audios im TIB AV-Portal
Backend und Frontend des AV-Portals wurden erweitert, sodass auch reine Audiodateien wie MP3 und WAV unterstützt werden. Neben wissenschaftlichen Videos begrüßen wir nun auch wissenschaftliche Audios in unserem Bestand, von denen bereits rund 50 Titel verfügbar sind. Die Audiodateien können mit einem Standbild ergänzt werden, und wie bei den Videos werden zugehörige Untertitel angezeigt.
Im Zuge dieser Erweiterung haben wir unser Wording an vielen Stellen angepasst und entweder allgemeiner formuliert oder zwischen Audio und Video unterschieden.
Transkription und Übersetzung gesprochener Inhalte
Seit Juli 2023 nutzen wir die KI-gestützte Spracherkennungssoftware Whisper von OpenAI, um die Originalsprache der Videos zu transkribieren. Die Transkripte dienen sowohl der Untertitelung als auch der inhaltsbasierten Suche (siehe Blogartikel aus 2023). 2024 haben wir auch für ältere Videos im Bestand, die bislang nicht transkribiert waren, Sprachtranskripte erstellt.
Im März 2024 haben wir die Übersetzungsfunktion von Whisper integriert, mit der alle nicht-englisch- sprachigen Videos ins Englische übersetzt werden. Damit können englischsprachige Nutzer sämtliche Videos – ob auf Deutsch, Ukrainisch, Spanisch, Französisch, Japanisch oder in anderen Sprachen – dank Untertiteln verstehen und über die Transkripte gezielt durchsuchen.
Effizientere Spracherkennung
Anfang 2024 haben wir Faster-Whisper installiert, eine optimierte und beschleunigte Version von Whisper. Diese Version ist viermal schneller als Whisper, benötigt deutlich weniger Speicher und verfügt über einen automatischen Stillefilter. Dadurch können wir die Transkription unserer Videos erheblich effizienter gestalten. Der Stillefilter trägt außerdem dazu bei, einen Großteil der für KI typischen „Halluzinationen“ zu minimieren.
Automatische Abstract-Generierung
Ein erheblicher Teil der Videos im AV-Portal wurde ohne Abstract von den Anbietern bereitgestellt. Abstracts sind jedoch essenziell, da sie eine kompakte Inhaltszusammenfassung liefern und die Nutzerin dabei unterstützen, schnell relevante Inhalte zu identifizieren. Um diesen Bedarf zu decken, haben wir mit dem Large-Language-Modell (LLM) Llama experimentiert und Abstracts basierend auf den durch Whisper generierten Sprachtranskripten erstellt. Die ersten Ergebnisse waren qualitativ vielversprechend.
Allerdings zeigte sich, dass selbst kleinere LLM-Modelle so hohe Speicheranforderungen haben, dass unsere CPU an ihre Grenzen stößt. Langfristig spekulieren wir auf eine zentrale GPU-Dienstleistung, die von mehreren Teams an der TIB genutzt werden kann. Dadurch lassen sich rechenintensive Aufgaben wie die Abstract-Generierung effizienter bewältigen und die vorhandene Infrastruktur optimal auslasten.
Demonstrator des Scrum-Teams zur Abstract-ErzeugungStella: Evaluierung und Verbesserung der Videoempfehlungen
Wir sind Praxispartner in dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt STELLA, einer Plattform für Living-Lab-Experimente mit Ranking- und Empfehlungssystemen. Das Scrum-Team des AV-Portals plant, das Recommender-System für Videoempfehlungen mithilfe von STELLA zu evaluieren und auf Basis von realem Nutzerfeedback zu verbessern.
Lokal haben wir das STELLA-System bereits erfolgreich implementiert und getestet. Der erste von GESIS trainierte Recommender-Algorithmus wird voraussichtlich im ersten Quartal 2025 bereitgestellt und dann von uns bewertet.
Optimierung der mobilen Nutzung
Die mobile Nutzung hat mit der Verbreitung von Smartphones und mobilem Internet in den letzten anderthalb Jahrzehnten stark an Bedeutung gewonnen und ist heute ein fester Bestandteil des digitalen Alltags. Um unser Videoportal noch benutzerfreundlicher zu gestalten, nehmen wir kontinuierlich Anpassungen für die mobile Nutzung vor.
Ein besonderer Fokus lag dabei auf der Überarbeitung des Players: Die Play-/Pause-Funktion lässt sich nun durch einfaches Antippen des Videos aktivieren. Um Irritationen zu vermeiden, wird die Kontrollleiste erst durch einen Touch auf das Video sichtbar, während ein weiterer Touch auf ein Element der Leiste die gewünschte Funktion ausführt. Zudem wurden die Zeitleisten-Vorschaubilder für eine bessere Darstellung angepasst.
Auf kleinen Geräten wirkte die Player-Kontrollleiste durch die Vielzahl an Elementen überladen. Daher haben wir die Anordnung und Bedienbarkeit der Kontrollelemente neu strukturiert, so dass die Kontrollleiste „aufgeräumter“ wirkt und in der mobilen Nutzung besser zu bedienen ist.
Mobile Ansicht eines VideosHighlighting der Treffer in Transkript und Segmentleiste
Sprachtranskripte lassen sich gezielt nach Begriffen durchsuchen. Gefundene Treffer werden im Transkript hervorgehoben, und die exakten Fundstellen in der Segmentleiste rot markiert. So kann die Nutzerin direkt zu den relevanten Stellen navigieren, was die gezielte Suche erleichtert.
Highlighting der Treffer in Transkript und SegmentleisteOptimierungen für das Teilen von Videos
Der iFrame des eingebetteten Players ermöglicht es, Videos des AV-Portals auf externen Webseiten einzubinden. Dieses Element findet sich im Teilen-Dialog auf der Detailseite des Videos. Wir haben den iFrame responsiver gemacht, damit sich der eingebettete Player dynamisch an die Größe des Browserfensters anpasst.
Dadurch bleibt die Darstellung des Videos sowohl auf Desktop-Geräten als auch auf mobilen Geräten einheitlich und benutzerfreundlich. Zusätzlich haben wir im Teilen-Dialog eine Vorschaufunktion integriert, mit der man sich den eingebetteten Player mit fester bzw. responsiver Größe vorab anschauen kann.
Teilen-Dialog mit Vorschau des eingebetteten PlayersAusblick auf 2025
2025 werden wir schrittweise adaptive Derivate für unseren gesamten Videobestand erstellen und diese auf Servern der TIB hosten. Gleichzeitig planen wir, ältere, qualitativ minderwertige automatische Transkripte im Bestand durch hochwertige Transkripte von Whisper zu ersetzen.
Darüber hinaus werden wir mit OpenClip Bild-Vektoren für alle Frames unserer Videos im Entwicklungssystem erzeugen und in einer Datenbank speichern. Dies eröffnet die Möglichkeit, Zero-Shot-Suchen im AV-Portal zu realisieren.
Dadurch könnte das Portal Suchanfragen in natürlicher Sprache verarbeiten und relevante Videoszenen direkt anhand ihrer visuellen Inhalte identifizieren, ohne dass eine manuelle Verschlagwortung oder ein zusätzliches Training des Modells erforderlich ist. Dies liegt daran, dass OpenClip bereits vortrainiert ist und generalisierte Zero-Shot-Fähigkeiten besitzt, die eine breite Palette an Konzepten abdecken. Wie und an welchen Stellen OpenClip im AV-Portal genutzt wird, befindet sich aber noch in der Planungs- und Abstimmungsphase.
[#]LizenzCCBY40INT #TIBAVPortal #AVMedien #NichtTextuelleMaterialien #wissenschaftlicheVideos
=> View attached media | View attached media | View attached media
=> More informations about this toot | More toots from strobels@blog.tib.eu
text/gemini
This content has been proxied by September (3851b).