Unser Kunde, das Deutsche Rundfunkarchiv (DRA), möchte die im Archiv vorhandenen Videos automatisiert erfassen und analysieren. Dabei steht die Vor- und Abspannerkennung im Fokus.
Ziel des Projekts war alle im Vor- und Abspann ablaufenden Text-Inhalte durch Video-KI und OCR automatisiert zu erkennen und mithilfe eines Large-Language-Modells in ein vorbestimmtes Standardformat zu überführen.
Die Herausforderungen:
Durch die Mischung aus Datenschutz-Voraussetzungen, schwierigen Voraussetzungen für OCR und keiner Möglichkeit die Videos mit Cloud Produkten auszulesen, haben wir verschiedenste Architekturen und Szenarien konzipiert, wie das System aufgebaut werden kann.
Tooling
Unser Tooling hat sich konstant weiterentwickelt, um sich an die Anforderungen des Projektes anzupassen. In der finalen Version haben wir mit KerasOCR (Pre- sowie Postprocessing), OpenAI on Azure, LangChain, JSON sowie selbst entwickelten Python Schnittstellen und einer Anbindung an On-Prem Server gearbeitet.
Projekt-Ergebnisse
In der ersten Projektphase konnten wir eine hohe Erkennungsquote der Vor- und Abspänne ermöglichen. Die Schwachstelle des Systems war, dass die OCR-Algorithmen nicht präzise genug mit altdeutschen Schriftbildern umgingen. Gleichzeitig ist es nicht leicht den generierten Text einer generativen KI auf ein festes Schema zu beschränken. Nach Abschluss der ersten Projekt-Phase konnten wir 80-90% (je nach Bewertungsansatz) der Videos automatisiert korrekt erkennen. Das Zwischenfazit war hier also, dass es ein nützliches Assistenzsystem ist, man jedoch noch nicht voll automatisiert alle Videos ohne menschliches Zutun analysieren kann. Hier setzt nun eine zweite Projektphase an, um die OCR zu verbessern und die Ergebnisse präziser zu gestalten.