Wie man Computern beibringt, Texte richtig zu erkennen

06.07.2020Wie man Computern beibringt, Texte richtig zu erkennen

An der Staatsbibliothek zu Berlin werden historische Drucke so bearbeitet, dass man in ihnen recherchieren kann. So wird Wissen zugänglich. Ein Interview mit Clemens Neudecker.

Die Fragen stellte Oliver Hoischen

Zeitungsseite und daneben schematische Darstellung der verschiedenen Bereiche dieser Seite
Beispiel für Segmentierung einer Zeitungsseite (Public Domain)

Herr Neudecker, Sie betreuen bei der Staatsbibliothek zu Berlin mehrere Forschungsprojekte, bei denen es darum geht, Dokumente zu digitalisieren und dann auszuwerten. Was ist Ihr Eindruck: Kommt die Digitalisierung auch in der Staatsbibliothek durch Corona noch schneller voran?

Clemens Neudecker: Natürlich. Weil die Lesesäle geschlossen sind, steigt die Nachfrage nach digitalisierten Dokumenten, Büchern oder Handschriften. Allerdings: Die Zeitung von gestern und den aktuellen Bestseller werden Sie auch künftig kaum digitalisiert in Bibliotheken bekommen. Da sind viele Besucher*innen enttäuscht. Grund dafür sind die strengen Urheberrechte. Digitalisiert werden vor allem die historischen Bestände. Aber auch für die interessieren sich längst nicht nur professionelle Forscher*innen. In Labs, Workshops und bei Hackathons werden spielerisch neue Anwendungen und Apps entwickelt, um die historischen Dokumente kreativ zu nutzen. Schon vor Corona haben wir gesehen, dass unsere diversen digitalen Angebote bereits mehr Zugriffe verzeichnen, als unser Katalog – ein Trend, der sich sicher verstärkt. Den Zugriff auf die Originale kann die Digitalisierung aber nicht ersetzen, sondern nur ergänzen.

Die Staatsbibliothek hat ein eigenes, großes Digitalisierungszentrum. Wird da auch mal eine Pause gemacht?

Kaum. An speziellen, ganz unterschiedlichen Geräten scannen wir in einem Zweischichtsystem rund 1,7 Millionen Seiten im Jahr. Das ist beachtlich - angesichts der mindestens 3 Milliarden Seiten Buchbestand ist es aber auch erst ein Anfang. Die Scans werden archiviert und in die digitalisierten Sammlungen der Staatsbibliothek eingespielt. Allerdings: Die meisten Dokumente liegen nur als Bild vor. Nur rund 15 Prozent haben eine Texterkennung durchlaufen, sind also mit Methoden der Informatik in einen durchsuchbaren Text umgewandelt worden. Da wartet also noch eine große Aufgabe. Dafür geeignete Technologien zu entwickeln, ist ein wesentlicher Teil meiner Forschungsarbeit.

Porträt Clemens Neudecker
Clemens Neudecker

Mit dem Abfotografieren von Buchseiten ist es also nicht getan?

Das Scannen allein ermöglicht zwar den digitalen Zugriff, aber noch keine Suche und erst recht keine Recherche, so wie man sie etwa von Google kennt. Dazu brauchen wir die Texterkennung – damit man später in eine Suchmaske einfach einen Begriff eingeben und dann die entsprechenden Textstellen finden kann, und zwar in allen von der Staatsbibliothek digitalisierten Dokumenten, jedenfalls wenn es ideal läuft. Die dafür nötige Technologie, die OCR, die Optical Character Recognition, war in der Vergangenheit leider für historische Drucke nicht gut geeignet. Das hat mit der altdeutschen Fraktur-Schrift und den komplexen Layouts historischer Drucke zu tun. Die Texte enthielten viele Fehler. Inzwischen ist die OCR-Forschung aber weiter. Uns stehen neue Methoden zur Verfügung, mit denen wir hoffentlich bald fehlerfreie Texte auch für historische Drucke produzieren zu können. Damit beschäftigen wir uns im Projekt OCR-D, das von der DFG gefördert wird und zu dem sich die Herzog August Bibliothek Wolfenbüttel, die Berlin-Brandenburgische Akademie der Wissenschaften, das Karlsruher Institut für Technologie und die Staatsbibliothek zu Berlin zu einem Verbund zusammengetan haben.

Wie funktioniert OCR genau?

OCR ist ein komplexes Verfahren. Es setzt sich aus einer Vielzahl einzelner Verarbeitungsschritte mit jeweils eigenen Herausforderungen zusammen, die alle auch noch voneinander abhängen. Zum einen ist da die Bildoptimierung: Dabei werden Ränder auf dem Blatt entfernt, Doppelseiten getrennt und zum Beispiel Farbbilder in Schwarz-Weiß-Bilder verwandelt. Dann ist da die sogenannte Segmentierung, bei der die Absätze, Zeilen, Tabellen, Bilder und so weiter auf einer Seite identifiziert werden müssen. Anschließend muss das Programm dann die Wörter und Buchstaben erkennen.

Um ein A nicht für ein O zu halten…?

Oder ein großes I für ein kleines, genau. Dann kommt die Qualitätssicherung. Und schließlich müssen die Ergebnisse eventuell noch korrigiert werden. Entscheidend ist, jeweils für ein bestimmtes digitalisiertes Dokument die bestmögliche Kombination all dieser Verfahren zu finden.

Was ist für Sie dabei die größte Schwierigkeit?

Wesentlich ist die Qualität des Textes, der entsteht. Insbesondere wissenschaftliche Nutzer*innen benötigen für ihre Forschung quasi fehlerfreie Texte. Dabei müssen die historischen Schreibweisen aus dem gedruckten Original erhalten bleiben. Das gelingt immer besser, dank der intensiven Zusammenarbeit der OCR-Community mit den Bibliotheken. Wichtig ist aber, dass das Programm nicht nur die Wörter, sondern auch die Struktur der Inhalte erkennt. Also: Was ist eine Überschrift? Was ist eine Fußnote? Wo beginnt ein neuer Absatz? Insbesondere für historische Zeitungen muss hier noch mehr geforscht werden.

Ausschnitt eines historischen Drucks mit dem Ergebnis der Texterkennung darunter
Ausschnitt der „Courante uit Italien, 1618“ mit OCR-Ergebnis vor Projekt (Public Domain)

Und wer profitiert dann von alldem am meisten?

OCR macht Wissen für alle zugänglich. Vor allem die Forscher*innen der Digital Humanities sind daran interessiert, dass die Texte vollständig verfügbar sind. Um ein Beispiel zu nennen: Im Forschungsprojekt Oceanic Exchanges untersuchen wir gemeinsam mit Wissenschaftler*innen aus Deutschland, den Niederlanden, Finnland, England, Mexiko und den USA, wie Nachrichten in Europa und Amerika im 19. Jahrhundert verbreitet wurden. Das machen wir auf Basis eines digitalen transnationalen Bestands von weit mehr als 200 Millionen digitalisierten Zeitungsseiten aus diversen digitalen Bibliotheken. Die Auswertungen sind faszinierend. Sie machen eine ganz neue Dimension von Forschung möglich. Eine Software ermittelt relevante Textstellen in Millionen von Zeitungsseiten, und zwar in mehreren Sprachen. Auch statistische oder sprachwissenschaftliche Analysen können so gemacht werden: Wie oft wurde ein bestimmtes Thema im 19. Jahrhundert behandelt, welche Begriffe wurden dabei verwendet und wie haben sich die Begrifflichkeiten im Laufe der Zeit gewandelt?

Sind diese Arbeiten dann öffentlich? Wer hat Zugang zu den Dokumenten, die Sie digitalisieren?

Die digitalisierten Werke stehen grundsätzlich der gesamten Öffentlichkeit weltweit rund um die Uhr zur Verfügung. Inzwischen haben die digitalisierten Sammlungen der Staatsbibliothek auch die entsprechenden technischen Schnittstellen, die es Interessierten aus aller Welt erlauben, die digitalisierten Dokumente automatisiert abzurufen und weiter zu bearbeiten. Die Staatsbibliothek verfolgt dabei eine vergleichsweise offene Lizenzierung, nach der ein überwiegender Teil der digitalisierten historischen Werke als gemeinfrei, also mit einer Public Domain Lizenz bereitgestellt wird. Nur in Einzelfällen kann es zu Abweichungen kommen. Für digitalisierte Dokumente aus dem 20. Jahrhundert hingegen gelten häufig noch Schutzansprüche. Da gibt es aber nur wenige Angebote.

Das Thema ist sehr spannend. Wie sind Sie eigentlich dazu gekommen?

OCR begleitet mich schon seit meinem Studium. Damals habe ich zwei blinden Kommilitonen geholfen: Ich habe ihre Semesterliteratur eingescannt und an einem speziell eingerichteten Blindenarbeitsplatz mit einer OCR-Software verarbeitet. So konnten die beiden den Text über eine Braille-Tastatur lesen oder ihn sich von einem Text-to-Speech Programm vorlesen lassen. Während des Studiums habe ich dann einen Job im Digitalisierungszentrum der Bayerischen Staatsbibliothek bekommen, in dem es darum ging, OCR für die Digitalisierung zu evaluieren und einen OCR-Workflow zu konzipieren. Schließlich bin ich an die Nationalbibliothek der Niederlande gewechselt, um dort die technische Leitung für ein großes EU-Projekt zu OCR zu übernehmen. Der Durchbruch für die neue Technologie blieb damals noch aus. Bei dem aktuellen Forschungsprojekt wird das sicher anders sein. Die ersten, positiven Ergebnisse liegen schon vor. Nie zuvor haben Bibliothekare und Informatiker, Praxis und Forschung so eng zusammengearbeitet. Das begeistert mich immer wieder.

Weitere Artikel

Auf unserer Website werden neben den technisch erforderlichen Cookies noch Cookies zur statistischen Auswertung gesetzt. Sie können die Website auch ohne diese Cookies nutzen. Durch Klicken auf „Ich stimme zu“ erklären Sie sich einverstanden, dass wir Cookies zu Analyse-Zwecken setzen.

In unserer Datenschutzerklärung finden Sie weitere Informationen. Dort können Sie Ihre Cookie-Einstellungen jederzeit ändern.