OCR steht für Optical Character Recognition, auf Deutsch: optische Zeichenerkennung. Der Begriff ist heute etwas irreführend – denn moderne Texterkennungssoftware analysiert nicht mehr Zeichen für Zeichen, sondern ganze Zeilen mithilfe neuronaler Netze.
Unter OCR versteht man die automatische Erkennung von gedruckter oder handgeschriebener Schrift in Bildern oder gescannten Dokumenten. Ziel ist es, durchsuchbare Volltexte zu erzeugen – ein wichtiger Schritt für die Digitalisierung und Auswertung historischer Quellen.
OCR erleichtert den Zugang zu historischen Dokumenten: Statt Bücher oder Scans manuell durchsuchen zu müssen, können gezielt Begriffe eingegeben werden. Die Software springt direkt zur relevanten Stelle. Zudem lassen sich aus den digitalisierten Texten strukturierte Forschungsdaten gewinnen.
Larissa Will arbeitet im Forschungsdatenzentrum der Universitätsbibliothek Mannheim. Als Referentin für Forschungsdatenmanagement und Digitalisierung berät sie Forschende, Studierende sowie Mitarbeitende aus Bibliotheken und Archiven bei der Auswahl und Anwendung von Texterkennungssoftware – gelegentlich auch Hobbyhistoriker*innen.
Die Beratung ist praxisorientiert: „Ich schaue mir die Dokumente an und gebe Empfehlungen, welche Software geeignet ist und wie man am besten vorgeht“, so Will. Zusätzlich bietet die Universitätsbibliothek eine monatliche offene Sprechstunde an, in der Fragen rund um das Thema OCR beantwortet werden.
Infos zu den nächsten Sprechstundenterminen gibt es auf der Seite der Universitätsbibliothek: https://ocr-bw.bib.uni-mannheim.de/
Fotocredit: Alexander Münch