Scan-Buttons unter „Hilfsmittel zum Korrekturlesen“ ()

Texterkennung, Optische Zeichenerkennung oder OCR (eng. Optical Character Recognition) beschreibt die automatische Erkennung von Texten in abgelichteten Dokumenten, welche als (Pixel)Bilder vorliegen.

Da alte deutschsprachige Texte oft in Fraktur-Schrift gedruckt wurden, ist die Auswahl dafür geeigneter OCR-Programme begrenzt. Abgesehen von einer ca. 100–200 Euro teuren Version von ABBYY Finereader können die kostenlosen Programme OCRopus, Kraken und Tesseract auch Fraktur erkennen.

OCR Software Bearbeiten

Tesseract Bearbeiten

Mit den richtigen Modellen für historische Schriften klappt die Texterkennung mit Tesseract meist besser als mit ABBYY Finereader.

Auch auf eigenem Rechner mit Windows (sowie MacOS oder Linux) kann relativ einfach Tesseract genutzt werden. Mehrseitige PDF-Dateien lassen sich mit pdftotif komfortabel in tiff-Dateien konvertieren. Eine Vorgehensweise für die anschließende Korrektur der typischen OCR-Fehler wird unter Benutzer:Joergens.mi/mwjed/macro beschrieben.

Kraken, eScriptorium Bearbeiten

Mit der Transkriptionsplattform eScriptorium und der OCR-Software Kraken steht eine freie Softwarelösung zur Verfügung, die nach entsprechendem Training alle Arten von Druckschriften und Handschriften erkennen kann. Für Fraktur lassen sich damit Zeichenerkennungsraten von über 99 % erreichen. Die Webapplikation eScriptorium kann auch lokal auf dem eigenen Rechner installiert werden.

PERO OCR Bearbeiten

Gute Ergebnisse bei Layout- und Texterkennung liefert auch die freie Software PERO OCR der Universität Brünn, die ebenfalls Druck- und Handschriften erkennt.

Siehe auch Bearbeiten

Weblinks Bearbeiten