Benutzer Diskussion:JensKreher
Letzter Kommentar: vor 2 Monaten von Aschroet in Abschnitt Zedler-OCR
![]() |
Auf dieser Seite werden Abschnitte automatisch archiviert, die seit 1 Tagen mit dem Baustein {{Erledigt|~~~~}} versehen sind.
|
Zedler-OCRBearbeiten
Hallo Jens, alles Gute noch im Neuen Jahr. Sag mal, wie erzeugst du die OCR der Zedler-Artikel? Ich selber tippe sie nämlich teilweise ab. --Arnd 🇺🇦 10:56, 3. Jan. 2023 (CET)
- Ich wünsche Dir auch ein gutes neues Jahr.
- Ich benutze hierfür Tesseract (Freeware) mit der frk-Bibliothek. Ich könnte hierfür auch eine kurze Einführung erstellen, würde aber erst Ende der Woche dazu kommen. JensKreher (Diskussion) 16:57, 3. Jan. 2023 (CET)
- Nutzt man das dann "lokal" auf seinem Rechner? Ich bin technisch versiert; also würde mir auch kurze Hilfe reichen. Übrigens gibt es für die auf Commons verfügbaren Inhalte auch https://ocr.wmcloud.org/ . Gruß, Arnd 🇺🇦 22:33, 5. Jan. 2023 (CET)
- Ja, die OCR läuft lokal. Ich nutze dafür Tesseract ( [1]); bei der Installation das "frk"-Modell auswählen, das wird standardmässig nicht mit installiert. Mit folgenden Einstellungen habe ich die besten Ergebnisse erhalten:
- Model: frk
- PSM: 3 (default)
- OEM: 1 (Neuronales Netz)
- Output format: txt
- Die Bilder teile ich vorher gleich in die Spalten auf, dass kann Tesseract zwar theoretisch auch, in der Praxis sind die Ergebnisse aber optimierungswürdig.
- Tesseract funktioniert auf Kommandozeilenebene, da ich aber kein Freund davon bin, nutze ich als grafische Oberfläche "Tesseract Xplore" ( [2] ). Da kann man bequem die oben genannten Einstellungen vornehmen, die Bilder auswählen, Tesseract starten etc.
- Bei den erhaltenen OCR müssen dann nur noch die Zeilenumbrüche entfernt und "ſ" durch "s" ersetzt werden. Ich nutze allgemein als Texteditor notepad++, wo ich ein Makro erstellt habe, dass die beiden Sachen mit einem Mausklick korrigiert.
- Die Ergebnisse von Tesseract hängen von der Qualität der Scans ab, aber sie sind meist (bei den späteren Bänden) gut bis sehr gut, und vergleichbar mit Abbyy. Nur ein paar Fehler macht Tesseract bei mir immer. Hebräische und griechische Wörter werden nicht erkannt (trotz ausgewähltem Modell), aus einem grossen "S" wird immer ein kleines, und bei "ck" kann alles rauskommen, nur nie "ck". Aber damit kann ich leben. Dafür geht Fraktur und Lateinisch gleichzeitig, was ich bei Abby nicht schaffe, da muss ich immer das Modell umstellen. JensKreher (Diskussion) 08:34, 8. Jan. 2023 (CET)
- Ja, die OCR läuft lokal. Ich nutze dafür Tesseract ( [1]); bei der Installation das "frk"-Modell auswählen, das wird standardmässig nicht mit installiert. Mit folgenden Einstellungen habe ich die besten Ergebnisse erhalten:
- Nutzt man das dann "lokal" auf seinem Rechner? Ich bin technisch versiert; also würde mir auch kurze Hilfe reichen. Übrigens gibt es für die auf Commons verfügbaren Inhalte auch https://ocr.wmcloud.org/ . Gruß, Arnd 🇺🇦 22:33, 5. Jan. 2023 (CET)
Guten Abend Jensk, danke für die Infos. Das klappt bei mir soweit auch wie beschrieben und ist viel besser als abtippen. Mein letztes Ergebnis ist Zedler:Zäunemannin. Grüße, --Arnd 🇺🇦 21:34, 13. Jan. 2023 (CET)