Automatische Archivierung
Automatische Archivierung
Auf dieser Seite werden Abschnitte automatisch archiviert, die seit 1 Tagen mit dem Baustein {{Erledigt|~~~~}} versehen sind.

Zedler-OCR Bearbeiten

Hallo Jens, alles Gute noch im Neuen Jahr. Sag mal, wie erzeugst du die OCR der Zedler-Artikel? Ich selber tippe sie nämlich teilweise ab. --Arnd 🇺🇦 10:56, 3. Jan. 2023 (CET)Beantworten

Ich wünsche Dir auch ein gutes neues Jahr.
Ich benutze hierfür Tesseract (Freeware) mit der frk-Bibliothek. Ich könnte hierfür auch eine kurze Einführung erstellen, würde aber erst Ende der Woche dazu kommen. JensKreher (Diskussion) 16:57, 3. Jan. 2023 (CET)Beantworten
Nutzt man das dann "lokal" auf seinem Rechner? Ich bin technisch versiert; also würde mir auch kurze Hilfe reichen. Übrigens gibt es für die auf Commons verfügbaren Inhalte auch https://ocr.wmcloud.org/ . Gruß, Arnd 🇺🇦 22:33, 5. Jan. 2023 (CET)Beantworten
Ja, die OCR läuft lokal. Ich nutze dafür Tesseract ( [1]); bei der Installation das "frk"-Modell auswählen, das wird standardmässig nicht mit installiert. Mit folgenden Einstellungen habe ich die besten Ergebnisse erhalten:
  1. Model: frk
  2. PSM: 3 (default)
  3. OEM: 1 (Neuronales Netz)
  4. Output format: txt
Die Bilder teile ich vorher gleich in die Spalten auf, dass kann Tesseract zwar theoretisch auch, in der Praxis sind die Ergebnisse aber optimierungswürdig.
Tesseract funktioniert auf Kommandozeilenebene, da ich aber kein Freund davon bin, nutze ich als grafische Oberfläche "Tesseract Xplore" ( [2] ). Da kann man bequem die oben genannten Einstellungen vornehmen, die Bilder auswählen, Tesseract starten etc.
Bei den erhaltenen OCR müssen dann nur noch die Zeilenumbrüche entfernt und "ſ" durch "s" ersetzt werden. Ich nutze allgemein als Texteditor notepad++, wo ich ein Makro erstellt habe, dass die beiden Sachen mit einem Mausklick korrigiert.
Die Ergebnisse von Tesseract hängen von der Qualität der Scans ab, aber sie sind meist (bei den späteren Bänden) gut bis sehr gut, und vergleichbar mit Abbyy. Nur ein paar Fehler macht Tesseract bei mir immer. Hebräische und griechische Wörter werden nicht erkannt (trotz ausgewähltem Modell), aus einem grossen "S" wird immer ein kleines, und bei "ck" kann alles rauskommen, nur nie "ck". Aber damit kann ich leben. Dafür geht Fraktur und Lateinisch gleichzeitig, was ich bei Abby nicht schaffe, da muss ich immer das Modell umstellen. JensKreher (Diskussion) 08:34, 8. Jan. 2023 (CET)Beantworten

Guten Abend Jensk, danke für die Infos. Das klappt bei mir soweit auch wie beschrieben und ist viel besser als abtippen. Mein letztes Ergebnis ist Zedler:Zäunemannin. Grüße, --Arnd 🇺🇦 21:34, 13. Jan. 2023 (CET)Beantworten

Hi Jens, du kannst gern die in Benutzer:Aschroet/Zedler genannten aber schon vorhandenen Artikel aus der Liste entfernen. Das würde mir helfen. Werde mal sehen, ob ich mit dem Rest etwas weiter voran komme. Gruß, --Arnd 🇺🇦 23:06, 15. Okt. 2023 (CEST)Beantworten

Wikidata Bearbeiten

Hi Jens, die Frage ist, ob man in der Vorlage:Zedler automatisch den WP-Artikel des "main subject" des verbundenen WD-Item anzeigen sollte, wenn nichts angegeben ist in der Vorlage. Allerdings ist mir nicht klar, ob nicht der JAnDbot auf WD genau diesen Wert ausliest, um dann erst "main subject" zu füllen. Gruß, --Arnd 🇺🇦 21:08, 18. Okt. 2023 (CEST)Beantworten

Grundsätzlich finde ich die Idee gut, das würde langfristig Arbeit sparen, wenn Wikidata entsprechend gepflegt wird. Gibt es andere Vorlagen, wo das ähnlich gelöst wird? JensKreher (Diskussion) 22:15, 18. Okt. 2023 (CEST)Beantworten

Hi Jens, ich habe mal etwas rumprobiert: Benutzer:Aschroet/1. Dafür habe ich erstmal als Test eine erweiterte Vorlage:ZedlerWD erstellt, bei der man über den letzten Parameter optional eine Q-ID mitgeben kann. Kannst es dir ja mal anschauen und Feedback geben. Gruß, --Arnd 🇺🇦 17:27, 25. Okt. 2023 (CEST)Beantworten

Hallo Arnd, Danke, ich habe sie mal getestet, gefällt mir. Auch, dass die Wikisource und Wikipedia-Links aus WikiData übernommen werden. Was mir aufgefallen ist, wenn in der Wikidata kein Wikipedia-Artikel hinterlegt ist, wird [[w:Sitelink nicht gefunden.|Artikel in der Wikipedia]] angezeigt. Vielleicht müsste man das prüfen und leer lassen, wenn da noch nichts hinterlegt ist.

Hab das gefixt. Die Frage ist dann noch, was eigentlich wünschenswert ist. Sollte man WP- und WS-Artikel als Möglichkeit weiter drinlassen und WD nur als Option. Was denkst du? --Arnd 🇺🇦 16:17, 30. Okt. 2023 (CET)Beantworten

Danke. Ich würde empfehlen, die WS- und WP-Artikel zunächst noch zuzulassen, sonst müssten alle 8000 existierenden Artikel sofort nach WikiData. Mittelfristig könnten sie meiner Meinung nach aber entfallen, sonst haben wir immer einen Misch aus beiden. JensKreher (Diskussion) 19:01, 30. Okt. 2023 (CET)Beantworten

Hallo Jens, mir ist ein neuer Ansatz für Vorlage:ZedlerWD eingefallen. Statt eine komplett neue Vorlage zu entwickeln, rufe ich nun die Originalvorlage mit ggf. durch Wikidata ergänzte Werte auf. Damit kann man ZedlerWD im Prinzip genauso nutzen wie Vorlage:Zedler, allerdings wird die Angabe des 12. Parameters erwartet. Dieser wird verwendet wenn kein Artikel zu Wikipedia oder Wikisoure angegeben ist, um die Daten von Wikidata zu holen. Was meinst du dazu? Gruß, --Arnd 🇺🇦 22:40, 24. Mär. 2024 (CET)Beantworten

Konnte es nicht lassen weiterzumachen. Da ja gewöhnlich die einzelnen Zedler-Artikel ja einen WD-Eintrag mit einer Main-Topic haben, kann man die QID ja darüber bestimmen. Deswegen in Zedler:Zäunemannin mal ein Test der Vorlage:ZedlerAuto, welche ohne expliziete Angabe von QID, WP- oder WS-Artikel diese Werte generiert. --Arnd 🇺🇦 00:41, 25. Mär. 2024 (CET)Beantworten

Danke, ich habe es auch mal ausprobiert, bei mir kommt in den Wikisource und Wikipedia-Feldern "Die Kennung „“ ist dem System unbekannt. Bitte verwende eine gültige Objektkennung.|Die Kennung „“ ist dem System unbekannt. Bitte verwende eine gültige Objektkennung." angezeigt. Muss das irgendwo vorgegeben werden? JensKreher (Diskussion) 07:22, 8. Apr. 2024 (CEST)Beantworten

Das liegt an der Art und Weise wie die Infos von Wikisource nach Wikidata kommen. Aktuell läuft es so: Man legt per Vorlage:Zedler einen neuen Artikel in WS an. Der WD-Bot JAnDbot sucht ab und zu nach neuen Artikeln und legt für diese Wikidata-Items. Wenn in der Vorlage ein Parameter für Wikipedia gesetzt ist, so wird dieser auch als Main-Topic des WD-Items eingetragen. Erst dann kann man die Vorlage:ZedlerAuto verwenden. Alternativ könnte man natürlich auch händisch das WD-Item zum Zedler-Artikel anlegen und würde sich den Umweg über den Bot sparen. --Arnd 🇺🇦 21:43, 8. Apr. 2024 (CEST)Beantworten

Korrekturen Zedler-Artikel Bearbeiten

Hallo, Jens, ich habe die zwei Artikel Zedler:Pole der Ecliptick und Zedler:Pole der Welt korrigiert. Schau bitte ob das so passt; einmal die WS-Anmerkung und ein mal die Vorlage Division. Gruß, --Peter-K (Diskussion) 17:34, 4. Jan. 2024 (CET)Beantworten

Passt für mich, vielen Dank. JensKreher (Diskussion) 17:36, 4. Jan. 2024 (CET)Beantworten

Fragen zu Zedler Bearbeiten

Hallo Jens,

wie hälst du es mit offensichtlichen Fehlern in den Stichworten bei der Vorlage? Ich habe 2 gefunden:

  1. Zedler:Weib, eines Aichters Ehe-, hier müsste es „Weib, eines Aechters Ehe-“ heissen;
  2. Aarsen, , van Arßen; hier sind meines Erachtens ein Komma und ein Leerzeichen zu viel.

Hälst du dich strickt an die Stichworte oder korrigierst du diese Stillschweigend?

Dann noch eine Frage bezüglich griechischen bzw. hebräischen Textpassagen:

Wie bekommst du die in den Text? Ich habe im Artikel Zedler:Weib, Weibs-Bild, Weibs-Person viele Lücken, die ich mit der Vorlage:Anno markiert habe. Leider habe ich absolut kein Wissen über griechisch und hebräisch.

Gruß, Peter-K (Diskussion) 15:59, 16. Mär. 2024 (CET)Beantworten

Hallo Peter, ich nehme die tatsächlichen Bezeichnung in den Artikeln als Stichwort. Bei den Stichworten auf zedler-lexikon.de sind viele Fehler, die vermutlich auf eine fehlerhafte OCR zurückgehen. So wird z. B. in Band 4, Spalte 1454, aus "Brod-Rind-Pflaster" (Pflaster aus Brot-Rinde bzw. Brotkruste) ein "Brod-Kind-Pflaster" und bei griechischen und hebräischen Stichworten steht nur ein " * " (z. B. bei Μείωσις oder מאה ברכות)
Ich kann auch weder griechisch noch hebräisch, und transkribiere die Zeichen genau so, wie sie da stehen.
Bei griechischen Wörten kopiere ich die Zeichen aus der Wikipedia (https://de.wikipedia.org/wiki/Griechisches_Alphabet) bzw. wenn sie Akzente haben, dann aus der Sonderzeichenliste oben im Bearbeitungsfenster. Für die hebräischen Zeichen habe ich mir eine Liste mit Screenshots und den dazugehörigen Zeichen erstellt und kopiere ich dann in den Text. Deshalb habe ich teilweise Artikel über hebräische Buchstaben angelegt, wie Schin, der 21ste Buchstabe des hebräischen Alphabets, damit es leichter wird.
Und auch für die Sonderzeichen bei den medizinischen Rezepten habe ich eine Liste angelegt:
- Man nehme ℞
- Unze ℥
- Drachme Ʒ
- Scrupel ℈
- Pfund ℔
Viele Grüße, Jens
JensKreher (Diskussion) 16:52, 16. Mär. 2024 (CET)Beantworten

Vielen Dank für die prompte Antwort; Peter-K (Diskussion) 17:19, 16. Mär. 2024 (CET)Beantworten