Wikisource:DTA-Werkstatt

Übersicht der Unterseiten

Das Projekt

Hier werden Ideen gesammelt, mit dem Ziel, automatisiert digitalisierte Werke des Deutsches Textarchivs zu übernehmen.

Das Pilotprojekt dazu ist: Lexikon der deutschen Dichter und Prosaisten von Beginn des 19. Jahrhunderts bis zur Gegenwart
gehostete Skripte bei Github

Die Quellen

Franz Brümmer
Lexikon der deutschen Dichter und Prosaisten vom Beginn des 19. Jahrhunderts bis zur Gegenwart
Band 1 in HTML-Ansicht
Bei Commons: File:Bruemmer Lexikon Dichter 19Jh Bd 08.pdf - die Bände sind einfach durchnummeriert: Commons
Index:Bruemmer Lexikon Dichter 19Jh Bd 01.pdf und folgende.

Problemfelder

Bei eingehenderer Diskussion eines bestimmten Problems bitte ein Unterkapitel (mit ===) eröffnen.

noch unsystematisch

Lemmaansatz. Er müsste wohl, analog zur ADB einen Vorsatz haben, z.B. „FB: Beyer, Karl Friedrich Wilhelm“ oder ähnlich (FB = Franz Brümmer), allein schon um die Lexikonartikel von unseren Autorenseiten zu unterscheiden. Dann könnten wir den Lemmaansatz von FB übernehmen, der modernisierte Name käme (ähnlich wie Links zu WS- oder WP-Seiten) in die Textbox.
- FB setzt vor das Lemma ein Sternchen (*), wenn die Angaben autobiographisch sind. Hier müssten wir uns etwas ausdenken.

Ein Vorsatz halte ich auch für unverzichtbar. FB könnte man nehmen, mir fällt auch nichts besseres ein und sollten doch einmal Artikel aus dem Nachlass dazu kommen, könnte man dafür zur Unterscheidung "FBN" als Vorsatz nehmen. Eigentlich sollte aber wie bei der ADB die modernisierte Ansetzung ins Lemma, alles andere, Pseudonyme, Sternchen etc. steht ja bereits im Text und sollte uns nicht über die Fragen zur automatisierten Formatierung hinaus belasten. Ggf. kann man auch noch Weiterleitungen für gängige Alternativen oder Pseudonyme anlegen. Die hoffentlich zu extrahierte Lemmaliste muss entweder zuerst entsprechend bearbeitet werden (Identifizierung, GND, WP etc. was ja am Ende in die Vorlage kommt), bevor man mit den Botarbeiten beginnt oder man übernimmt sie vorläufig wie vorgefunden und verschiebt später alle Artikel die geändert werden müssen entsprechend. Brümmers Lemmata sind ja insgesamt der modernen Ansetzung viel näher bzw. viel häufiger identisch als die der ADB mit ihren Personen aus vielen Jahrhunderten, sodass sich die Verschieberei in Grenzen halten sollte. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

Einarbeiten von Nachträgen/Verbesserungen (Band 8, S. 122- 270)

Sollte nach dem Muster der ADB zu machen sein. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

Umgang mit Pseudonymen. Verweise? Überhaupt müssten Verweise verlinkt werden. („Beutler, Margarete, siehe Margarete Freksa!“) Ob das automatisiert zu machen ist? Sie scheinen nicht in XML ausgezeichnet zu sein.

Da wir um das Sichten (ohne eigentliches Korrekturlesen) eines jeden Artikels mit Vergleich zum Scan ohnehin nicht herum kommen, kann man das, was per Bot nicht geht, manuell mit erledigen. Am besten man macht nebenbei eine Liste, auf was zu achten bzw. abzuarbeiten ist, damit man nicht mehrmals durch den ganzen Artikelbestand gehen muss. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

Trennung des Biographischen (type="index") vom Werkteil (type="bibliography", durch Sonderzeichen S gekennzeichnet). Für wünschenswert halte ich bei letzterem die Auflösung des Fließtextes (die Werke sind durch Gedankenstriche voneinander getrennt) in je eigene Zeilen. Der Übersicht willen.

Das Layout des Brümmers ist natürlich dem Platzmangel einer Papierausgabe geschuldet und kann als Gebrauchstext, wo Inhalt vor Form geht von uns selbstverständlich zur Verbesserung der Lesbarkeit angepasst werden.

das J-Problem. Es heißt „Jm Sommer“ etc. Und Ida heißt „Jda“. Hier sehe ich zumindest halbautomatisierten Arbeitsaufwand. Grob gesprochen folgen in der modernen Schrift auf „J“ keine Konsonanten (bei Abkürzungen aber schon: Jhdt.).

Das sehe ich auch so und wäre eine der Aufgaben, welche ich übernehmen würde, wenn mir ggf. mit technischen Tipps (Reguläre Ausdrücke, passender Editor) ausgeholfen werden kann. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

Seitenzahlen im Text (bei längeren Artikeln), Zusammenfügungen von Trennungen, die über den Seitenwechsel gehen.

Ob sich da was automatisieren lässt, weiß ich auch nicht, ansonsten Seitenzahlen wie unter "Scans" beschrieben und bei Trennungen ziehen wir wie bei der ADB das ganze Wort in die erste Seite. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

Auflösen von Abkürzungen (oder nicht).

Hmm, bei zu viel Handarbeit vielleicht eher nicht zugunsten eines zentralen Abkürzungsverzeichnisses. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

weglassen von Kolumnentitel (place="top" type="header") und Bogenzählungen (place="bottom" type="sig").
an Textauszeichnungen gibt es:
- Fett. Für Lemma, nur Nachname.
- Gesperrt. Für Namen allgemein, für Hauptvorname beim Lemma.
- Antiqua (rendition="#aq"). Bei Fremdsprachlichkeiten.
- Großschrift. Bei Kolumnentitel und sonst? Ist wohl vernachlässigenswürdig.
Nicht zu vergessen: Der Nachlass von Franz Brümmer. Nicht um diesen auch noch zu übernehmen, aber um mit diesem kompatibel zu bleiben (hinsichtlich Lemmaansatz, Verlinkung etc. Das bedarf der Koordination auch mit der Projektleitung dort. Hier erledigt, siehe unten
Scans müssten gemäß unserer Konventionen nach Commons geladen werden. Kann DTA dies übernehmen? Oder die Scans bereitstellen? Oder können wir die Scans von DTA extern einbinden (wie die ADB von MDZ)? Ist erledigt, Scans nun bei Commons (siehe: Quellen)

Wenn hier nicht regulär korrekturgelesen werden muss, brauchen wir keine weitere Einbindung. In der Textbox sollten wir ohnehin auf die Anfangsseite des Artikel im DTA verlinken (und jetzt vielleicht auch entsprechend auf die optimierte Commons-Version), schon wegen des Kooperationsgedankens und wenn ein Artikel mal max. über 2 oder 3 Seiten geht, hat man dort schnell weiter geblättert und die Seite vergrößert. Für die, die an dem automatischen Import arbeiten, dürfte es aus ergonomischer Sicht genügen. Der Seitenzahl im Artikeltext würde dann ohne Link, nur grau gefärbt angegeben werden. Zu den Punkten, wo ich jetzt noch nichts gesagt habe, muss ich mir erst noch ein Bild machen. Vielleicht legen wir mal einen Musterartikel an, wo man mal die Gestaltungsmöglichkeiten anschaulich machen kann. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]

Textverlust

Für die Editionsrichtlinien werden wir eine Lösung finden müssen, wie der immer wieder einmal auftretende Textverlust gekennzeichnet werden soll. Die Ergänzungen in eckige Klammern zu setzen kann den Text ziemlich verunstalten, jedes mal eine Fußnote zu setzen allerdings auch. Vielleicht läuft es auf „stillschweigende Ergänzung“ hinaus?

Ich habe im übrigen Sorge, dass die Textgrundlage zu fehlerhaft sein könnte, um sie direkt auf „fertig“ zu setzen. Es springen eigentlich auf jeder Seite Fehler ins Auge. Einmal Korrekturlesen wird schon nötig sein. --Konrad Stein (Diskussion) 23:20, 3. Nov. 2014 (CET)[Beantworten]

Was ist der immer wieder auftretende Textverlust? --THE IT (Diskussion) 08:04, 4. Nov. 2014 (CET)[Beantworten]

Das sind die auf manchen Seiten fehlenden 1-3 Buchstaben am Zeilenende, die im Falz verschwinden, wenn die Bögen sehr enggbunden sind. Hier ein Beispiel, wo es nicht sehr schlimm ist, es gab andere Seiten, wo es gravierender ist (die ich aber gerade nicht finde). Ist im XML als <supplied> gekennzeichnet. Es hält sich insgesamt im Rahmen, muss aber für die ER bedacht werden. --Konrad Stein (Diskussion) 17:26, 4. Nov. 2014 (CET)[Beantworten]

Mit dem J-Problem, den Trennungen am Zeilenende und dem Textverlust sind die "Geringen Restarbeiten" wohl auch vom Tisch? Ich sehe da einen gewaltigen Berg Arbeit auf uns zukommen. Nicht das ich gegen das Projekt wäre, ich bitte nur wirklich alles im Vorfeld zu bedenken, ehe losgelegt wird. – Paulis 09:23, 9. Nov. 2014 (CET)[Beantworten]

J-Problem

Liste der J-Wörter listet alle Vorkommen auf. --Konrad Stein (Diskussion) 11:45, 8. Nov. 2014 (CET)[Beantworten]
Fragen an das DTA:
- wie geschieht die (automatisierte?) Herstellung der HTML-normierteZeichen-Fassung hinsichtlich der J-I-Frage? Gibt es eine I-Fassung des Brümmer?
  - Eine zeichennormierte Fassung, welche die J an den entsprechenden Stellen nach I konvertiert, gibt es nicht. Die zeichennormierte Fassung ist lediglich eine Approximierung von utf8 nach latin1. Da J in latin1 vorhanden ist, wird da nichts gemacht. --Fw (Diskussion) 11:22, 10. Nov. 2014 (CET)[Beantworten]
- gibt es einen spezifischen Umgang mit Namen, die mit J beginnen?
- könnte gegebenenfalls (falls sinnvoll) eine TEI-P5.xml-Datei bereitgestellt werden, wo eine J-I-Transformation vorgenommen ist?

Lösungsvorschlag:
- Alle Wörter, in denen J als Vokal gebraucht wird (also als heutiges I), werden wie folgt gefunden: J[^aáeéioóuäöü.’ ]\w+. Das ist dann eine einfache Ersetzung. Diese RE sollte alle acht Brümmerbände abdecken.
- Alle J, die konsonantisch gebraucht werden, bleiben J.
- Vorkommen von "J." müssen so bleiben, und man kann dann von Hand jeweils schauen, welches Wort da abgekürzt wird.
- Sonderfälle: Jhavatrathe → Ihavatrathe, aber Jhering → Jhering.

Falls WSler, die an diesem Projekt oder an diesen Problemen interessiert sind, am 17. und/oder 18.11.2014 in Berlin sind -- kommt gerne zu unserer Konferenz, da können wir gerne auch persönlich Erfahrungen austauschen. (Fw arbeitet auch beim DTA.) --Fw (Diskussion) 11:22, 10. Nov. 2014 (CET)[Beantworten]

Nachlass

Der Nachlass von Franz Brümmer. 406 Autoren. Projektleitung.
- Danke für den Hinweis. Dieses Projekt war mir völlig entfallen, erst jetzt entsinne ich mich wieder, es schon einmal gesehen zu haben. Aber zumindest für den Lemmaansatz gilt es, sich nach der WP zu richten und daran können wir auch nichts ändern, wenn Berlin davon abweichen sollte, genau wie damals bei der E-ADB in München. Wir müssen kompatibel zu unserem Universum bleiben, nicht zu anderen Projekten. --Rumpelsteig (Diskussion) 04:32, 8. Nov. 2014 (CET)[Beantworten]
Liste der Autoren im Nachlass verzeichnet alle dort vorhandenen Autoren. Sie scheint abgeschlossen und vollständig zu sein. Durch die beigegebene ID sollte sich qua Vorlage eine Verlinkung einfach herstellen lassen. --Konrad Stein (Diskussion) 12:42, 8. Nov. 2014 (CET)[Beantworten]

Hallo Konrad Stein, hallo WS-Gemeinde! Schön, dass es wieder Interesse an Brümmers Nachlass und Lexikon gibt! Ich hatte ja schonmal geschrieben, das Nachlass-Projekt läuft seit Jahren nur noch ehrenamtlich auf sehr kleiner Flamme. Die Liste ist mit ca. 400 Autoren keineswegs vollständig und abgeschlossen. Im Supplementbestand, der alle Zuschriften an Brümmer *nach* der letzten Lexikon-Auflage enthält, kann man von ca. 2000 Mappen ausgehen. Der gesamte Nachlass ist noch ca. 5-6mal so groß. Leider ist nicht absehbar, dass da in nächster Zeit noch etwas digitalisiert wird. Grüße, --Lit cht (Diskussion) 16:01, 8. Nov. 2014 (CET) Zu den offenen Fragen:[Beantworten]

Offene Fragen:
- bleibt die ID in Berlin stabil?
  - Ja. --Lit cht (Diskussion) 16:01, 8. Nov. 2014 (CET)[Beantworten]
- Wie groß ist die Schnittmenge zwischen den Autoren FB-Lexikon und FB-Nachlass? Handelt es sich überwiegend um Material zu geplanten neuen Artikeln?
  - Schnittmenge ist gering. Einige Mappen enthalten Ergänzungen zu bestehenden Artikel, die die jew. AutorInnen geschickt hatten, die meisten aber neue Informationen. Einige Mappen sind ja schon transkribiert (unser neuester Zuwachs kam letzte Woche: Otto Crusius), der andere Teil nur als Bilddigitalisat verfügbar. Übrigens, falls jemand weutere Mappen transkribieren möchte, dann gern. Geht nur bitte von einer längeren Bearbeitungszeit meinerseits aus, bis die Sachen dann online sind, da, wie gesagt, Freizeitspaß. --Lit cht (Diskussion) 16:01, 8. Nov. 2014 (CET)[Beantworten]
- Oder mit anderen Worten: Lohnt sich in der Textbox ein eigenes Feld FB-Nachlass-ID.
  - S. oben: Ich würde daher sagen, ja. --Lit cht (Diskussion) 16:01, 8. Nov. 2014 (CET)[Beantworten]

Nachträge

Die letzte Hälfte (oder etwas mehr) des letzten Bandes widmen sich den Nachträgen. Diese begegnen uns natürlich erst da und sollten dann wenn es soweit ist eine eigene Autorentabelle bekommen. Bei der zunächst erfolgenden Erstellung der Bände 1-7 (so wir hoffen) würde ich es nur in sofern berücksichtigen, dass wir einen Platzhalter in den Autorenseiten definierne sollte der Form . Dieser ist dann nicht zu sehen kann aber bei der Einarbeitung der Nachträge wieder automatisch gefunden werden und dann durch entsprechende Einträge ergänzt werden.

--THE IT (Diskussion) 12:59, 1. Jan. 2015 (CET)[Beantworten]

Arbeitsschritte

Scans bei Commons. Ein vollständiges und gut lesbares Exemplar habe ich besorgt (von der Indiana Univ.), optimiert und werde es nach Commons und ins IA laden. Unproblematisch. Damit steht zugleich ein vom DTA verschiedenes Exemplar zur Kontrolle zur Verfügung. Es handelt sich selbstverständlich um dieselbe Auflage und ist seitengleich.
Index der acht Bände. Diese anzulegen sollte kein Problem sein, kann ich machen. Ist eine händische Angelegenheit.

Brauchen wir überhaupt einen Index? Die ADB hat nur Kategorien für ihre Einzelbände (z. B. Kategorie:ADB:Band_25), da der einzelne Artikel im Vordergrund steht und nicht die Nachbildung des Aufbaus des Werkes bzw. des einzelnen Bandes. Dies würde es auch einfacher machen, später einmal den Nachlass Brümmers zu integrieren, ohne uns darüber jetzt schon allzu viele Gedanken machen zu müssen --Rumpelsteig (Diskussion) 01:03, 8. Nov. 2014 (CET)[Beantworten]

Ja brauchen wir. Es wird sehr viel einfacher eine Botimplementierung zu bauen, die zunächst alle Einzelseiten korrekt erstellt, wie es bei uns ja mittlerweile (zum Glück) Standart ist. Das Fehlen eines Indexes und damit die Möglichkeit einfach komplette Seiten Korrektur zu lesen erschwert nämlich die Korrekturarbeit (und wie Konrad schon ausgeführt hat wird es auch hier ein einmaliges Rüberlesen geben müssen). Das dies bei der ADB nicht der Fall ist, ist auch der Grund, warum ich dort ungern arbeite. --THE IT (Diskussion) 09:51, 8. Nov. 2014 (CET)[Beantworten]

Einzelseiten müssen komplett gelesen werden, beim ADB-System liest man nur den gewünschten Artikel. Für Personen finde ich den Aufbau der ADB gut so und mMn sollte man das als Idee für den Brümmer wohl nicht sofort verwerfen. Wäre zB. die Gartenlaube genauso aufgebaut, hätte ich sicher den einen oder anderen Text auch korrigiert. – Paulis 09:13, 9. Nov. 2014 (CET)[Beantworten]

Heute habe ich ersten Experimente mit XML-Parsing gemacht. Die automatische Verarbeitung einer Seite würde wesentlich einfacher werden, als einen gesammten Band zu parsen und dabei noch die Artikelseiten zu erstellen. --THE IT (Diskussion) 21:50, 10. Nov. 2014 (CET)[Beantworten]

Erstellung der Seiten. Hier sollte ein Automat ins Spiel kommen. Basis werden sicherlich die „TEI-P5.xml“-Dateien des DTA, die zum Download bereitstehen. Wie geht es damit weiter? Hier sollten sich die Skriptisten und Botbetreiber einmal äußern. Entsteht erst durch Auszug und Umwandlung eine Endlosdatei, die dann von Bots in Einzelseiten zerhackt und mit Zierrat versehen (Header, Footer) werden? Hier sind sicher Entscheidungen zu treffen auf der Grundlage von Editions-Richtlinien, die bis dahin feststehen müssen.

Die riesen XML des gesamten Bandes kann mit einem Skript der dta in Einzelseiten zerteilt werden. Dieses würde ich auch so nutzen wollen, da ich wohl auch den ein oder ander manuellen Schritt bei der Konvertierung einbaue. Dies wäre für Einzelseiten besser händelbar, als für den gesamten Band.--THE IT (Diskussion) 10:02, 8. Nov. 2014 (CET)[Beantworten]

Erstellen der Projektseite, geschieht händisch, sollte kein Problem sein.
Erstellen der Artikel, wohl wieder ein automatisierter Prozess. Hier muss die Textbox samt Navigation und die Seitenlinks klar sein. Macht das ein Bot?
Kontrolle und zweite Korrektur. Händisch.
Fehlerdokumentation. Dokumentation der Fehlerverbesserungen, sowohl auf den Artikelseiten (WS-Anmerkung), als auch beim DTAQ (das sind wir denen schuldig).
- Liebe WS-Gemeinde, nur ein schneller Hinweis zur Fehlermeldung in DTAQ; Konrad Stein ist so freundlich zu schreiben: "das sind wir denen schuldig". Bitte aber nicht, wenn das insg. das Projekt und eure Möglichkeiten überfordert. Da es sich in erster Linie um Transkriptionsfehler handeln wird, können wir diese aus den von euch korrigierten Texten auch per automatischer Kollation herausfinden. Also genügt dann der Status "zwei mal Korrektur gelesen" als Hinweis für uns, dass wir beiden Texte (DTA- und WS-Version) abgleichen sollten. Das übernehmen wir dann gern. Grüße --Newdta (Diskussion) 19:02, 11. Nov. 2014 (CET)[Beantworten]

Dies nur als Versuch einer Übersicht über die Arbeitsschritte im Allgemeinen. --Konrad Stein (Diskussion) 22:13, 6. Nov. 2014 (CET)[Beantworten]