Wikisource Diskussion:DTA-Werkstatt/Autoren

Erstellung der Autorenseite

Das wichtigste an der Autorseite sollte sein, dass maschinenlesbar ist. Die Autoren in der korrekten Reihenfolge es Buches aufzuführen (was nett ist aber nicht 100% notwendig) geht am einfachsten in dem man nacheinander die entsprechenden Tags ausliest. und dabei noch gleich die Seiten ausliest auf denen der Autor steht. Daher würde ich auch hier die intiale Liste erstellen lassen, sie könnte dann eine Tabellenform haben, wie:

Eintrag im Brümmer	Lemma	nur Verweis	Personenseite WP	Autorseite WS	autobiographisch	GND-Nummer	Sortierungstitel	ID Brümmernachlass
Allesch, Elly	Allesch, Elly	nein	Elly Allesch		nein	117761249	Allesch, Elly	131

Dieses Beispiel (fast komplett, musste länger suchen) ist perfekt maschinenlesbar. Die Recherche dafür hat jetzt komplett so 5 min gedauert... das wären dann 12.000 x 5 = 60.000 min = 1.000 h = 25 Mannwochen. Das sollten wir also auf keinen Fall komplett händisch erstellen. wofür können Einträge generiert werden:

Lemma ... 100% beim automatischen durchlauf
Personenseite 90% ... Suche im Lemma Verzeichniss, wenn ein einziger Titel gefunden wird ist davon auszugehen, dass es nur den einen Personenartikel gibt, aber da muss noch etwas denkarbeit reinfließen, falls Ergebnis unklar werden vielleicht vorschläge erteilt die abgearbeitet werden müssen
Autorenseite siehe oben
autobiographisch 100% ... beim automatischen Seitendurchlauf
GND-Nummer, wenn WP Artikel vorhanden, kann dieser abgerufen werden und daraus die GND extrahiert werden, Suche noch nach besseren Mitteln
Sortierungstitel, wenn nur ein Vorname, wird dieser Eintrag erstellt, sonst wird er frei gelassen und händisch bearbeitet
ID Brümmernachlass wird händisch erfasst, falls überhaupt, die Listen decken sich nicht sehr

--THE IT (Diskussion) 12:34, 1. Jan. 2015 (CET)Beantworten

was wollte ich damit ausdrücken ... bitte jetzt noch keine Arbeitszeit da rein versenken. Ich beeile mich wirklich sehr das Skript zum Parsen der Seiten fertig zu bekommen, dann wird jede Menge händische Arbeit für den ersten Band auf uns zukommen aber bis dahin befürchte ich ist die Arbeit an solchen Listen noch nicht wirklich produktiv eingesetzt. --THE IT (Diskussion) 12:36, 1. Jan. 2015 (CET)Beantworten

Die DeutscheNatBib gibt doch auch Dumps ihrer Datensätze aus, lassen die sich nicht automatisch nach geeigneten Kandidaten durchsuchen? Die sind allerdings riesig, im GB-Bereich. --Konrad Stein (Diskussion) 13:18, 2. Jan. 2015 (CET)Beantworten

Autorennamen

Ich hatte versucht eine vollständige Liste aller Autoren in der Reihenfolge der Bände (und des Anhangs) zu erstellen, die alle Informationen zum Namen der Autoren versammelt, die Brümmer im Kopf der Artikel gibt und auch die Auszeichnungen von Brümmer zu übernehmen. Sie ist Ruine geworden, da die Angaben teils unvollständig sind (definitiv, wo das Zeichen # darauf hinweist; unausgesprochen, wo der Eintrag abreißt). Sie zu vervollständigen würde viel händische Arbeit erfordern, die ich nur nach Euerem Votum beginnen würde. Immerhin sind ein paar Probleme klarer geworden.

Zunächst eine Kleinigkeit @The IT: ab Band 5 taucht das Tagg <persName> für die Lemmata auf, das es vorher nicht gab. Alle weiteren Namensformen sind leider ungetaggt und verschwinden damit im Fließtext oder sind durch Sperrung (seltener: Fettung) hervorgehoben. Das DTA plant scheinbar eine Überarbeitung der Taggung des Textkorpus, vielleicht können wir da Vorschläge machen – das wird sich jedoch zeitlich sehr hinziehen.
Es gibt eine Fülle an Namensformen, die von Brümmer durch eine Fülle an Kennzeichen hervorgehoben wird.
- Die einfachste Form ist ein Nachname (fett) ein Vorname (standard):
  - (*) Merth, Bernhard
- Bei mehreren Vornamen gewichtet Brümmer durch Heraushebung mittels Sperrung (hier: kursiv – das sollten wir für die Editionsrichtlinien auch so übernehmen):
  - (*) Marpurg, Karl Friedrich Otto
- dann gibt es noch die Fülle an Nebennamen, Pseudonymen, Mädchennamen, Berufsnamen, Namen vor und nach einem bestimmten Datum, selbst Fälle wo das Pseudonym amtlich zum bürgerlichen Namen geändert wird. Nachstehend ein paar Beispiele.
  - d’Abrest, Paul; eigentlich Friedrich Kohn
  - Abel, Clementine; geb. Hofmeister; pseud. Clelie Betemann
  - (*) Alt, Alarich vom; ist Pseudonym eines Dichters, das seine Verwandten noch nicht gelichtet zu sehen wünschen
  - Meske, Mathilde; geb. Küttner; bekannt unter ihrem Schauspieler- u. Schriftstellernamen Mathilde Veneta
  - (*) Müller-München (früher: Müller-Cassala), Gustav Adolf
- Die Frage ist wie damit umzugehen ist.
  - Robuste Lösung: Wir folgen dem Lemma-Ansatz von Brümmer und dessen angelegte Verweise und fertig.
  - Ideal-Lösung: Wir erstellen darüberhinaus ein Verzeichnis aller auftretenden Namensformen (und verlinken dann zum entsprechenden Artikel).
Gleiche Namen. Unser Umgang? Brümmer unterscheidet entweder semantisch oder durch Zusätze.
- (*) Scharf, Ludwig (nicht zu verwechseln mit dem Vorigen)
- (*) Fischer (aus Graz), Wilhelm
- (*) Fischer (von Thal), Wilhelm
Alphabetisierung. Hat Auswirkungen auf die nächster/voriger-Navigation. Vermutlich ist eine strikte Alphabetisierung (wie bei der ADB?) die beste Lösung. Allerdings würde das eine Festlegung auf eine Namensform bedingen. Hier die Klippen bei Brümmer.
- Fehler bei der Alphabetisierung
- I/J-Unterscheidung
- Neuartikel im Nachtrag
Initialien. Viele Namen sind nur Teilweise oder gar nicht aufgelöst. Hier ist sicher viel Recherchearbeit nötig. Ziel sollte jedenfalls sein für die festgelegte Namensform eine volle Auflösung zu erreichen.

Soweit ersteinmal. Viele Grüße --Konrad Stein (Diskussion) 13:10, 2. Jan. 2015 (CET)Beantworten

Zu der Fülle der Namensformen: Aus meiner Sicht bevorzuge ich natürlich die robuste Lösung, es minimiert selbstverständlich den manuellen Aufwand. Ich würde jetzt auch nicht den Vorteil sehen, die Autoren-Lemma umzuformen. Schließlich wollen wir ja den Brümmer wiedergeben und demnach auch seine Schreibung der Namen oder? Aber ich lasse mich hier gerne aufklären, dazu brauch ich euch. :-)

Die eigentlichen Namen sind, wie du schon erwähnt hast gut hervorgehoben, es wäre aber nicht das Problem die folgenden Textpassagen (100 Zeichen sollten reichen) in die schöne Autorentabelle mit zu übernehmen, daran kann dann in der manuellen Korrektur der Tabelle erkannt werden was gemacht werden muss und wonach gesucht werden muss.

Es stellt sich natürlich die Frage, ob die Verweise wirklich mit als Autorenartikel übernommen werden müssen, man könnte sie auch einfach in die Textbox der Zielartikel als alternative Namen eintragen. Inhaltlich haben diese nicht viel zu bieten, sondern würden nur als Landungsseite für Google dienen. (apropos kleiner Witz hier, Google findet bei den Wörtern und "DTA Brümmer" unsere Projektseite mittlerweile als Erstes ;-) )

Gleiche Namen: So zusätze wie "nicht zu verwechseln mit dem Vorigen" können natürlich so nicht übernommen werden, sondern müssten durch uns durch etwas Semantisches ersetzt werden.

Alphabetisierung: Bei Möglichkeiten (Reihenfolge wie im Brümmer oder korrekte alphabetische Reihenfolge) sind machbar, wir müssen uns nur einigen, was gemacht werden soll. Die von uns erstellten Lemmata korrekt nach Alphabet zu sortieren sollte möglich sein.

--THE IT (Diskussion) 23:55, 3. Jan. 2015 (CET)Beantworten

Hallo ihr beiden, Danke herzlichst für euer Brainstorming. Ich hoffe ich kann auch noch etwas beitragen. Es war ja von vornherein klar, dass, wenn die automatisierte Einstellung hinhaut, die Identifizierung und Verdatung der Autoren die meiste Handarbeit macht, die übrig bleibt. Das ist aber neben der Verlinkung und Integration in das Wikiversum auch einer der wichtigen Gründe für den Mehrwert des Brümmers auf WS. Zudem ist es auch eine reizvolle Aufgabe, zu der viele etwas beitragen können ohne sich was Großes ans Bein zu binden (War zumindest bei der ADB so, wo nicht nur Korrekturleser daran beteiligt waren), die ich aber notfalls auch alleine machen würde, schon um auch mal meinen Beitrag dazu zu leisten. Wir könnten aber auch zusätzlich im Rahmen der ohnehin in loser Folge in der rechten Spalte des WP-Kurier erscheinenden News aus WS auf das Projekt Brümmer hinweisen und unter dem Aspekt, das der Volltext bei uns auch eine wichtige Ressource für WP darstellt (damit es nicht nach plumper Abwerbung von Arbeitskraft aussieht), bitten, dabei zu helfen die Autoren zu identifizieren. Dort gibt es genügend erfahrene Leute, die das auch gerne machen, vielleicht aber auf WP kaum noch Gelegenheit zu solcher Pionierarbeit haben, weil die meisten relevanten Personen dort natürlich schon bekannt und wikifiziert sind. Zur Frage Vorher oder Nachher? denke ich:

Um weder den Schwung aus dem Projekt zu nehmen noch möglicherweise die automatisierte Einstellung zu komplizieren würde ich zunächst die "robuste" Lösung (Lemmata wie vorgefunden, Artikelfolge nach Brümmer, gesondertes Register jedoch alphabetisch) bevorzugen, welche dann im Laufe der Zeit mit den Recherchedaten ergänzt, abgeändert oder sonst wie feingeschliffen wird. Unpassende Ansetzungen werden verschoben, wo nötig Weiterleitungen und Verweise erstellt. Wie bei der ADB folgt die Artikelfolge und der Text (einschließlich Brümmers Ansetzung darin, die geht ja damit dem Leser nicht verloren) getreu der Vorlage, aber unser Lemma, der WS-Artikelname, ist unsere Sache und muss der modernen Ansetzung folgen. (Bei der ADB konnten wir auf das Register der E-ADB zurückgreifen, was jedoch im Nachhinein vielfach geändert werden musste, zum einen wg. der vielen gleichlautenden Herrschernamen und auch vieler heute unüblicher Ansetzungen). Das Gesamtregister sollte am Ende rein alphabetisch über alle Bände/Nachträge zum einen die heute gebräuchlichsten Lemmata sowie Pseudonyme, Brümmers Ansetzung oder sonstige Alternativen als Verweise/Weiterleitungen ggf. als eigenen Listeneintrag enthalten. Ein solches Register gibt es so auch noch nirgends und gehört zum Mehrwert, der eine Einstellung auf WS rechtfertigt.

An der letztgültigen Ansetzung mit den damit zu verknüpfende Daten sollte man in Ruhe gewissenhaft arbeiten können und das geht auch am besten, wenn der Text mit der Artikeltextbox für diese Daten schon da ist. Nützlich wäre ein System, wo wir die Artikel/Lemmata abhaken können, welche in dieser Hinsicht fertig sind. Entweder über eine versteckte Kategorie oder manuell in der Textbox, sodass Mehrfachrecherchen verschiedener Benutzer ausgeschlossen sind. Von einer massiven Verlinkung aus WS/WP sollte man so lange noch absehen, bis man entweder mit den endgültigen Lemmata ganz durch ist oder nur die bereits abgehakten nimmt. Bis dahin kann man bei neuen Autorenseiten auf WS noch die bisherige Variante mit dem IA-Link eintragen (Damit der Brümmer nicht vergessen wird) und später mit einer neuen Linkvorlage ersetzen, die, falls nicht schon längst von euch berücksichtigt, am besten analog zur ADB der Textbox entnommen werden könnte und auch für WP gilt. Falls noch nicht bekannt: Es gibt zu Bd. 1 (incl. Nachträge) bereits eine BEACON-Datei, siehe auch Wikisource:Skriptorium/Archiv/2013/November#Nachlass_Franz_Br.C3.BCmmer Vielleicht sollte man zu gegebener Zeit auch daran weiterarbeiten, denn das dürfte die Erreichbarkeit unserer Artikel erhöhen. --Rumpelsteig (Diskussion) 20:24, 4. Jan. 2015 (CET)Beantworten

Um das nochmal fest zu halten:

1) Lemmaansatz wie im Brümmer gefunden übernehmen?

Sorry, ich hatte wg. Crash keine Netzzugang. Ich denke zunächst ja, würde aber Konrad, (sobald er wieder kann) nochmal fragen, ob ihm etwas besseres einfällt. Falls man vorher noch ein paar Gurken korrigieren möchte kann man es ja tun, aber die gesammte Autorenliste dauert eben und am besten arbeitet man bei der Identifizierung, wenn eben die Artikel mit Textboxen schon da sind, wo man alles gleich eintragen kann.

2) Reihenfolge Brümmers übernehmen (ist meiner Meinung nach eh weniger relevant, da man sich eher nicht alles Autoren hintereinander durchliest)

Also die Frage, ob es eine einfache rein alphabetische Artikelsammlung oder die Abbildung des ganzen Bandes wie bei der ADB in der originalen Artikelfolge werden soll (wie dort mit Ausnahme der Transkription der Register zugunsten eines eigenen Gesammtregisters ADB:Register), was auch der DTA-Version am nächsten kommen würde. Es war ursprünglich schon mein Wunsch, so nah wie möglich an Gestalt und Funktionen der ADB zu kommen (alleine schon weil mir auch nichts besseres eingefallen wäre), ohne jedoch Ahnung zu haben, wie dann die botgestützte Einstellung im Detail zu machen ist. Wenn du so fragst ist vermutlich letztere Variante wesentlich aufwändiger. Ich bin aber für alles offen. Am Ende zählt bei einem Werk wie dem Brümmer vor allem der praktische Wert und natürlich die gewohnte WS-Textqualität und die wird hier vielleicht sogar noch übertroffen. Ist ja kein Gedichtband oder Kunstbuch wo die Gesamtgestalt eine Rolle spielen könnte.

3) Gesondertes alphabetisches Verzeichnis erstellen mit Klarnamen?

Ich würde sagen für die erste Übersicht beim arbeiten zunächst mal nur eine schlichte Artikelliste wie sie auch Catscan ausspuckt mit den Lemmata, welche wir beim Einstellen haben. Wenn wir am Ende die ggf. korrigierten endgültigen Lemmata haben, können wir sehen, was für ein Register wir genau haben möchten, ob und falls ja welche weiteren Informationen neben dem Link (Lemma) enthalten sein sollen, denn eigentlich ist ja alles wichtige in der Textbox zu finden. Könnte also aus meiner Sicht erst ganz zum Schluss kommen

habe ich das so richtig verstanden? Wie soll mit den Verweisen verfahren werden? --THE IT (Diskussion) 07:05, 5. Jan. 2015 (CET)Beantworten

Ich glaube, das kommt darauf an, ob wir uns für eine Artikelsammlung oder der genauen Abbildung des ganzen Bandes wie bei der ADB entscheiden. In letzterem Falle sollten wir dem Beispiel der ADB folgen Wikisource:ADB-Werkstatt/Register/Verweise ansonsten bräuchten wir Verweise überhaupt nicht als Artikel (bestenfalls als Weiterleitung für besseres Auffinden über die Suchmaschine) einzustellen, aber im Register sollen die Alternativnamen mit Link auf den eigentlichen Artikel eingerückt werden. Falls sich die Verweise nicht automatisch aussortieren lassen, entfernen wir überflüssigen Verweisartikel nachher von Hand per SLA oder was auch immer dir für eine Lösung einfällt.

Ich würde gerne nochmals die Meinung von Konrad dazu hören (sobald er wieder kann) und falls ein anderer Mitleser noch irgendwelche Ideen oder Wünsche dazu hat, möge er sich bitte auch melden, damit die Eckpfeiler mal abgesteckt werden können. --Rumpelsteig (Diskussion) 16:56, 20. Jan. 2015 (CET)Beantworten

Abschnitt hinzufügen