Wikisource:Metadaten

Als Metadaten werden im Allgemeinen Daten bezeichnet, die Informationen über andere Daten enthalten. Für die in Wikisource erschlossenen Werke sind dies in erster Linie bibliographische (Titel, Entstehungsjahr, Herausgeber...) und editorische (Bearbeitungsstand, Hauptautoren...) Angaben. Um die Ergebnisse von Wikisource über weitere Kreise hinaus nutzbar zu machen, ist die Angabe und Weitergabe von Metadaten notwendig; so könnten beispielsweise die in Wikisource digitalisierten Werke über Bibliotheksataloge und Spezialsuchmaschinen suchbar gemacht werden.

Die Anreicherung von Werken auf Wikisource mit Metadaten sowie Mittel zu ihrer Kontrolle und Weitergabe stecken noch in den Kinderschuhen. Diese Seite fasst vorhandene Ansätze und Lösungen sowie Möglichkeiten der Weiterentwicklung zusammen.

Metadaten in Wikidata

Vgl. Formal- und Sacherschließunng der Gartenlaube und anderer Werke: Wikisource:Wikidata.

Vorhandene Metadaten

Bereits seit Ende August 2005 wird die Vorlage:Textdaten verwendet, um Metadaten zu Texten in Wikisource anzugeben. Die Vorlage enthält eine Reihe von (zur Zeit 21) Datenfelder, die auf der Beschreibungsseite dokumentiert sind. Dies sind:

|VORIGER=
|NAECHSTER=
|AUTOR=
|TITEL=
|SUBTITEL=
|HERKUNFT=
|HERAUSGEBER=
|AUFLAGE=
|ENTSTEHUNGSJAHR=
|ERSCHEINUNGSJAHR=
|ERSCHEINUNGSORT=
|ÜBERSETZER=
|ORIGINALTITEL=
|ORIGINALSUBTITEL=
|ORIGINALHERKUNFT=
|WIKIPEDIA=
|BILD=
|QUELLE=
|KURZBESCHREIBUNG=
|SONSTIGES=
|BEARBEITUNGSSTAND=

Zusätzliche Metadaten sind mittels Kategorien durch die Wikisource:Systematik angegeben. Darüber hinaus lassen sich weitere Metdaten indirekt erschließen:

Über die Versionsgeschichte (wer hat die Seite wann und wie oft bearbeitet), die aus dem Datenbankdump und eine API verfügbar ist
Über weitere Vorlagen und einheitliche Merkmale im Text, die in der Regel durch die Wikisource:Editionsrichtlinien geregelt sind (z.B, Seitenzahlen, Zeilennummern, Anmerkungen).
Über die Verlinkung mit weiteren Quellen, z.B. der Wikipedia, wo weitere Daten wie zum Beispiel Geokoordinaten und Personendaten abgelegt sind.

Bestandsaufnahme

Eine systematische Bestandsaufnahme, welche Metadaten in welcher Form, welchem Umfang und welcher Qualität vorhanden sind und wie sie sich auswerten lassen, existiert bislang nicht. Eine solche Bestandsaufnahme ist wünschenswert, um die Qualität beurteilen und verbessern zu können, Lücken und Stärken aufzudecken und die Verfügbarmachung der Metadaten über das Projekt hinaus zu verbessern.

Offene Aufgabe - hier ist Hilfe erwünscht!

Vergleich mit anderen Metadatenformaten

Der Vergleich mit anderen Metadatenformaten kann zum einen wertvollen Input liefern, noch viel wichtiger ist jedoch, dass zur Weiterverarbeitung der Metadaten diese in andere, etablierte Formate umgewandelt werden müssen. Die dazu notwendigen Umwandlungsregeln werden auch als Transformation oder Konkordanz bezeichnet. Die Erstellung von Konkordanzen erfordert viel Sachverstand und ein Testen an Daten aus der Praxis. Teilweise wurden in der Informatik im Rahmen der Informationsintegration auch (teil)automatische Verfahren entwickelt. Häufige Probleme bei der Erstellung von Konkordanzen sind unterschiedliche Designprinzipien und Detailgrade der Formate sowie die trotz definierter Formate hohe heterogene der vorliegenden Daten.

Offene Aufgabe - hier ist Hilfe erwünscht!

Abbildung auf Dublin Core

Als kleinster gemeinsamer Nenner ist eine Abbildung auf den Dublin Core-Metadatenstandard notwendig. Dublin Core ist jedoch nur ein sehr einfaches und allgemeines Format, das kein detaillierteres Format ersetzen kann.

Abbildung auf ZVDD

Siehe Wikisource:Metadaten/MAB-Konkordanz (wichtiger für ZVDD) und Wikisource:Skriptorium/Archiv/2006/5#Aufnahme_in_ZVDD - bislang allerding lediglich einige skizzierten Ansätze.

Andere Metadatenformate für Digitalisate

Allgemein für bibliographische Daten: METS, MARC, MAB...
Der Standard für die tiefergehende Codierung von Texten (Inhalt, Struktur, Sprache...)ist das Format der Text Encoding Initiative (TEI)
...weitere Formate...

Welche Datenfelder sind vorhanden / werden benötigt

Titel - natürlich
Verfasser - möglichst mit PND-Nummer
Weitere Beteiligte Personen
Beteiligte Körperschaften - möglichst mit GKD-Nummer
Erschienen - Datum des Originals
DDC-Nummer: ZVDD soll mittels der (ersten drei Ebenen der) DDC durchsuchbar werden (siehe http://zvdd.gbv.de/ "Zugang nach DDC Klassen" - deshalb sollte jedes Dokument in Wikisource mit einer oder mehreren (mindestens) dreistelligen DDC-Nummern versehen sein. Die DDC ist zwar unfrei aber die ersten drei Ebenen können durchsucht werden, siehe [1].
Sammlung - dürfte immer gleich sein (Wikisource), ggf. haben wir Untersammlungen
Umfang - Anzahl der Seiten, Abbildungen etc.
Anmerkung
URL
Sprache(n)

Datenformate

Die Datenlieferung an ZVDD erfolgt beispielsweise im MabXML-Format (siehe de:Maschinelles Austauschformat für Bibliotheken sowie Kurzübersicht und Architektur)

Anreicherung der Metadaten

Zur Weiterverarbeitung und Bewertung müssen die Metadaten erst mit geeigneten Mitteln extrahiert (z.B. aus dem XML-Dump oder über die API) und anschließend transformiert werden. Die Transformation kann mittels Konkordanzen in andere Datenformate geschehen und/oder darauf abzielen, die Metadaten zu analysieren und du verbessern. Dazu sind geeignete Tools, möglichst als Webapplikationen, zu schaffen - ähnlich wie bei der Einführung der Personendaten und PND-Nummern in Wikipedia. Mit solchen Hilfsmitteln können zum Beispiel die Texte in Wikisource mit Normdaten verknüpft werden, die für die beteiligten Personen Vorname, Nachname und Geburtsdaten enthalten, und/oder häufige Fehler korrigiert werden. Die angereicherten Metadaten können entweder direkt in Wikisource abgespeichert oder in eine eigene Datenbank übertragen werden.

Beispiel: Per JavaScript wird über http://de.wikisource.org/w/query.php der Autor eines Werkes ausgelesen und in Wikipedia oder dem Katalog der Deutschen Bibliothek nach einem passenden Personennormdatensatz gesucht. Aus den treffern kann der passende Datensatz ausgewählt werden, deren PND-Nummer mit im Artikel eingetragen wird.

Offene Aufgabe - hier ist Hilfe erwünscht!

Weitergabe der Metadaten

Die aufbereiteten Metadaten sollten möglichst in vielen bekannten Formaten als freie Inhalte zur Verfügung gestellt werden. Eine Möglichkeit dafür ist OAI.

OAI-Schnittstelle

Beitrag hierher kopiert.

Damit die im Rahmen von Wikisource digitalisierten Texte später in das momentan im Aufbau befindliche Zentrale Verzeichnis Digitalisierter Drucke (http://www.zvdd.de/) aufgenommen werden, ist die Schaffung einer OAI-Schnittstelle notwendig (zu OAI siehe Open Archives Initiative). Hier stellt sich die Frage ob diese Schnittstelle als Modul in die Mediawiki-Software integriert werden könnte, oder ob die in den Einstiegsseiten der einzelnen Projekte abgelegten Metadaten über einen Harvester gesammelt und über den von Wikimedia betriebenen Toolserver für die Bibliotheken zur Verfügung gestellt werden sollten. Voraussetzung für dies alles ist eine projektinterne Verständigung auf ein Modell für die Metadaten (wie etwa das von Patrick bereits weiter oben angesprochene Dublin Core) notwendig. Die Metadaten selbst könnten über Templates eingebunden sein, die – so wie die Personendaten in der Wikipedia – für den Nutzer nicht sichtbar sind.

Möglicherweise ist nicht unbedingt OAI notwendig sondern ein einfaches Webformular reicht auch aus. Zunächst muss Wikisiource als Sammlung in ZVDD aufgenommen werden (siehe Sammlungsliste) - da kann ich mich gerne drum kümmern, aber unter welchem Namen und welchem Ort? -- JakobVoss 15:49, 29. Jul 2006 (UTC)

Für OAI halte ich ein Template für Metadaten wie bei den Personendaten für die beste Möglichkeit zur Implementation. Die Seiten, bei denen das Template eingebunden ist, werden regelmäßig ausgewertet und die einzelnen Felder in eine Datenbank eingespeist, die über OAI abfragbar ist. Ich schätze den Programmieraufwand auf höchstens eine Woche, allerdings sollte zunächst geklärt werden, welche Metadaten notwendig sind und wie sie auf Dublin Core und ggf. andere Formate abgebildet werden können. Im ZVDD (http://www.zvdd.de/) sind u.A. DDC-Klasse, Autor, Sammlung und Publikationstyp angegeben - ich frage mal nach dem konkreten Format nach. -- JakobVoss 20:18, 27. Mai 2006 (UTC)

Reichen vielleicht die auf http://dublincore.org/documents/dces/ beschriebenen Elemente für eine erste Version aus? --Frank Schulenburg 23:14, 28. Mai 2006 (UTC)

Ein Teil davon steht schon in Vorlage:Textdaten. Ich denke es wäre sinnvoller, diese Vorlage anzupassen, statt eine komplett neue Metadatenvorlage zu erstellen. -- Timo Müller Diskussion 19:43, 29. Mai 2006 (UTC)

Die Metadatenvorlage wird Dublin-Core-Elemente (englischsprachig) enthalten. Ich bin mir nicht sicher, ob wir das mit der Vorlage:Textdaten verbinden können werden. --Frank Schulenburg 21:19, 29. Mai 2006 (UTC)

METS-Datei für DFG-Viewer

Hallo! Wie unter http://jakoblog.de/2008/03/31/wikisource-im-dfg-viewer-dank-schnittstellen/ beschrieben habe ich als Proof-of-Concept ein Perl-Skript geschrieben, dass aus Index:Mittelalterliches_Hausbuch eine METS-Datei erzeugt, die im DFG-Viewer angezeigt werden kann:

http://dfg-viewer.de/v1/?set%5Bmets%5D=http%3A%2F%2Fjakoblog.de%2Fwp-content%2Fuploads%2F2008%2F03%2Fmets-example.xml

Die inhaltliche Struktur wird nicht übernommen, wäre aber auch möglich. Nur mal als Beispiel, was für Mashups mit Wikisource so möglich sind. -- JakobVoss 16:10, 31. Mär. 2008 (CEST)[Beantworten]

Siehe auch

Erste Vorschläge zum Thema gab es unter Anderem in der Diskussion zur Professionalisierung von Wikisource (Mai 2006)

Neuer Anlauf zur Diskussion 2009

Integration von Wikisource in den KUG
- Blogeintrag mit Hintergrundinformationen
- Katalogsicht von Wikisource

Sammlung der Aufgabenbereiche

Für eine strukturierte maschinelle Auswertung der Templates Personen- und Textdaten müssen folgende Bereiche angegangen werden:

Definierte Trenner bei Mehrfachinhalten: Derzeit werden mehrere Personen im Feld AUTOR durch verschiedene Zeichen(ketten) voneinander getrennt (HTML-BR, Komma, 'und', Semikolon). Hier sollte ein verbindlicher Trenner definiert werden, z.B. ' ; ' (Leerzeichen Semikolon Leerzeichen).

Beschreibender Text in Feldern: Im AUTOR-Feld wird z.T. beschreibender Text wie als Übersetzer von aus Unterm_Lindenbaume verwendet, wo eine strukturierte Nennung der Person in einem geeigneten anderen Feld - UEBERSETZER existiert z.B. bereits - deutlich besser gewesen wäre. Hier sollten Kategorien definiert werden, in denen beschreibender Text nicht verwendet werden darf, z.B. AUTOR, HERAUSGEBER, UEBERSETZER.

Umgang mit Referenzen: Im AUTOR-Feld wird - z.B. wenn eine Herkunft nicht vollständig geklärt ist - mit Referenzen bzw. Fußnoten gearbeitet. Das ist im Wiki praktisch, für eine strukturierte Weiterverarbeitung aber problematisch und diese Verweise müssten entweder aufgelöst oder eliminiert werden. Sollten die Inhalte, wie z.B. in An_die_Sonne oder Fluch_eines_Eifersüchtigen aber einfach eliminiert werden, dann geht damit die entsprechende - potentiell wesentliche - Information verloren. Eine Möglichkeit für eine Auflösung wäre ein allgemeines Bemerkungsfeld für die entsprechenden Informationen. Dieses würde sich aber schwer in den Textdatenbereich der Einträge vom Umfang her unterbringen lassen.

Hierarchien: Wie sollen Hierarchien strukturiert abgebildet werden? Derzeit wird hierzu häufig die Kategorisierung verwendet oder ein übergeordneter Titel ist im Feld HERKUNFT genannt, aber in etwaig anderen Text (mit Verweisen) eingebettet. In der englischen Wikisource ist das z.B. häufig sehr problematisch mit relativen Verweisen ala '../' wie bei As_You_Like_It/Act_I gelöst. Sinnvoll wäre hier eine eigene Kategorie UEBERORDNUNGEN mit Verweisen auf den oder die Titel (und einem definierten Trenner, s.o.).

--OliverFlimm 09:54, 14. Aug. 2009 (CEST)[Beantworten]

Stellungnahmen

Umgang mit Referenzen: Diese Verwendungen sehe ich von keinem Konsens gedeckt, sie sind auch eher sehr selten. Ich erörtere dergleichen unter Anmerkungen Wikisource, nicht in der Textbox. Es ist die Frage, ob es schadet, bei Feldinhalten generell "(?)" zuzulassen. Es muss nicht alles in die Textbox gestopft werden. Ich sehe keinerlei Problem die Verweise rauszuwerfen und in einem Kommentarteil unterzubringen.

Die Textbox und das Feld HERKUNFT verursacht mir häufig schlaflose Nächte, zumal eine normale bibliographische Angabe selbst von Hochbegabten nicht aus der Textbox rekonstruiert werden kann. Felder können sowohl auf HERKUNFT also auch auf Quelle bezüglich sein.

Die Umgestaltung der Textbox sollte Dublin-Core/OAI-Kompatibilität als Fernziel im Auge haben --FrobenChristoph 19:37, 14. Aug. 2009 (CEST)[Beantworten]