Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Dokumentation Version 4.0

Dokumentation der vierten Version von Ridges Herbology.

Korpus-Pipeline

  1. Erweiterung von Version 3.0 mit sieben weiteren Texten:
    Gart der Gesundheit
    Artzney Buchlein der kreutter
    Contrafayt kreüterbuch
    Paradeißgärtlein
    Kräutterbuch des Edelen und hochgelehrten herren
    Pflantz-Gart
    Der Schweizerische Botanicus
    Eine vollständige Liste aller Dokumente dieser Version lässt sich unter Downloads finden.
  2. Transkription, manuelle Erstellung und Korrektur von <dipl>, <clean> und <norm>.
  3. Manuelle Erstellung und Korrektur von strukturellen und inhaltlichen Annotationen, technische Hilfe in MS Excel mit den Makros DeleteSpaces (Readme) und SearchAndMerge (Readme).
  4. Wortartentagging und Lemmatisierung mit TreeTagger-Batch und TreeTagger. Anführungszeichen im Text können zu Fehlern führen, weshalb diese maskiert werden sollten. Desweiteren werden Leerzeilen im Text durch den TreeTagger gelöscht, sodass Fehler in der Segmentierung entstehen können. Deshalb sollten diese durch einen beliebigen Tag (z.B. <9>) gefüllt werden und die Option -sgml sollte beim taggen benutzt werden. Diese Tags werden dann nicht getaggt und können anschließend wieder entfernt werden.
  5. Semi-automatische Korrektur der Wortarten in <pos> mit einer Modifikation von DECCA (Dickinson und Meurers 2003) sowie eines weiteren Skripts (Readme) (Dickinson und Meurers 2003, lizensiert unter Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License). Creative Commons License
  6. Automatische Erstellung von <clean> (Python-Skript und Readme).
  7. Manuelle Korrektur von <norm> und Ersetzung bzw. Vereinheitlichung sämtlicher pos-Annotationen nicht leserlicher Token mit Hilfe des Makros ReplacePosOfUnclear (Readme) zu "XY" in MS Excel.
  8. Konvertierung des Korpus nach ANNIS.

 

 

Korpus-Design

 

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Für das erste RIDGES-Korpus haben wir den Bereich der Kräuterkunde gewählt. Der Untersuchungszeitraum wurde ursprünglich in 30-jährige Abschnitte unterteilt. In Version 3 und 4 kamen neue Texte hinzu, so dass die einzelnen Abschnitte kleiner wurden. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 4.000 bis 10.000 Wortformen. Jahr-Token-Übersicht zu Ridges V4

 

Annotationsebenen

Die Annotationsbenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in vier Gruppen untergliedern.

  1. Transkription/Normalisierung
  2. Linguistische Annotationen
  3. Strukturelle Annotationen
  4. Inhaltliche Annotationen
  5. Metadaten

 

Transkription/Normalisierung

Diese Annotationen entsprechen immer genau einem Token. Part-of-speech-Annotationen (Wortarten) und Lemmatisierung wurden mit TreeTagger durchgeführt und von Hand korrigiert.

Annotationsebene und -wert(e) Beschreibung
dipl
Annotationswert(e):
  • Text
Die Transkription von Faksimiles stellt für die korpuslinguistische Aufbereitung zumeist die grundlegende, diplomatische Ebene (dipl). Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich kann so auch entgegen modernen Orthographieregeln segmentiert oder transkribiert werden. Eine Unicode-Tabelle mit Sonderzeichen wurde dabei zu Hilfe genommen.
clean
Annotationswert(e):
  • Text
Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Die neuen Dokumente aus Version 4.0 stellen neue Anforderungen an die automatisch erstellte clean-Ebene. Mit Makra versehene Vokale können nicht länger kontextabhängig normalisiert werden. Deshalb werden ab Version 4.0 für Token, die Vokale mit Makra enthalten alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch '|' getrennt (zum Beispiel: 'auſzwēdig' to: 'auszwemdig|auszwendig'). Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript, das zur Erstellung benutzt wurde.
norm
Annotationswert(e):
  • Text
Die norm-Ebene stellt einen weiteren Normalisierungsschritt dar, indem hier die Tokenisierung und die Orthografie einheitlich nach modernen Orthografieregeln (vgl. Duden) angepasst werden, wobei die Flexion, wie z.B. Kasuszuweisungen, nicht berücksichtigt wird.

 

Linguistische Annotationen

Annotationsebene und -wert(e) Beschreibung
pos
Annotationswert(e):
  • STTS
Semi-automatisch korrigierte (DECCA) Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset (STTS).
lemma
Annotationswert(e):
  • Text (type)
Lemmatisierung: Normalisierung der flektierten Wortformen, Zuordnung der entsprechenden Lexikoneinträge zu jeder Wortform.
hyperlemma
Annotationswert(e):
  • Text
In Fällen, in denen semantisch ein Begriff wie Heumonat nicht mehr transparent ist, wird ein modernes Äquivalent, z. B. HeumonatJuli, angegeben.
foreign
Annotationswert(e):
  • foreign
Markiert einen Text, der in einer Fremdsprache geschrieben ist.
foreign_trans
Annotationswert(e):
  • trans_to_german
  • trans_from_german
  • trans_from_german_extended
  • trans_to_german_extended
Beschreibung der Zielsprache und der Ausgangssprache einer Übersetzung.
lang
Annotationswert(e):
Kodiert die konkrete Sprache des im Layer foreign markierten Textes nach ISO Drei-Buchstaben-Code (z. B. lat).

 

Strukturelle Annotationen

Annotationsebene und -wert(e) Beschreibung
lb
Annotationswert(e):
  • lb
Markierung einer ganzen Zeile.
brace
Annotationswert(e):
  • brLeft
  • brRight
Markierung einer Klammer, die Text über mehrere Zeilen zusammenfasst.
brace_dir
Annotationswert(e):
  • left
Richtung der Klammer
p
Annotationswert(e):
  • p
Markierung eines ganzen Paragraphen.
p_n
Annotationswert(e):
  • Number or letter
Markiert die Nummerierung eines Paragraphen.
p_rend
Annotationswert(e):
  • initialcapital
  • bigboldtype
Beschreibung der Darstellung eines Paragraphen.
pb
Annotationswert(e):
  • pb
Markierung einer ganzen Seite.
pb_n
Annotationswert(e):
  • Number or Letter
Seitenzahl.
pb_rend
Annotationswert(e):
  • AmbeſtenzuDiſtilliren.
  • AuffsbeſtzuDiſtilliren.
  • AußKräuternvnddergleichen
  • inheader:VonChamillen.Cap.VIII.
  • inheader:VonDrachenwurtz.Cap.IIII.
  • inheader:VonEibisch.Cap.V.
  • inheader:VonHaſelwurtz.Cap.III.
  • inheader:VonStaubwurtz.Cap.II.
  • inheader:VonWermůt.Cap.I.
  • inheader:Vorred
  • inheader:Vorred,signature&'A&'atbottomofpage
  • inheader:Vorred,signature&'Aiij&'atbottomofpage
  • inheader:Vorrede.
  • inheaderVorred
  • inheaderVorred,signature&'Aiiij&'atbottomofpage
  • inheaderVorred,signature´Aio`atbottomofpage
  • Ohlzumachen.
  • Salzmachen.
  • WaſſeraußKräuternvnddergleichen
  • WaſſeraußKreuternvnddergleichen
  • ZumbeſtenzuDiſtilliren.
Beschreibung der Darstellung/ Zuordnung einer Seite, mehrerer Seiten.
pb_ana
Annotationswert(e):
  • Number or Letter
Korrektur/ Interpretation von vermutlich nicht korrekten Seitenzahlangaben.
div1 - div5
Annotationswert(e):
  • div
Eine Sektion, ein Kapitel/Unterkapitel eines Dokuments. Die verschachtelte Tiefe wird explizit von der angegebenen Nummer von div in der PAULA/relANNIS Version angezeigt. Gilt pro Ebene (div1-div5).
div1_type - div5_type
Annotationswert(e):
  • appendix
  • book
  • chapter
  • description
  • form
  • herb
  • names
  • name
  • nature
  • parts_preparation_and_uses
  • places
  • place
  • preface
  • power
  • reproduction
  • season
  • section
  • species
  • title
  • time
  • utensils
Beschreibt den Typ/die Art des Kapitels/Unterkapitels. Die Einteilung könne von einem ganzen Buch, über Kapitel bis hin zu Unterkapitel reichen. Dazu können auch registerspezifische Typen wie Ort des Anbaus oder Form einer Pflanze zählen. Gilt pro Ebene (div1-div5).
div2_n - div3_n
Annotationswert(e):
  • Number
Markiert eine mit Ziffern oder Buchstaben nummerierte Sektion. Gilt für alle Ebenen (div1-div5).
unclear
Annotationswert(e):
  • unclear
Markierung, dass Zeichen eines Tokens oder ein Token bzw. ein Text nicht lesbar sind.
atLeast
Annotationswert(e):
  • Number
Geschätzte, minimale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
atMost
Annotationswert(e):
  • Number
Geschätzte, maximale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
interpretation
Annotationswert(e):
  • Text
Interpretationsvorschläge für unleserliche Zeichen/Zeichenketten, die in der Annotationsebene unclear als „unclear“ getagged sind.
figure
Annotationswert(e):
  • figure
  • table
Markiert eine Grafik, die im Text eingebettet ist.
figure_rend
Annotationswert(e):
  • Drawingofa'WaldenburgischerKolben'
  • DrawingofaDILL.
  • DrawingofaDRACHENWURTZ.
  • Drawingofafilter
  • DrawingofaGAUCHHEYL.
  • DrawingofaHASELWURTZ.
  • DrawingofaHAUSWURZ.
  • Drawingofahelmet
  • DrawingofaHÜHNERDARM.
  • DrawingofaKAMILLE.
  • DrawingofanEIBISCH.
  • Drawingofaninstrument
  • DrawingofaSTAUBWURTZ.
  • Drawingofthreeglasses
  • Drawingofthreejars
  • Drawingoftwoalembics
  • Drawingoftwoglasses
  • Drawingoftwojars
Beschreibung, was auf einer Grafik (annotiert mit figure) zu sehen ist (z. B. Darstellung einer Pflanze oder eines Destilliergeräts).
hi
Annotationswert(e):
  • hi
Markierung eines irgendwie hervorgehobenen Bereichs.
hi_font
Annotationswert(e):
  • antiqua
  • fracture
Beschreibung von Schriftartenänderungen, wobei die vorwiegende Schriftart als default-Wert gesetzt wurde.
hi_rend
Annotationswert(e):
  • antiqua
  • bold
  • end
  • inicap
  • italics
  • letter-spacing:1em
  • red
Beschreibung der Darstellung des hervorgehobenen Bereichs, z. B. Schriftart, Farben etc.
head
Annotationswert(e):
  • head
Markierung einer Überschrift.
head_n
Annotationswert(e):
  • Number
Zeigt die Nummerierung einer Überschrift an.
head_rend
Annotationswert(e):
  • brown
Beschreibung der grafischen Darstellung der Überschrift, z. B. Farbe.
note
Annotationswert(e):
  • note
  • margin
  • end
In einer Spannenannotation wird die gesamte Fußnote mit dem Tag „note“ markiert. Der Text der Fußnoten wird immer am Ende des Absatzes, in dem sie eingepflegt sind, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.
ref
Annotationswert(e):
  • ref
Referenz einer Fußnote.
ref_target
Annotationswert(e):
  • #fZ (Z is a number)
ID der Fußnote, auf die referiert wird. Es wird fortlaufend mit #fZ nummeriert.
ref_type
Annotationswert(e):
  • noteAnchor
Art der Referenz, z.B. TEI "noteAnchor".
quote
Annotationswert(e):
  • quote
Markiert ein Zitat im Text.
list
Annotationswert(e):
  • list
Allgemeine Markierung einer Liste.
list_type
Annotationswert(e):
  • simple
Beschreibung der Art der Liste.
item
Annotationswert(e):
  • item
Element des Textes, der als Liste in der Ebene list markiert ist.
xml_id
Annotationswert(e):
  • fZ (Z is a number)
Bezeichnet die konkrete Nummer der Fußnote in einem Dokument, angefangen mit dem Zähler 1. Fußnoten sind in ihrer Indizierung unabhängig von ihrer tatsächlichen Nummerierung im Text. Der ersten Fußnote wird über xml_id die Kennzeichung f1, der zweiten f2 etc. zugewiesen, selbst wenn sie bspw. im Text die Nummer 86) darstellt oder mit **) markiert ist.

 

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und -wert(e) Beschreibung
definition
Annotationswert(e):
  • fig
  • expl
Beschreibung (fig) oder Erklärung (expl) eines auf eine Abbildung bezogenen oder im Text genannten Begriffs.
disease
Annotationswert(e):
  • di
Nennung einer Krankheit (Beschwerden, Symptome etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. der Bauch, der weh tut oder Bauchweh.
term
Annotationswert(e):
  • t
  • h
  • d
  • j
Linguistische Annotation, die einen technischen oder wissenschaftlichen Begriff markiert, unterschieden in term (t), herb (h) und disease (d). Bei 'j' handelt es sich höchstwahrscheinlich um einen Tippfehler.
author_ref
Annotationswert(e):
  • author
  • include
  • other
  • proin1sg
  • pron1pl
  • pron1sg
  • pron2sg
  • pron3sg
Markiert Referenzen des Autors auf sich oder andere Autoren bzw. auf beide.
reader_ref
Annotationswert(e):
  • address
  • adress
  • pron1pl
  • pron2pl
  • pron2sg
  • pron3sg
  • reader
Markiert Referenzen des Autors auf den Leser.
plant
Annotationswert(e):
  • pl
Nennung einer Pflanze (Kräuter wie Bäume wie Blumen etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. das Kraut, das hinter dem Bahnhof wächst oder Kamille.
property
Annotationswert(e):
  • appearance
  • cultivation
  • effect
  • preparation
  • smell
  • taste
Beschreibt den Bezug von Eigenschaften wie Geruch, Aussehen etc. auf eine Referenz (z.B. Kraut).
name
Annotationswert(e):
  • name
Markiert Eigennamen.
name_type
Annotationswert(e):
  • flower
  • gardener
  • herb
  • person
  • plant
  • publisher
  • scholar
  • tree
Spezifiziert den Typ der Eigennamen.

 

Metadaten

Diese Annotationen folgen den TEI-P5-Richtlinien.

Annotationsebene und -wert(e) Beschreibung
meta::author
Annotationswert(e):
  • author
Name des Autors.
meta::bibl
Annotationswert(e):
  • bibl
Voller bibliographischer Eintrag für die Quelle inklusive der im Korpus annotatierten Seitenzahlen.
meta::date
Annotationswert(e):
  • date
Datum der Veröffentlichung, normalerweise das Jahr.
meta::publisher
Annotationswert(e):
  • publisher
Verleger.
meta::pubPlace
Annotationswert(e):
  • pubPlace
Verlagsort.
meta::title
Annotationswert(e):
  • title
Titel der Arbeit, aus dem das Dokument extrahiert wurde.