Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Dokumentation Version 5.0

Dokumentation der fünften Version von Ridges Herbology.

Korpus-Pipeline

  1. Erweiterung durch sieben weitere Texte:
    BuchDerNatur_1482_vonMegenberg
    NewKreuetterBuch_1539_Bock
    NewKreueterbuch_1563_Handsch
    Phythologia_1662_Becher
    TheatrumBotanicum_1696_Verzascha
    ViridariumReformatum_1719_Valentini
    Kraeuterbuch_1914_Losch
    Eine vollständige Liste aller Dokumente dieser Version lässt sich unter Download finden.
  2. Transkription und anschließende Tokenisierung der sieben neuen Texte mit TreeTagger.
  3. Manuelle Erstellung von <norm> und manuelle Korrektur von <dipl> und <norm> in allen 4.1-Texten, die vor 1652 publiziert wurden.
  4. Wortartentagging und Lemmatisierung in allen Dokumenten (4.1 und 5.0) mit TreeTagger-Batch und TreeTagger. Anführungszeichen im Text können zu Fehlern führen, weshalb diese maskiert werden sollten. Desweiteren werden Leerzeilen im Text durch den TreeTagger gelöscht, sodass Fehler in der Segmentierung entstehen können. Deshalb sollten diese durch einen beliebigen Tag (z.B. <9>) gefüllt werden und die Option -sgml sollte beim taggen benutzt werden. Diese Tags werden dann nicht getaggt und können anschließend wieder entfernt werden. Nach dem Zusammenführen des TreeTagger-Outputs mit den MS Excel-Dateien, wird mit dem Makro SearchAndMerge die Segmentierung rekonstruiert(Readme).
  5. Manuelle Erstellung und Korrektur von strukturellen und inhaltlichen Annotationen.
  6. Automatische Ersetzung bestimmter Sonderzeichen in <dipl> aller Dokumente mit NormalizeDipl (z.B. wurden alle Makra durch Tilden ersetzt).
  7. Semi-automatische Erstellung von <clean> für alle Dokumente(Python-Skript und Readme, funktioniert in dieser Version nur unter Python 2.x).
  8. Ersetzung bzw. Vereinheitlichung sämtlicher pos-Annotationen nicht leserlicher Token mit Hilfe des Makros ReplacePosOfUnclear (Readme) zu "XY" in MS Excel.
  9. Konvertierung des Korpus nach ANNIS und nach PAULA mit Pepper.

 

 

Korpus-Design

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Deshalb haben wir den Bereich der Kräuterkunde gewählt. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 3.000 bis 10.000 Wortformen. Jahr-dipl-Übersicht zu Ridges v5

 

Annotationsebenen

Die Annotationsbenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in vier Gruppen untergliedern.

 

  1. Transkription/Normalisierung
  2. Linguistische Annotationen
  3. Strukturelle Annotationen
  4. Inhaltliche Annotationen
  5. Metadaten

 

Transkription/Normalisierung

Annotationsebene und -wert(e) Beschreibung
dipl
eigenständige Segmentierung

Annotationswert(e):
  • Text
Die Transkription von Faksimiles stellt für die korpuslinguistische Aufbereitung zumeist die grundlegende, diplomatische Ebene (dipl). Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich kann so auch entgegen modernen Orthographieregeln segmentiert oder transkribiert werden. Eine Unicode-Tabelle mit Sonderzeichen wurde dabei zu Hilfe genommen.
clean
eigenständige Segmentierung

Annotationswert(e):
  • Text
Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Beginnt das zweite Wort eines durch Zeilenumbruch getrennten Wortes mit einem Großbuchstaben, wird dieser in der clean-Ebene in Kleinbuchstaben realisiert (Gelb- Sucht; wird zu Gelbsucht). Ist der komplette zweite Bestandteil in Großbuchstaben geschrieben, bleibt dies so bestehen (MON- TANUM wird zu MONTANUM). Außerdem stellen die neuen Dokumente aus Version 4.0 und 5.0 neue Anforderungen an die automatisch erstellte clean-Ebene. Mit Makra versehene Vokale können nicht länger kontextabhängig normalisiert werden. Deshalb werden ab Version 4.0 für Token, die Vokale mit Makra enthalten alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch '|' getrennt (zum Beispiel: 'auſzwēdig' zu 'auszwemdig|auszwendig'). Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript, das zur Erstellung benutzt wurde.
norm
eigenständige Segmentierung

Annotationswert(e):
  • Text

Die norm-Ebene stellt einen weiteren Normalisierungsschritt dar, indem hier die Tokenisierung, Graphematik, Flexionsformen und Lexeme an den neuhocheutschen Sprachstand angepasst werden. Graphematik: orthographische Anpassung nach Duden (kreutter -> Kräuter); Phonologie: zu beachten sind die frühneuhochdeutschen Lautwandelprozesse, also Diphthongierung, Monophthongierung, Synkope, Apokope, Nukleussenkung, etc.(lehret -> lehrt); Morphologie: in die Nasen -> in die Nase; Lexikologie: ausgestorbenes lexikalisches Material wird mit modernen Orthograhieregeln übernommen und ggf. in der Ebene "erlaeuterung" erkäutert (Vergeſz -> Vergess); Wortbildung: ausgestorbene Wortbildungsmorpheme werden nach Möglichkeit durch neuhochdeutsche Bildungen ersetzt (halben -> halber oder stachelecht -> stachelig). Kasus wurde bisher nur in einigen Dokumenten normalisiert.

 

Linguistische Annotationen

Annotationsebene und -wert(e) Beschreibung
pos
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • STTS
Automatische Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset (STTS).
lemma
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Lemmatisierung: Normalisierung der flektierten Wortformen, Zuordnung der entsprechenden Lexikoneinträge zu jeder Wortform.
erlaeuterung
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Dies ist eine unsystematische Ebene. In Fällen, in denen semantisch ein Begriff wie Heumonat nicht mehr transparent ist, kann ein modernes Äquivalent, z. B. HeumonatJuli, oder eine kurze Erklärung angegeben sein. Diese Ebene wurde in Version 5.0 von "hyperlemma" zu "erlaeuterung" umbenannt.
foreign
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • foreign
Markiert einen Text, der in einer Fremdsprache geschrieben ist.
foreign_trans
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • trans_to_german
  • trans_from_german
  • trans_from_german_extended
  • trans_to_german_extended
Beschreibung der Zielsprache und der Ausgangssprache einer Übersetzung.
lang
Segmentierung basiert
auf 'norm'

Annotationswert(e):
Kodiert die konkrete Sprache des im Layer foreign markierten Textes nach ISO Drei-Buchstaben-Code (z. B. lat).
komp
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • k
Komposition. Markiert alle im Korpus enthaltenen zusammen, getrennt oder mit Bindestrich geschriebenen Substantivkomposita (mit nominalem Kopf).
komp_orth
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • zs
  • gtr
  • bs
  • lb1
  • lb2
Beschreibt die Orthographie der in der Ebene "komp" annotierten Komposita: zs: zusammengeschrieben, gtr: getrennt geschrieben, bs: Bindestrichmarkierung (innerhalb einer Zeile), lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrichmarkierung), lb2: unterbrochen durch Zeilenumbruch (mit Bindestrichmarkierung).
prot
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • prot1
  • prot2
  • prot3
Weist jedem Kompositum in der Ebene komp einen Prototypen zu. Der Prototyp gibt an, wie wahrscheinlich ein Vorkommen ein Kompositum ist, dabei gilt: prot1: sicher als Kompositum zu identifizieren, prot2: sehr wahrscheinlich Kompositum und prot3: Zweifelsfall (nicht in der Ebene "komp" markiert).
attr_gen
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • gprä
  • gpost
Markiert alle im Korpus enthaltenen Nominalphrasen, die ein Genitivattribut enthalten, gprä: pränominales Genitivattribut und gpost: postnominales Genitivattribut.
strD
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • strD
Strukturelle Destruktion. Markiert alle im Korpus enthaltenen Koordinationen von Kompositionserst- und Zweitglied ("strukturelle Destruktionen"; z.B.: gelb⸗ und Waſſerſucht).
personenname
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Es werden alle Personennamen annotiert, auf die ein Autor referiert. Es wird der jeweilige Personenname im Nominativ angegeben.
werkname
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Es werden alle Werknamen annotiert, auf die ein Autor referiert. Es wird der jeweilige Werkname im Nominativ angegeben.
form_krankheit
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
NA
problem
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
NA
kraeutername_normiert
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
In dieser Ebene wird ein systematischer Kräutername gegeben. Manchmal ist der nicht eindeutig, dann wird in den Annotationsebenen "erlaeuterung" oder "bemerkungen_lexik" darauf hingewiesen. Es gibt keine Leerzeichen, die beiden Bestandteile von zweiteiligen Bezeichnungen werden durch einen Unterstrich verbunden.
kraeuterzubereitung
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
In dieser Ebene geht es nur um die Zubereitungen oder Darreichungsformen von Kräutern. Dabei werden nur NPs betrachtet, bei denen das Kraut der Kopf oder der Kopf der Modifikation ist (die syntaktischen Modifizierungen werden in anderen Annotationsebenen annotiert). Es wird normiert auf Neuhochdeutsch und die Form wird im Nominativ Singular ausgeschrieben. Dabei werden Leerzeichen bei PPs und Genitiven durch Unterstriche ersetzt. Komposita werden immer zusammengeschrieben, auch wenn sie im Original nicht zusammengeschrieben sind. Alles wird in Kleinbuchstaben geschrieben (safft des weremuts -> saft_des_wermuts).
form_zubereitung
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • kompNN
  • kompNNgetrennt
  • phraseVON
  • phraseGEN
In dieser Ebene werden die Kräuterzubereitungen morphologisch oder syntaktisch beschrieben. kompNN = NN-Komposita, die zusammengeschrieben oder mit einem Bindestrich verbunden sind; kompNNgetrennt = NN-Folgen, die ein Kompositum sein könnten, aber mit Spatium geschrieben wurden; phraseVON = Kräuterzubereitungen mit von-PP, z.B. safft von weremut; phraseGEN = Kräuterzubereitungen mit Genitiv-Attribut, z.B. safft des weremuts.
nomen_nominativ
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
In dieser Ebene werden alle Nomina aufgenommen, die im Text vorkommen und zwar immer in der ersten Schreibung des Nominativ Singular, in der sie vorkommen. Wenn die erste Form von "Saft" safft ist, werden alle Vorkommen von "Saft" mit safft annotiert, auch wenn es später Formen von saft geben sollte. Alle Pluralformen werden durch die Singularform annotiert. Alles wird in Kleinbuchstaben geschrieben. Diese Ebene hilft bei der Feststellung der Variation innerhalb eines Textes.
form_nomen
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • simplex
  • kompNN
  • kompNNgetrennt
  • kompAN
  • kompVN
  • kompPN
  • derivat
  • nom
  • gri
  • lat
  • lex
  • name
In dieser Ebene werden alle Nomina morphologisch annotiert. kompNN = NN-Komposita, die zusammengeschrieben oder mit einem Bindestrich verbunden sind; kompNNgetrennt = alle NN Folgen, die ein Kompositum sein könnten, aber mit Spatium geschrieben wurden; kompAN = AN-Komposita; kompVN = VN-Komposita; kompPN = PN-Komposita; derivat = Derivate; nom = alle impliziten Nominalisierungen (Konversionen, Bildungen mit Ablaut, auch syntaktische Nominalisierungen, z.B. (die) sucht, (das) kalt; gri/lat/ara = klar griechische/lateinische/arabische Nomina, bereits integrierte Wörter lateinischen Ursprungs werden nicht gekennzeichnet, sondern wie native Wörter behandelt; lex = bestimmte lexikalisierte Kräuternamen, diese sind zwar ursprünglich morphologisch komplex, aber nicht mehr offen und der Schreiber hat keine Wahl (ob diese Bildungen noch transparent sind, ist unklar), z.B. Beifuß, Wermut, Stabwurz, aber auch tausend guldin für "Tausendguldenkraut".
bemerkung_lexik
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Dies ist eine unsystematische Ebene für Bemerkungen und Fragen zur Lexik.
satztyp
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • rs
  • padv
  • rsx
  • rsdem
  • padvpart
  • dem
  • part
Annotation von Satztypen. Da wir nur flach annotieren und nicht beliebig Ebenen vervielfachen wollen, haben wir ein Problem bei geschachtelten Strukturen (also Relativsätzen, die Relativsätze enthalten oder Relativsätzen, die Demonstrativsätze enthalten). Wir haben jeweils den äußersten (größten) Satz annotiert. In der Annotationsebene "bemerkungen_syntax" steht ein Hinweis auf die Verschachtelung. rs = klare Relativsätze, dabei sowohl w-Relativsätze als auch d-Relativsätze; padv = Sätze, die durch ein Präpositionaladverb eingeleitet werden; rsx = Relativsätze ohne Hauptsatz, das kommt häufig in Überschriften vor; rsdem = ambige Fälle: Relativsatz oder Demonstrativsatz; padvpart = Sätze mit Präpositionaladverb und Partizip; dem = Demonstrativsätze, hier sind alle Sätze gemeint, deren Subjekt ein Demonstrativpronomen ist; part = Partizipien, die sich ähnlich verhalten wie Relativsätze.
position_im_satz
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • vor
  • nach
  • int
Position des Relativsatzes im Hauptsatz. vor = vorangestellt; nach = nachgestellt; int = eingebettet.
position_zur_bezugskategorie
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • adja-v
  • adja-n
  • dist
  • na
Position des Relativsatzes zur Bezugskategorie.adja-v = adjazent vorangestellt; adja-n = adjazent nachgestellt; dist = distant; na = nicht anwendbar.
form_bezugskategorie
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • np
  • d-pron
  • p-pron
  • satz
  • null
Form der Bezugskategorie des Relativsatzes. np = nicht-pronominale NP; d-pron = der, die, das, dieser, etc.; p-pron = Personalpronomina; satz = bei weiterführenden Relativsätzen, die sich auf den Sachverhalt im ganzen Bezugssatz beziehen; null = bei freien und asyndetischen Relativsätzen, die kein overtes Korrelat im Hauptsatz haben.
verbstellung
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • v2
  • ve
  • venf
  • amb
Verbstellung im Relativsatz. v2 = Verb-Zweit-Stellung; ve = Verb-End-Stellung; venf = Verb-End-Stellung mit besetztem Nachfeld; amb = ambig zwischen v2 und ve (z.B. bei intransitiven Verben).
form_des_relativpronomens
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • d-pron
  • w-pron
  • w-phras
Form der reltivsatzeinleitenden Kategorie. d-pron = alle d-Pronomina; w-pron = wer, welch-; w-phras = z.B. welch frau
modifikation_bezugskategorie
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • relsatz
An Pronomen, NP oder Satz annotiert, wenn von einem Relativsatz modifiziert. Bei freien Relativsätzen nicht anwendbar. Die ganze Bezugskategorie wird als Spanne annotiert.
pos_klein
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • reduziertes STTS
Wortarten-tagging mit reduziertem STTS. Bestimmte Tags wurden dabei zusammengefasst, z.B. $., $,, and $( zu ZEICHEN
Verbposition
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • V2
  • Vletzt
  • V?
  • V1
Verbposition.V2 gibt dabei Verbzweitstellung in einem Nebensatz mit subordinierender Konjunktion an. Vletzt markiert dabei Verbletztstellung in einem Nebensatz mit subordinierender Konjunktion. V? markiert eine unklare Verbposition in einem Nebensatz mit subordinierender Konjunktion.V1 gibt Verberststellung in einem Nebensatz mit subordinierender Konjunktion an.
Nebensatztyp
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Adverbial
  • Attribut
  • Komplement
Nebensatztyp. Adverbial: Adverbiale Funktion eines Nebensatzes mit subordinierender Konjunktion. Attribut: Attributive Funktion eines Nebensatzes mit subordinierender Konjunktion. Komplement: Komplementfunktion eines Nebensatzes mit subordinierender Konjunktion.
KOUS_Semantik
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • additiv
  • final
  • k.a.
  • kausal
  • konditional
  • konsekutiv
  • konzessiv
  • modal
  • temporal
KOUS_Semantik. additiv: Additive Semantik einer subordinierenden Konjunktion. final: Finale Semantik einer subordinierenden Konjunktion. k.a.: Nicht-analysierbare Semantik einer subordinierenden Konjunktion. kausal: Kausale Semantik einer subordinierenden Konjunktion. konditional: Konditionale Semantik einer subordinierenden Konjunktion. konsekutiv: Konsekutive Semantik einer subordinierenden Konjunktion. konzessiv: Konzessive Semantik einer subordinierenden Konjunktion. modal: Modale Semantik einer subordinierenden Konjunktion. temporal: Temporale Semantik einer subordinierenden Konjunktion.
diachronie
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
In dieser Ebene werden einzelne linguistische Phänomene und Formen unsystematisch einem linguistischen Bereich (Syntax, Morphosyntax, Phonologie, Graphematik, Morphologie) zugeordnet und dient der Findung von Beispielen für didaktische Zwecke.
dialekt
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
In dieser unsystematischen Ebene werden Wortformen, die Aufschluss über die diatopische Qualität des Textes geben annotiert und einem Dialektbereich so genau wie möglich zugeordnet.

 

Strukturelle Annotationen

Annotationsebene und -wert(e) Beschreibung
lb
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • lb
Markierung einer ganzen Zeile.
brace
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • brLeft
  • brRight
Markierung einer Klammer, die Text über mehrere Zeilen zusammenfasst.
brace_dir
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • left
Richtung der Klammer
p
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • p
Markierung eines ganzen Paragraphen.
p_n
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert oder Buchstabe
Markiert die Nummerierung eines Paragraphen.
p_rend
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • initialCapital
  • bigBoldType
Beschreibung der Darstellung eines Paragraphen.
pb
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • pb
Markierung einer ganzen Seite.
pb_n
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert oder Buchstabe
Seitenzahl aus dem Faksimile.
pb_rend
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • vonHaſelwurtz.Cap.III.
  • vonChamillen.Cap.VIII.
  • vorrede.
  • vorred
  • vonStaubwurtz.Cap.II.
  • vonEibisch.Cap.V.
  • vonWermůt.Cap.I.
  • vonDrachenwurtz.Cap.IIII.
  • ohlZuMachen.
  • zumBeſtenZuDiſtilliren.
  • waſſerAußKräuternVndDergleichen
  • auffsBeſtZuDiſtilliren.
  • außKräuternVndDergleichen
  • waſſerAußKräuternVndDergleichen
  • amBeſtenZuDiſtilliren.
Beschreibung der Darstellung/ Zuordnung einer Seite, mehrerer Seiten.
pb_ana
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert
Korrektur/ Interpretation von vermutlich nicht korrekten Seitenzahlangaben.
div1 - div5
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • divINT
Eine Sektion, ein Kapitel/Unterkapitel eines Dokuments. Die verschachtelte Tiefe wird explizit von der angegebenen Nummer von div (INT) in der PAULA/relANNIS Version angezeigt. Gilt pro Ebene (div1-div5).
div1_type - div5_type
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • appendix
  • book
  • chapter
  • description
  • form
  • herb
  • names
  • name
  • nature
  • parts_preparation_and_uses
  • places
  • place
  • preface
  • power
  • reproduction
  • season
  • section
  • species
  • title
  • time
  • utensils
Beschreibt den Typ/die Art des Kapitels/Unterkapitels. Die Einteilung könne von einem ganzen Buch, über Kapitel bis hin zu Unterkapitel reichen. Dazu können auch registerspezifische Typen wie Ort des Anbaus oder Form einer Pflanze zählen. Gilt pro Ebene (div1-div5).
div2_n - div3_n
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert
Markiert eine mit Ziffern oder Buchstaben nummerierte Sektion. Gilt für die Ebenen div2-div3.
unclear
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • unclear
Markierung, dass Zeichen eines Tokens oder ein Token bzw. ein Text nicht lesbar sind.
atLeast
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert
Geschätzte, minimale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
atMost
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert
Geschätzte, maximale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
interpretation
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Interpretationsvorschläge für unleserliche Zeichen/Zeichenketten, die in der Annotationsebene unclear als „unclear“ getagged sind.
figure
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • figure
  • table
Markiert eine Grafik oder Tabelle, die im Text eingebettet ist.
figure_rend
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • drawingOfTwoJars
  • drawingOfThreeJars
  • drawingOfTwoGlasses
  • drawingOfThreeGlasses
  • drawingOfTwoAlembics
  • drawingOfAnInstrument
  • drawingOfAnEibisch
  • drawingOfAStaubwurtz
  • drawingOfAKamille
  • drawingOfAHühnerdarm
  • drawingOfAHelmet
  • drawingOfAFilter
  • drawingOfAWaldenburgischerKolben
  • drawingOfAHaselwurtz
  • drawingOfADrachenwurtz
  • drawingOfAGauchheyl
  • drawingOfADill
  • drawingOfAHauswurz
Beschreibung, was auf einer Grafik (annotiert mit figure) zu sehen ist (z. B. Darstellung einer Pflanze oder eines Destilliergeräts).
hi
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • hi
Markierung eines irgendwie hervorgehobenen Bereichs.
typeface
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • antiqua
  • gothic
  • gothicF
  • gothicS
  • mixed
Beschreibung von Schriftartenänderungen, wobei die vorwiegende Schriftart als default-Wert gesetzt wurde. gothicF = Text, der in Gothic Fraktur gedruckt ist, unsystematische Annotation (fakultative Zusatzinformation, Unterkategorie es Wertes "gothic"); gothicS = Text, der in Gothic Schwabacher gedruckt ist, unsystematische Annotation (fakultative Zusatzinformation, Unterkategorie es Wertes "gothic").
hi_rend
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • antiqua
  • bold
  • end
  • iniCap
  • italics
  • letter-spacing:1em
  • red
Beschreibung der Darstellung des hervorgehobenen Bereichs, z. B. Schriftart, Farben etc.
head
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • head
Markierung einer Überschrift.
head_n
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Ganzzahlwert
Zeigt die Nummerierung einer Überschrift an.
head_rend
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • brown
Beschreibung der grafischen Darstellung der Überschrift, z. B. Farbe.
note
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • note
  • margin
  • end
In einer Spannenannotation wird die gesamte Fußnote mit dem Tag „note“ markiert. Der Text der Fußnoten wird immer am Ende des Absatzes, in dem sie eingepflegt sind, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.
ref
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • ref
Referenz einer Fußnote.
ref_target
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • #fINT
ID der Fußnote, auf die referiert wird. Es wird fortlaufend mit #fZ nummeriert.
ref_type
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • noteAnchor
Art der Referenz, z.B. TEI "noteAnchor".
quote
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • quote
Markiert ein Zitat im Text.
list
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • list
Allgemeine Markierung einer Liste.
list_type
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • simple
Beschreibung der Art der Liste.
item Segmentierung basiert
auf 'norm'


Annotationswert(e):
  • item
Element des Textes, der als Liste in der Ebene list markiert ist.
xml_id
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • fINT
Bezeichnet die konkrete Nummer der Fußnote in einem Dokument, angefangen mit dem Zähler 1. Fußnoten sind in ihrer Indizierung unabhängig von ihrer tatsächlichen Nummerierung im Text. Der ersten Fußnote wird über xml_id die Kennzeichung f1, der zweiten f2 etc. zugewiesen, selbst wenn sie bspw. im Text die Nummer 86) darstellt oder mit **) markiert ist.

 

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und -wert(e) Beschreibung
definition
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • fig
  • expl
Beschreibung (fig) oder Erklärung (expl) eines auf eine Abbildung bezogenen oder im Text genannten Begriffs.
disease
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • di
Nennung einer Krankheit (Beschwerden, Symptome etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. der Bauch, der weh tut oder Bauchweh.
term
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • t
  • h
  • d
  • j
Linguistische Annotation, die einen technischen oder wissenschaftlichen Begriff markiert, unterschieden in term (t), herb (h) und disease (d). Bei 'j' handelt es sich höchstwahrscheinlich um einen Tippfehler.
author_ref
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • author
  • include
  • other
  • proin1sg
  • pron1pl
  • pron1sg
  • pron2sg
  • pron3sg
  • self
Markiert Referenzen des Autors auf sich oder andere Autoren bzw. auf beide.
reader_ref
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • address
  • adress
  • pron1pl
  • pron2pl
  • pron2sg
  • pron3sg
  • reader
Markiert Referenzen des Autors auf den Leser.
plant
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • pl
Nennung einer Pflanze (Kräuter wie Bäume wie Blumen etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. das Kraut, das hinter dem Bahnhof wächst oder Kamille.
property
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • appearance
  • cultivation
  • effect
  • preparation
  • smell
  • taste
Beschreibt den Bezug von Eigenschaften wie Geruch, Aussehen etc. auf eine Referenz (z.B. Kraut).
name
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • name
Markiert Eigennamen.
name_type
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • flower
  • gardener
  • herb
  • person
  • plant
  • publisher
  • scholar
  • tree
Spezifiziert den Typ der Eigennamen.
referenz
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Diese unsystematische Ebene dient der Referenz von Interpretationen jeglicher Art.
citation
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Unsystematische Ebene. Kennzeichnet und benennt Zitate (z.B. aus der Bibel), wodurch ein diachroner Vergleich Textstellen ermöglicht wird, denen ursprünglich identisches sprachliches Material zugrunde liegt.

 

Metadaten

Diese Annotationen sind an die TEI-P5-Richtlinien angelehnt. Weiterhin gibt es die kompletten Korpusmetadaten in TEI p5: HANDLE-ID.

Annotationsebene und -wert(e) Beschreibung
autor

Annotationswert(e):
  • Freitext
  • NA
Name des Autors des Textes.
bibl

Annotationswert(e):
  • Freitext
Voller bibliographischer Eintrag für die Quelle inklusive der im Korpus annotatierten Seitenzahlen.
datum

Annotationswert(e):
  • Ganzzahlwert
Datum der Veröffentlichung, normalerweise das Jahr.
verlag

Annotationswert(e):
  • Freitext
  • NA
Verlag/Verleger.
ort

Annotationswert(e):
  • Freitext
  • NA
Verlagsort.
titel

Annotationswert(e):
  • Freitext
Titel der Arbeit, aus dem das Dokument extrahiert wurde.
uebersetzer

Annotationswert(e):
  • Freitext
  • NA
Übersetzer des Textes, wenn vorhanden.
uebersetztAus

Annotationswert(e):
  • it
  • lat
  • NA
Sprache, aus der der Text übersetzt wurde.
herausgeber

Annotationswert(e):
  • Freitext
  • NA
Herausgeber des Textes (wenn zusätzlich zum Verlag/Verleger angegeben).
version

Annotationswert(e):
  • 5.0
Versionierung des Korpus.
auflage

Annotationswert(e):
  • Erstauflage
  • Nichterstauflage
Wenn bekannt, wird hier angegeben, ob es sich bei dem Faksimile um eine Erstauflage handelt oder nicht.
band

Annotationswert(e):
  • Ganzzahlwert
  • NA
Nummer des Bandes, wenn vorhanden.
bereich

Annotationswert(e):
  • Wissenschaft
  • Alltag
Angabe darüber, ob der Text eher Alltags- oder Wissenschaftsthemen behandelt.
thema

Annotationswert(e):
  • Al
  • As
  • B
  • G
  • K
  • M
  • R
  • S
Ordnet einem Text einen oder mehrere Themenbereiche zu. Additiver Wert aus den verschiedenen Kürzeln, alphabetisch geordnet. Al: Alchemie, As: Astronomie, B: Botanik, G: Gärtnerei, K: Küche, M: Medizin, R: Religion, S: Sprachwissenschaft. Beispielwerte sind "B", "BM" oder "BKM".
register

Annotationswert(e):
  • Kraeuterkunde
Register des Textes.
einMehrspr

Annotationswert(e):
  • einsprachig
  • mehrsprachig
Gibt an, ob größere Textstellen vorhanden sind, die nicht auf Deutsch verfasst wurden. Dies gilt nicht für einzelne Übersetzungen von Pflanzennamen.
originaldatum

Annotationswert(e):
  • Ganzzahlwert
  • NA
Ist ein Text eine Nichterstauflage, dann kann hier das Jahr der Erstauflage stehen, wenn bekannt.
originalort

Annotationswert(e):
  • Freitext
  • NA
Ist ein Text eine Nichterstauflage, dann kann hier der Erscheinungsort der Erstauflage stehen, wenn bekannt.
repositorium

Annotationswert(e):
  • URL
URL zum Repositorium des Faksimiles.
sprachtyp

Annotationswert(e):
  • mhd
  • fnhd
  • nhd
Angabe des Sprachtyps. mhd: mittelhochdeutsch; fnhd: frühneuhochdeutsch, nhd: neuhochdeutsch
sprachgebiet

Annotationswert(e):
  • md
  • obd
  • NA
Das Sprachgebiet wird angegeben. md: Mitteldeutsch, obd: oberdeutsch. Bei jüngeren Texten, die schon weitesgtehend standardisiert sind und denen kein Sprachgebiet zugeordnet werden konnte, wird als Wert "NA" angegeben.
textgestaltung

Annotationswert(e):
  • Prosa
  • Poesie
  • gemischt
Angaben über die allgemeine Textgestaltung. Prosa: der Text ist komplett in Prosaform verfasst, Poesie: der Text ist komplett in Reimform verfasst; gemischt: der Text ist teilweise prosaisch, teilweise gereimt verfasst.
gestaltungselemente

Annotationswert(e):
  • Endreim
  • Endreim, Metrik
  • NA
Wenn im Metadatum "textgestaltung" die Werte "Poesie" oder "gemischt" angegeben sind, dann wird hier eingetragen, welche Gestaltungselemente dafür verwendet wurden.
vorredeVorh

Annotationswert(e):
  • ja
  • nein
Gibt an, ob eine Vorrede mit transkribiert wurde.
wermutVorh

Annotationswert(e):
  • ja
  • nein
Gibt an, ob ein Textabschnitt zum Thema "Wermut" transkribiert wurde.
kraeutermonographiesammlung

Annotationswert(e):
  • ja
  • nein
Gibt an, ob es sich bei dem Text um eine Kräutermonographiesammlung handelt, d.h. dass nacheinander verschiedene Kräuter abgehandelt werden.
korpusdokumentation

Annotationswert(e):
  • URL
URL zur Korpusdokumentation.