Dokumentation Version 7.0

Korpuslinguistik und Morphologie | Dokumentation Version 7.0

Dokumentation Version 7.0

Die ausführlichen Annotationsguidelines können Sie hier herunterladen.

Korpus-Pipeline

Erweiterung durch 8 weitere Texte:
ArtzneyBuchleinDerKreutter-Abrotanum_1532_Tallat
ArtzneyBuchleinDerKreutter-Centaurea_1532_Tallat
ContrafaytKreuterbuch-CCLVII-CCLXX_1532_Brunfels
ContrafaytKreuterbuch-CCLXXI-CCXC_1532_Brunfels
GartDerGesundheit-c15-23_1487_Cuba
GartDerGesundheit-c23-33_1487_Cuba
NewKreuetterbuch-CXXXIIIJ-CXXXVIIJ_1539_Bock
NewKreuterbuch-c19-25_1543_Fuchs

Eine vollständige Liste aller Dokumente dieser Version finden Sie in den Annotationsguidelines oder unter Download.
Automatische Erstellung eines OCR bei den Texten der Version 7. Alle Texte der Versionen 1-6 wurden per Hand transkribiert.
Tokenisierung des OCRs/der Transkription mit TreeTagger.
Manuelle Korrektur des OCRs in <dipl> und manuelle Erstellung von <norm>. Das originale OCR bleibt in <ocr> bestehen.
Wortartentagging und Lemmatisierung in allen Dokumenten mit TreeTagger-Batch und TreeTagger. Anführungszeichen im Text können zu Fehlern führen, weshalb diese maskiert werden sollten. Desweiteren werden Leerzeilen im Text durch den TreeTagger gelöscht, sodass Fehler in der Segmentierung entstehen können. Deshalb sollten diese durch einen beliebigen Tag (z.B. <9>) gefüllt werden und die Option -sgml sollte beim taggen benutzt werden. Diese Tags werden dann nicht getaggt und können anschließend wieder entfernt werden. Nach dem Zusammenführen des TreeTagger-Outputs mit den MS Excel-Dateien, wird mit dem Makro SearchAndMerge die Segmentierung rekonstruiert (Readme).
Semi-automatische Erstellung von <clean> für alle Dokumente (Python-Skript und Readme).
Alignierung der <ocr>-Ebene mit <dipl>, <clean> und <norm> (behält eigenständige Segmentierung).
Punktuelle Korrektur der Normalisierung (v.a. NPn, die potentiell Komposita sind) und vollständige Korrektur der <persname>-Ebene. Es gibt jetzt eine Liste mit vereinheitlichten Namen in den Annotaionsguidelines. Generell kleinere Korrekturen über das gesamte Korpus.
In den Dateien der Version 4.1, die bis einschließlich 1652 erschienen sind, wurden die folgenden Ebenen gelöscht, bzw. durch neue Ebenen ersetzt (s. 7.): <comp>, <comp_orth>, <prot>. Das Metadatum <preface> wurde in allen Dokumenten gelöscht.
Folgende Annotationsebenen wurden den Excel-Dateien hinzugefügt: <ocr>, <column>, <figure_p> (nur für hinbzugekommene Dateien), <comp_n>, <comp_n_graph>, <comp_a>, <comp_a_graph>, <infl_fuge>, <adja_uninfl>, <comp_lex>, <comp_amb>, <nlp_morph> (für die Dateien der V6 bis einschließlich 1652).
Folgende Ebenen wurden dem Korpus im CoNLL-Format hinzugefügt: <deprel>, <morph>, <lemma> (in ANNIS & PAULA <lemma-dep>), <pos> (in ANNIS & PAULA <pos-dep> )(für die Dateien der V6 bis einschließlich 1652). Sie wurden automatisch mithilfe der Mate Tools erstellt.
Folgende Annotationsebenen wurden dem Korpus im PTB-Format hinzugefügt: <cat> (in ANNIS & PAULA <cat-const>), <edgelabel> (in ANNIS & PAULA <func>), <lemma> (in ANNIS & PAULA <lemma-const>), <pos> (in ANNIS & PAULA <pos-const>) (für die Dateien der V6 bis einschließlich 1652). Sie wurden automatisch mit Hilfe des Berkeley Parsers von CoNLL in PTB transformiert.
Gemeinsame Konvertierung der Formate Excel 2013, CoNLL und PTB nach ANNIS und PAULA mit Pepper mithilfe der folgenden Importer: SpreadsheetImporter, PTBImporter, CoNNLImporter. Merging mithilfe des Merger-Moduls. Export ins ANNIS- und PAULAFormat mit dem ANNISExporter und dem PAULAExporter.

Korpus-Design

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Deshalb haben wir den Bereich der Kräuterkunde gewählt. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 3.000 bis 10.000 Wortformen.

Annotationsebenen

Die Annotationsbenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in fünf Gruppen untergliedern.

Transkription/Normalisierung
Linguistische Annotationen
Strukturelle Annotationen
Inhaltliche Annotationen
Metadaten

Transkription/Normalisierung

Annotationsebene und -wert(e)	Beschreibung
dipl eigenständige Segmentierung Annotationswert(e): Text	Die Transkription von Faksimiles stellt für die korpuslinguistische Aufbereitung zumeist die grundlegende, diplomatische Ebene (dipl). Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich kann so auch entgegen modernen Orthographieregeln segmentiert oder transkribiert werden. Eine Unicode-Tabelle mit Sonderzeichen wurde dabei zu Hilfe genommen.
clean eigenständige Segmentierung Annotationswert(e): Text	Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Beginnt das zweite Wort eines durch Zeilenumbruch getrennten Wortes mit einem Großbuchstaben, wird dieser in der clean-Ebene in Kleinbuchstaben realisiert (Gelb- Sucht; wird zu Gelbsucht). Ist der komplette zweite Bestandteil in Großbuchstaben geschrieben, bleibt dies so bestehen (MON- TANUM wird zu MONTANUM). Außerdem stellen die neuen Dokumente aus Version 4.0 und 5.0 neue Anforderungen an die automatisch erstellte clean-Ebene. Mit Makra versehene Vokale können nicht länger kontextabhängig normalisiert werden. Deshalb werden ab Version 4.0 für Token, die Vokale mit Makra enthalten alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch '\|' getrennt (zum Beispiel: 'auſzwēdig' zu 'auszwemdig\|auszwendig'). Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript, das zur Erstellung benutzt wurde.
norm eigenständige Segmentierung Annotationswert(e): Text	Die norm-Ebene stellt einen weiteren Normalisierungsschritt dar, indem hier die Tokenisierung, Graphematik, Flexionsformen und Lexeme an den neuhocheutschen Sprachstand angepasst werden. Graphematik: orthographische Anpassung nach Duden (kreutter -> Kräuter); Phonologie: zu beachten sind die frühneuhochdeutschen Lautwandelprozesse, also Diphthongierung, Monophthongierung, Synkope, Apokope, Nukleussenkung, etc.(lehret -> lehrt); Morphologie: in die Nasen -> in die Nase; Lexikologie: ausgestorbenes lexikalisches Material wird mit modernen Orthograhieregeln übernommen und ggf. in der Ebene "erlaeuterung" erkäutert (Vergeſz -> Vergess); Wortbildung: ausgestorbene Wortbildungsmorpheme werden nach Möglichkeit durch neuhochdeutsche Bildungen ersetzt (halben -> halber oder stachelecht -> stachelig). Kasus wurde bisher nur in einigen Dokumenten normalisiert.
ocr eigenständige Segmentierung Annotationswert(e): Text	Diese Ebene wurde ausschließlich für die neuen Dokumente der Version 7 erstellt. Sie wurde mit eigens für diese Titel trainierten Modelle für die OCR-Engine OCRopus durchgeführt. Für mehr Informationen hier klicken.

Linguistische Annotationen

Annotationsebene und -wert(e)	Beschreibung
pos Segmentierung basiert auf 'norm' Annotationswert(e): STTS	Automatische Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset (STTS).
lemma Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	Lemmatisierung mit dem TreeTagger: Normalisierung der flektierten Wortformen, Zuordnung der entsprechenden Lexikoneinträge zu jeder Wortform.
comment Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	Dies ist eine unsystematische Ebene. In Fällen, in denen semantisch ein Begriff wie Heumonat nicht mehr transparent ist, kann ein modernes Äquivalent, z. B. Heumonat – Juli, oder eine kurze Erklärung angegeben sein. Diese Ebene wurde in Version 5.0 von "hyperlemma" zu "erlaeuterung" umbenannt.
foreign Segmentierung basiert auf 'norm' Annotationswert(e): foreign	Markiert einen Text, der in einer Fremdsprache geschrieben ist.
foreign_trans Segmentierung basiert auf 'norm' Annotationswert(e): trans_to_german trans_from_german trans_from_german_extended trans_to_german_extended	Beschreibung der Zielsprache und der Ausgangssprache einer Übersetzung.
lang Segmentierung basiert auf 'norm' Annotationswert(e): ISO 639-2	Kodiert die konkrete Sprache des im Layer foreign markierten Textes nach ISO Drei-Buchstaben-Code (z. B. lat).
comp Segmentierung basiert auf 'dipl' Annotationswert(e): k	Komposition. Markiert alle im Korpus enthaltenen zusammen, getrennt oder mit Bindestrich geschriebenen Substantivkomposita (mit nominalem Kopf).
comp_orth Segmentierung basiert auf 'dipl' Annotationswert(e): zs gtr bs lb1 lb2	Beschreibt die Orthographie der in der Ebene "komp" annotierten Komposita: zs: zusammengeschrieben, gtr: getrennt geschrieben, bs: Bindestrichmarkierung (innerhalb einer Zeile), lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrichmarkierung), lb2: unterbrochen durch Zeilenumbruch (mit Bindestrichmarkierung).
prot Segmentierung basiert auf 'dipl' Annotationswert(e): prot1 prot2 prot3	Weist jedem Kompositum in der Ebene komp einen Prototypen zu. Der Prototyp gibt an, wie wahrscheinlich ein Vorkommen ein Kompositum ist, dabei gilt: prot1: sicher als Kompositum zu identifizieren, prot2: sehr wahrscheinlich Kompositum und prot3: Zweifelsfall (nicht in der Ebene "komp" markiert).
comp_amb Segmentierung basiert auf 'dipl' Annotationswert(e): a gpre	Annotation von Wortfolgen, die möglicherweise Komposita sein könnten. a: Adjektiv-Nomen-Abfolgen, bei denen das Adjektiv unflektiert ist und bei denen man im modernen Deutschen eher ein Kompositum verwenden würde (z.B. das edel geſteine). Es gibt noch weitere AN-Abfolgen, die ebenfalls ein unflektiertes Adjektiv enthalten, die aber im heutigen Deutschen auch genauso (oder noch eher) als attributive Adjektive verwendet werden können. Diese wurden jedoch in ADJA_uninfl annotiert. gpre: Nomen-Nomen-Abfolgen, die sowohl als Komposita als auch als Nomina mit pränominalem Genitivattribut interpretiert werden können und bei denen der Kontext oder die Flexion keinen Aufschluss auf den grammatischen Status geben können.
infl_fuge Segmentierung basiert auf 'dipl' Annotationswert(e): y n yn NA	Annotation von Flexion bzw. Fugenelementen bei Wortfolgen, die möglicherweise Komposita sein könnten. y: Es ist ein Fugenelement, bzw. ein Flexionselement vorhanden (‚yes‘). n: Es ist kein Fugenelement, bzw. ein Flexionselement vorhanden (‚no‘). yn: Gilt für potentielle Komposita mit mehr als zwei lexikalischen Wortteilen, die sowohl mit als auch ohne Fugenelement oder Flexionselement realisiert wurden (z.B. Jungkfrawen har). NA: Es kann nicht beurteilt werden, ob ein Fugenelement, bzw. Flexionselement vorhanden ist (meistens weil das betroffene Wort/lexikalische Material nicht mehr transparent ist oder aus einer anderen Sprache (Latein) stammt).
comp_lex Segmentierung basiert auf 'dipl' Annotationswert(e): lex n	lex: lexikalisierte Komposita, die nicht (mehr) als Syntagma ausgedrückt werden können, weil ihre addierten Teilbedeutungen stark von der Kompositionsbedeutung abweichen (betroffene Themenbereiche: Pflanzennamen, geographische Namen, bestimmte Krankheiten, Körperteile, Tierarten, Sternzeichen), aber nicht wenn sie mit einem zusätzlichen Glied versehen sind, das nicht zu dem lexikalisierten Wort gehört, z.B. Eisenkrautsaft oder Beifußblumen (vs. Johannisblumen), Blutwassersucht. Verbindungen mit "Baum" werden wie Verbindungen mit "Kraut" behandelt - meistens sind sie ein zusätzliches Glied zur eigentlichen Pflanzenbezeichnung - Kirsche -> Kirschbaum, Eiche -> Eichenbaum; manchmal gehören sie aber zur lexikalisierten Pflanzenbezeichnung (z.B. Schildkraut, Rutelkraut, Wunderbaum). n: Oberes trifft nicht zu. Eine Tabelle mit Einzelentscheidungen findet man in den ausführlichen Annotationsguidelines.
comp_n Segmentierung basiert auf 'dipl' Annotationswert(e): N A V ADV APPR CARD SUFF CONV X	Additive Werte zur Beschreibung der morphologischen Struktur der nominalen Komposita, z.B. N_N für Komposita, die aus zwei Nomina bestehen. Suffixe wurden nur berücksichtigt, wenn Suffigierung der letzte Wortbildungsprozess war ([[Kindbett]erin]). Zwischen den Kürzeln für die Kategorien der einzelnen morphologischen Elemente stehen Unterstriche. Ist die Kategorie eines Elements nicht ermittelbar, wird der Platzhalter „X“ verwendet.
comp_n_graph Segmentierung basiert auf 'dipl' Annotationswert(e): sep nospace hyph lb1 lb2 camel	Beschreibt die Graphematik der in der Ebene <comp_n> annotierten Komposita. sep: getrennt; nospace: zusammen; hyph: Bindestrich; lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrich); lb2: unterbrochen durch Zeilenumbruch (mit Bindestrich); camel: Binnengroßschreibung. Komposita, die aus mehr als zwei lexikalischen Teilen entstehen, erhalten einen additiven Wert (verbunden durch Unterstriche), z.B. „nospace_sep“ bei Saurampffer waſſer.
comp_a Segmentierung basiert auf 'dipl' Annotationswert(e): N A ADV CARD SUFF CONV farb	Additive Werte zur Beschreibung der morphologischen Struktur der adjektivischen Komposita, z.B. A_A für Komposita, die aus zwei Adjektiven bestehen. Suffixe wurden nur berücksichtigt, wenn Suffigierung der letzte Wortbildungsprozess war. Zwischen den Kürzeln für die Kategorien der einzelnen morphologischen Elemente stehen Unterstriche. farb: das letzte Glied enthält die Wurzel „farb“, z.B. himmelfarben.
comp_a_graph Segmentierung basiert auf 'dipl' Annotationswert(e): sep nospace hyph lb1 lb2	Beschreibt die Graphematik der in der Ebene <comp_a> annotierten Komposita. sep: getrennt; nospace: zusammen; hyph: Bindestrich; lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrich); lb2: unterbrochen durch Zeilenumbruch (mit Bindestrich). Komposita, die aus mehr als zwei lexikalischen Teilen entstehen, erhalten einen additiven Wert (verbunden durch Unterstriche), z.B. „nospace_sep“ bei Saurampffer waſſer.
sentence_end Segmentierung basiert auf 'dipl' Annotationswert(e): S	Markierung von Satzenden nach diesen Richtlinien.
attr_gen Segmentierung basiert auf 'norm' Annotationswert(e): gpre gpost	Markiert alle im Korpus enthaltenen Nominalphrasen, die ein Genitivattribut enthalten, gpre: pränominales Genitivattribut und gpost: postnominales Genitivattribut.
morph_ellipsis Segmentierung basiert auf 'norm' Annotationswert(e): morph_ellipsis	Wortteilellipse Markiert alle im Korpus enthaltenen Koordinationen von Kompositionserst- und Zweitglied, z.B.: gelb⸗ und Waſſerſucht).
persname Segmentierung basiert auf 'norm' Annotationswert(e): Personennamen (nach Liste)	Diese Ebene dient der eindeutigen und schnellen Verknüpfung der im Korpus auftretenden Namen mit den dazugehörigen historischen Personen. Ist eine Person nicht eindeutig identifizierbar wird der in der "norm" gegebene Wert im Nominativ Singular in die Ebene "persname" übertragen. Die Schreibung der Namen richtet sich nach dieser Liste (diese enthält offizielle Abkürzungen und die entsprechende Ausschreibung vieler BotanikerInnen) und wenn dort nicht aufgeführt nach ihrer Schreibung in der deutschsprachigen Wikipedia. Anstelle von Leerzeichen werden Unterstriche gesetzt. Im Folgenden sind alle bisher in RIDGES vorkommenden eindeutigen Personennamen aufgeführt. Diese werden weiterhin so übernommen. Hinweis: Viele Autoren haben eine Art Künstlername und es gibt auch viele verschiedene Schreibweisen. In dieser Ebene muss darauf geachtet werden, dass ein und dieselbe Person immer mit dem gleichen Namen annotiert wird.
title Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	Es werden alle Werknamen annotiert, auf die ein Autor referiert. Es wird der jeweilige Werkname im Nominativ angegeben.
deprel Segmentierung basiert auf 'norm' Annotationswert(e): -- AC AG AMS APP AVC CC CD CJ CM CP CVC DA DM EP JU MNR MO NG NK OA OA2 OC OG OP PAR PD PG PH PM PNC RC RE RS SB SBP SP SVP UC VO	Dependenzannotationen basierend auf dem TIGER-Annotationsschema (erstellt mit Mate Tools). Das vollständige Tagset findet sich in den detiallierteren Annotationsguidelines.
cat-const Segmentierung basiert auf 'norm' Annotationswert(e): AA AP AVP CAP CAVP CH CNP CO CPP CS CVP CVZ DL ISU NP PN PP PSEUDO ROOT S TOP VP VZ	Konstituentenannotation basierend auf dem TIGER-Annotationsschema (transformiert aus den Dependenzparses der Mate Tools mithilfe des Berkeley Parsers). Das vollständige Tagset findet sich in den detiallierteren Annotationsguidelines.
func Segmentierung basiert auf 'norm' Annotationswert(e): AC AG AMS APP AVC CC CD CJ CM CP CVC DA DH DM EP HD JU MNR MO NG NK OA OA2 OC OG PAR PD PG PH PM PNC RC RE RS SB SBP SVP UC VO	Kantenannotation basierend auf dem TIGER-Annotationsschema (transformiert aus den Dependenzparses der Mate Tools mithilfe des Berkeley Parsers). Das vollständige Tagset findet sich in den detiallierteren Annotationsguidelines.
morph Segmentierung basiert auf 'norm' Annotationswert(e): sg/pl neut/masc/fem nom/gen/dat/acc 1/2/3 pres/past pos/comp/sup ind/subj *	Morphologische Annotation mit additiven Werten bestehend aus Kasus\|Numerus\|Genus\|Modus\|Tempus\|Komparationsstufe\|Genus verbi (je nach Wortart). sg/pl: Singular/ Plural; neut/ masc/ fem: Neutrum/ Maskulinum/ Femininum; nom/ gen/ dat/ acc: Nominativ/ Genitiv/ Dativ/ Akkusativ; 1/ 2/ 3: 1./ 2./ 3. Person; pres/ past: Gegenwart/ Vergangenheit; pos/ comp/ sup: Positiv/ Komparativ/ Superlativ; ind/ subj: Indikativ/ Subjunktiv; *: Platzhalter.
cat Segmentierung basiert auf 'norm' Annotationswert(e): S	Spannenannotation von Sätzen, die beim Konvertieren von CoNLL nach ANNIS ausgegeben wird.
lemma-dep Segmentierung basiert auf 'norm' Annotationswert(e): Normalisiertes Lemma	Lemmatisierung mit Mate Tools.
pos-dep Segmentierung basiert auf 'norm' Annotationswert(e): $, $. $LRB ADJA ADJD ADV APPO APPR APPRART APZR ART CARD FM ITJ KOKOM KON KOUI KOUS NE NN PDAT PDS PIAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF PROAV PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS TRUNC VAFIN VAPP VMFIN VMINF VVFIN VVIMP VVINF VVIZU VVPP XY	Wortartentagging mit Mate Tools.
pos-const Segmentierung basiert auf 'norm' Annotationswert(e): $, $. $*LRB ADJA ADV APPO APPR APPRART APZR ART CARD FM ITJ KOKOM KON KOUI KOUS NE NN PDAT PDS PIAT PIS PPER PPOSAT PRELAT PRELS PRF PROAV PTKA PTKNEG PTKVZ PTKZU PWAT PWAV PWS TRUNC VAFIN VAINF VAPP VMFIN VMINF VVFIN VVIMP VVINF VVIZU VVPP XY	Wortartentagging mit Mate Tools und Überführung ins PTB-Format.
adja_uninfl Segmentierung basiert auf 'norm' Annotationswert(e): uninfl	Annotation von unflektierten Adjektiven, die direkt vor einem Nomen stehen. Stehen vor einem Nomen mehrere unflektierte Adjektive, wird nur dasjenige annotiert, das unmittelbar vor dem Nomen steht.
form_disease Segmentierung basiert auf 'norm' Annotationswert(e): deriv derivat kompNN kompNNgetrennt lat phrase Phrase phraseDasIst phraseGen phraseGEN phraseGenannt phraseHS phraseRS phraseSubj phraseV1 phraseVP simplex wort	NA
problem Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	Probleme, die die Annotation von Relativsätzen und ihren Eigenschaften betreffen.
herbname_norm Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	In dieser Ebene wird ein systematischer Kräutername gegeben. Manchmal ist der nicht eindeutig, dann wird in den Annotationsebenen "erlaeuterung" oder "bemerkungen_lexik" darauf hingewiesen. Es gibt keine Leerzeichen, die beiden Bestandteile von zweiteiligen Bezeichnungen werden durch einen Unterstrich verbunden.
herbprep Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	In dieser Ebene geht es nur um die Zubereitungen oder Darreichungsformen von Kräutern. Dabei werden nur NPs betrachtet, bei denen das Kraut der Kopf oder der Kopf der Modifikation ist (die syntaktischen Modifizierungen werden in anderen Annotationsebenen annotiert). Es wird normiert auf Neuhochdeutsch und die Form wird im Nominativ Singular ausgeschrieben. Dabei werden Leerzeichen bei PPs und Genitiven durch Unterstriche ersetzt. Komposita werden immer zusammengeschrieben, auch wenn sie im Original nicht zusammengeschrieben sind. Alles wird in Kleinbuchstaben geschrieben (safft des weremuts -> saft_des_wermuts).
form_prep Segmentierung basiert auf 'norm' Annotationswert(e): kompNN kompNNgetrennt phraseVon phraseGen	In dieser Ebene werden die Kräuterzubereitungen morphologisch oder syntaktisch beschrieben. kompNN = NN-Komposita, die zusammengeschrieben oder mit einem Bindestrich verbunden sind; kompNNgetrennt = NN-Folgen, die ein Kompositum sein könnten, aber mit Spatium geschrieben wurden; phraseVon = Kräuterzubereitungen mit von-PP, z.B. safft von weremut; phraseGen = Kräuterzubereitungen mit Genitiv-Attribut, z.B. safft des weremuts.
noun_nom Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	In dieser Ebene werden alle Nomina aufgenommen, die im Text vorkommen und zwar immer in der ersten Schreibung des Nominativ Singular, in der sie vorkommen. Wenn die erste Form von "Saft" safft ist, werden alle Vorkommen von "Saft" mit safft annotiert, auch wenn es später Formen von saft geben sollte. Alle Pluralformen werden durch die Singularform annotiert. Alles wird in Kleinbuchstaben geschrieben. Diese Ebene hilft bei der Feststellung der Variation innerhalb eines Textes.
form_noun Segmentierung basiert auf 'norm' Annotationswert(e): simplex kompNN kompNNgetrennt kompNEN kompNENgetrennt kompNNNgetrennt kompAN kompVN derivat nom gri lat lex	In dieser Ebene werden alle Nomina morphologisch annotiert. kompNN = NN-Komposita, die zusammengeschrieben oder mit einem Bindestrich verbunden sind; kompNNgetrennt = alle NN Folgen, die ein Kompositum sein könnten, aber mit Spatium geschrieben wurden; kompNEN = NE-N-Komposita, die zusammengeschrieben oder mit einem Bindestrich verbunden sind; kompNENgetrennt = alle NE-N Folgen, die ein Kompositum sein könnten, aber mit Spatium geschrieben wurden; kompNNNgetrennt = alle NNN Folgen, die ein Kompositum sein könnten, aber mit Spatium geschrieben wurden; kompAN = AN-Komposita; kompVN = VN-Komposita; derivat = Derivate; nom= implizite Nominalisierung (Konversion, Ablaut, syntaktische Nominalisierung); gri/lat/ara = klar griechische/lateinische/arabische Nomina, bereits integrierte Wörter lateinischen Ursprungs werden nicht gekennzeichnet, sondern wie native Wörter behandelt; lex = bestimmte lexikalisierte Kräuternamen, diese sind zwar ursprünglich morphologisch komplex, aber nicht mehr offen und der Schreiber hat keine Wahl (ob diese Bildungen noch transparent sind, ist unklar), z.B. Beifuß, Wermut, Stabwurz, aber auch tausend guldin für "Tausendguldenkraut".
comment_lex Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	Dies ist eine unsystematische Ebene für Bemerkungen und Fragen zur Lexik.
clause_type Segmentierung basiert auf 'norm' Annotationswert(e): rs padv rsx rsdem padvpart dem part	Annotation von Satztypen. Da wir nur flach annotieren und nicht beliebig Ebenen vervielfachen wollen, haben wir ein Problem bei geschachtelten Strukturen (also Relativsätzen, die Relativsätze enthalten oder Relativsätzen, die Demonstrativsätze enthalten). Wir haben jeweils den äußersten (größten) Satz annotiert. In der Annotationsebene "bemerkungen_syntax" steht ein Hinweis auf die Verschachtelung. rs = klare Relativsätze, dabei sowohl w-Relativsätze als auch d-Relativsätze; padv = Sätze, die durch ein Präpositionaladverb eingeleitet werden; rsx = Relativsätze ohne Hauptsatz, das kommt häufig in Überschriften vor; rsdem = ambige Fälle: Relativsatz oder Demonstrativsatz; padvpart = Sätze mit Präpositionaladverb und Partizip; dem = Demonstrativsätze, hier sind alle Sätze gemeint, deren Subjekt ein Demonstrativpronomen ist; part = Partizipien, die sich ähnlich verhalten wie Relativsätze.
position_rel Segmentierung basiert auf 'norm' Annotationswert(e): vor nach int	Position des Relativsatzes im Hauptsatz. vor = vorangestellt; nach = nachgestellt; int = eingebettet.
position_referent Segmentierung basiert auf 'norm' Annotationswert(e): adja-v adja-n dist na	Position des Relativsatzes zur Bezugskategorie.adja-v = adjazent vorangestellt; adja-n = adjazent nachgestellt; dist = distant; na = nicht anwendbar.
form_referent Segmentierung basiert auf 'norm' Annotationswert(e): np d-pron p-pron null	Form der Bezugskategorie des Relativsatzes. np = nicht-pronominale NP; d-pron = der, die, das, dieser, etc.; p-pron = Personalpronomina; null = bei freien und asyndetischen Relativsätzen, die kein overtes Korrelat im Hauptsatz haben.
position_verb_rel Segmentierung basiert auf 'norm' Annotationswert(e): v2 ve venf	Verbstellung im Relativsatz. v2 = Verb-Zweit-Stellung; ve = Verb-End-Stellung; venf = Verb-End-Stellung mit besetztem Nachfeld.
form_relpron Segmentierung basiert auf 'norm' Annotationswert(e): d-pron w-pron w-phras	Form der reltivsatzeinleitenden Kategorie. d-pron = alle d-Pronomina; w-pron = wer, welch-; w-phras = z.B. welch frau
mod_referent Segmentierung basiert auf 'norm' Annotationswert(e): relsatz d-pron m-padv m-part np	relsatz = An Pronomen, NP oder Satz annotiert, wenn von einem Relativsatz modifiziert. Bei freien Relativsätzen nicht anwendbar. Die ganze Bezugskategorie wird als Spanne annotiert. d-pron/m-padv/ m-part/ np = NA.
position_verb Segmentierung basiert auf 'norm' Annotationswert(e): V2 Vletzt V? V1	Verbposition.V2 gibt dabei Verbzweitstellung in einem Nebensatz mit subordinierender Konjunktion an. Vletzt markiert dabei Verbletztstellung in einem Nebensatz mit subordinierender Konjunktion. V? markiert eine unklare Verbposition in einem Nebensatz mit subordinierender Konjunktion.V1 gibt Verberststellung in einem Nebensatz mit subordinierender Konjunktion an.
subclause_type Segmentierung basiert auf 'norm' Annotationswert(e): Adverbial Attribut Komplement	Nebensatztyp. Adverbial: Adverbiale Funktion eines Nebensatzes mit subordinierender Konjunktion. Attribut: Attributive Funktion eines Nebensatzes mit subordinierender Konjunktion. Komplement: Komplementfunktion eines Nebensatzes mit subordinierender Konjunktion.
KOUS_sem Segmentierung basiert auf 'norm' Annotationswert(e): additiv final k.a. kausal konditional konsekutiv konzessiv modal temporal 0	KOUS_Semantik. additiv: Additive Semantik einer subordinierenden Konjunktion. final: Finale Semantik einer subordinierenden Konjunktion. k.a.: Nicht-analysierbare Semantik einer subordinierenden Konjunktion. kausal: Kausale Semantik einer subordinierenden Konjunktion. konditional: Konditionale Semantik einer subordinierenden Konjunktion. konsekutiv: Konsekutive Semantik einer subordinierenden Konjunktion. konzessiv: Konzessive Semantik einer subordinierenden Konjunktion. modal: Modale Semantik einer subordinierenden Konjunktion. temporal: Temporale Semantik einer subordinierenden Konjunktion; 0: NA.
ppk_e1 - ppk_e3 Segmentierung basiert auf 'dipl' Annotationswert(e): ppk ppk_e2 ppk_e3 zwf ppk_rek	Die ppk_e1-Ebene gibt an, ob es sich bei einer Textsequenz um eine Präpositionalkonstruktion (Präpositionalattributskonstruktion bzw. Attributive Adverbiale Bestimmung) handelt. ppk: normale Präpositionalkonstruktion ppk_e2: normale ppk innerhalb einer ppk in der Ebene ppk_e1 ppk_e3: normale ppk innerhalb einer ppk in der Ebene ppk_e2 zwf: Zweifelsfall ppk_rek: rekursive (verschachtelte) ppk attr_X: Attribute, die sich auf ein Element einer PPK beziehen, ohne innerhalb einer syntaktischen Sequenz direkt an dieses angeschlossen zu sein. X ist ein Platzhalter für das jeweilige Bezugswort.

StrukturelleAnnotationen

Annotationsebene und -wert(e)	Beschreibung
lb Segmentierung basiert auf 'dipl' Annotationswert(e): lb	Markierung einer ganzen Zeile.
pb Segmentierung basiert auf 'dipl' Annotationswert(e): pb	Markierung einer ganzen Seite.
pb_n Segmentierung basiert auf 'dipl' Annotationswert(e): Ganzzahlwert oder Buchstabe	Seitenzahl aus dem Faksimile.
pb_ana Segmentierung basiert auf 'dipl' Annotationswert(e): Ganzzahlwert	Korrektur/ Interpretation von vermutlich nicht korrekten Seitenzahlangaben.
unclear Segmentierung basiert auf 'dipl' Annotationswert(e): unclear	Markierung, dass Zeichen eines Tokens oder ein Token bzw. ein Text nicht lesbar sind.
atLeast Segmentierung basiert auf 'dipl' Annotationswert(e): Ganzzahlwert	Geschätzte, minimale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
atMost Segmentierung basiert auf 'dipl' Annotationswert(e): Ganzzahlwert	Geschätzte, maximale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
interpretation Segmentierung basiert auf 'dipl' Annotationswert(e): Freitext	Interpretationsvorschläge für unleserliche Zeichen/Zeichenketten, die in der Annotationsebene unclear als „unclear“ getagged sind.
figure Segmentierung basiert auf 'dipl' Annotationswert(e): figure table	Markiert eine Grafik oder Tabelle, die im Text eingebettet ist.
figure_rend Segmentierung basiert auf 'dipl' Annotationswert(e): drawingOfTwoJars drawingOfThreeJars drawingOfTwoGlasses drawingOfThreeGlasses drawingOfTwoAlembics drawingOfAnInstrument drawingOfAnEibisch drawingOfAStaubwurtz drawingOfAKamille drawingOfAHühnerdarm drawingOfAHelmet drawingOfAFilter drawingOfAWaldenburgischerKolben drawingOfAHaselwurtz drawingOfADrachenwurtz drawingOfAGauchheyl drawingOfADill drawingOfAHauswurz	Beschreibung, was auf einer Grafik (annotiert mit figure) zu sehen ist (z. B. Darstellung einer Pflanze oder eines Destilliergeräts).
figure_p Segmentierung basiert auf 'dipl' Annotationswert(e): Integer	Angabe der Seite, auf der eine Abbildung im Original zu sehen ist.
column Segmentierung basiert auf 'dipl' Annotationswert(e): l r	Annotation aller dipl-Einheiten, die zusammen in einer Spalte stehen, wenn der Text mindestens in zwei Spalten aufgeteilt ist. l: links; r: rechts.
hi Segmentierung basiert auf 'dipl' Annotationswert(e): hi	Markierung eines irgendwie hervorgehobenen Bereichs.
script Segmentierung basiert auf 'dipl' Annotationswert(e): blackletter roman mixed	Beschreibung von Schriftartenänderungen, wobei die vorwiegende Schriftart als default-Wert gesetzt wurde.
hi_rend Segmentierung basiert auf 'dpl' Annotationswert(e): bold end iniCap italics letter-spacing:1em red	Beschreibung der Darstellung des hervorgehobenen Bereichs, z. B. Schriftart, Farben etc.
head Segmentierung basiert auf 'dipl' Annotationswert(e): head	Markierung einer Überschrift.
note Segmentierung basiert auf 'dipl' Annotationswert(e): note margin end	In einer Spannenannotation wird die gesamte Fußnote mit dem Tag „note“ markiert. Der Text der Fußnoten wird immer am Ende des Absatzes, in dem sie eingepflegt sind, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.
ref Segmentierung basiert auf 'norm' Annotationswert(e): ref	Referenz einer Fußnote.
ref_target Segmentierung basiert auf 'norm' Annotationswert(e): #fINT	ID der Fußnote, auf die referiert wird. Es wird fortlaufend mit #fZ nummeriert.
ref_type Segmentierung basiert auf 'norm' Annotationswert(e): noteAnchor	Art der Referenz, z.B. TEI "noteAnchor".
quote Segmentierung basiert auf 'dipl' Annotationswert(e): yes no	dipl-Token, die zu einem Zitat gehören, werden mit dem Wert "yes" versehen. Als default-Wert gilt "no".
item Segmentierung basiert auf 'norm' Annotationswert(e): item	Element des Textes, der als Liste in der Ebene list markiert ist.

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und -wert(e)	Beschreibung
definition Segmentierung basiert auf 'norm' Annotationswert(e): fig expl	Beschreibung (fig) oder Erklärung (expl) eines auf eine Abbildung bezogenen oder im Text genannten Begriffs.
disease Segmentierung basiert auf 'norm' Annotationswert(e): di	Nennung einer Krankheit (Beschwerden, Symptome etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. der Bauch, der weh tut oder Bauchweh.
author_ref Segmentierung basiert auf 'norm' Annotationswert(e): author pron1sg pron1pl pron2pl pron3sg	Markiert Referenzen des Autors auf sich oder andere Autoren bzw. auf beide.
reader_ref Segmentierung basiert auf 'norm' Annotationswert(e): pron1pl pron2pl pron2sg pron3sg reader author	Markiert Referenzen des Autors auf den Leser.
plant Segmentierung basiert auf 'norm' Annotationswert(e): pl	Nennung einer Pflanze (Kräuter wie Bäume wie Blumen etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. das Kraut, das hinter dem Bahnhof wächst oder Kamille.
property Segmentierung basiert auf 'norm' Annotationswert(e): appearance cultivation effect preparation smell taste	Beschreibt den Bezug von Eigenschaften wie Geruch, Aussehen etc. auf eine Referenz (z.B. Kraut).
name Segmentierung basiert auf 'norm' Annotationswert(e): name	Markiert Eigennamen.
name_type Segmentierung basiert auf 'norm' Annotationswert(e): flower gardener herb person plant publisher scholar tree	Spezifiziert den Typ der Eigennamen.
reference Segmentierung basiert auf 'norm' Annotationswert(e): Freitext	Diese unsystematische Ebene dient der Referenz von Interpretationen jeglicher Art.

Metadaten

Diese Annotationen sind an die TEI-P5-Richtlinien angelehnt. Weiterhin gibt es die kompletten Korpusmetadaten in TEI p5: HANDLE-ID.

Annotationsebene und -wert(e)	Beschreibung
author Annotationswert(e): Freitext NA	Name des Autors des Textes.
bibl Annotationswert(e): Freitext	Voller bibliographischer Eintrag für die Quelle inklusive der im Korpus annotatierten Seitenzahlen.
date Annotationswert(e): Ganzzahlwert	Datum der Veröffentlichung, normalerweise das Jahr.
publisher Annotationswert(e): Freitext NA	Verlag/Verleger.
place Annotationswert(e): Freitext NA	Verlagsort.
title Annotationswert(e): Freitext	Titel der Arbeit, aus dem das Dokument extrahiert wurde.
translator Annotationswert(e): Freitext NA	Übersetzer des Textes, wenn vorhanden.
trans_from Annotationswert(e): it lat NA	Sprache, aus der der Text übersetzt wurde.
editor Annotationswert(e): Freitext NA	Herausgeber des Textes (wenn zusätzlich zum Verlag/Verleger angegeben).
version Annotationswert(e): 1.0 2.0 3.0 4.0 5.0 6.0 7.0	Version, in der das jeweilige Dokument zum Korpus hinzugefügt wurde.
edition_first Annotationswert(e): yes no	Wenn bekannt, wird hier angegeben, ob es sich bei dem Faksimile um eine Erstauflage handelt oder nicht.
band Annotationswert(e): Ganzzahlwert NA	Nummer des Bandes, wenn vorhanden.
maintopic Annotationswert(e): science non-science	Angabe darüber, ob der Text eher Alltags- (non-science) oder Wissenschaftsthemen (science) behandelt.
thema Annotationswert(e): Al As B G K L M R	Ordnet einem Text einen oder mehrere Themenbereiche zu. Additiver Wert aus den verschiedenen Kürzeln, alphabetisch geordnet. Al: Alchemie, As: Astronomie, B: Botanik, G: Gärtnerei, K: Küche, L: Linguistik. M: Medizin, R: Religion. Beispielwerte sind "B", "BM" oder "BKM".
register Annotationswert(e): herbology	Register des Textes.
lingualism Annotationswert(e): monoling multiling	Gibt an, ob größere Textstellen vorhanden sind, die nicht auf Deutsch verfasst wurden. Dies gilt nicht für einzelne Übersetzungen von Pflanzennamen.
orig_date Annotationswert(e): Ganzzahlwert NA	Ist ein Text eine Nichterstauflage, dann kann hier das Jahr der Erstauflage stehen, wenn bekannt.
orig_place Annotationswert(e): Freitext NA	Ist ein Text eine Nichterstauflage, dann kann hier der Erscheinungsort der Erstauflage stehen, wenn bekannt.
repository Annotationswert(e): URL	URL zum Repositorium des Faksimiles.
lang_type Annotationswert(e): mhd fnhd nhd	Angabe des Sprachtyps. mhd: mittelhochdeutsch; fnhd: frühneuhochdeutsch, nhd: neuhochdeutsch
lang_area Annotationswert(e): md obd NA	Das Sprachgebiet wird angegeben. md: Mitteldeutsch, obd: oberdeutsch. Bei jüngeren Texten, die schon weitesgtehend standardisiert sind und denen kein Sprachgebiet zugeordnet werden konnte, wird als Wert "NA" angegeben.
text_type Annotationswert(e): prose lyric mixed	Angaben über die allgemeine Textgestaltung. Prosa: der Text ist komplett in Prosaform verfasst, Poesie: der Text ist komplett in Reimform verfasst; gemischt: der Text ist teilweise prosaisch, teilweise gereimt verfasst.
lyric_type Annotationswert(e): end_rhyme meter rhyme_meter	Wenn im Metadatum "textgestaltung" die Werte "Poesie" oder "gemischt" angegeben sind, dann wird hier eingetragen, welche Gestaltungselemente dafür verwendet wurden.
wormwood Annotationswert(e): yes no	Gibt an, ob ein Textabschnitt zum Thema "Wermut" transkribiert wurde.
herb_sorting Annotationswert(e): yes no	Gibt an, ob es sich bei dem Text um eine Kräutermonographiesammlung handelt, d.h. dass nacheinander verschiedene Kräuter abgehandelt werden.

Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie