Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Dokumentation Version 9.0

Die ausführlichen Annotationsrichtlinien können Sie hier herunterladen.

Korpus-Pipeline

  1. Folgende Dokumente wurden in Version 9.0 hinzugefügt:
    BuchDerNatur-Canamellis_1482_vonMegenberg
    NewKreuterbuch-VR_1543_Fuchs
    Experimenta_1550_Schellenberg
    Experimenta-VR_1550_Schellenbeg
    NewKreuterbuchVR_1563_HandschNeuw
    Kreuterbuch_1588_Theodorus
    Paradeiszgaertlein-VR_1588_Rosbach
    NeuwKreuterbuch-VR_1588_Theodorus
    HortulusSanitatis-VR_1609_Uffenbach
    Kraeutterbuch-VR_1609_Carrichter
    BeschreibungDerGraeser_c27-31_1769_Schrebers
    BeschreibungDerGraeser_c37-48_1769_Schrebers

    Eine vollständige Liste aller Dokumente dieser Version finden Sie in den Annotationsguidelines oder unter Download.
  2. Manuelle diplomatische Transkription für die neuen Texte.
  3. Tokenisierung der Transkription mit TreeTagger.
  4. Manuelle Erstellung der Normalisierung in <norm>.
  5. Wortartentagging und Lemmatisierung in allen Dokumenten mit TreeTagger-Batch und TreeTagger. Anführungszeichen im Text können zu Fehlern führen, weshalb diese maskiert werden sollten. Desweiteren werden Leerzeilen im Text durch den TreeTagger gelöscht, sodass Fehler in der Segmentierung entstehen können. Deshalb sollten diese durch einen beliebigen Tag (z.B. <9>) gefüllt werden und die Option -sgml sollte beim taggen benutzt werden. Diese Tags werden dann nicht getaggt und können anschließend wieder entfernt werden. Nach dem Zusammenführen des TreeTagger-Outputs mit den MS Excel-Dateien, wird mit dem Makro SearchAndMerge die Segmentierung rekonstruiert (Readme).
  6. Semi-automatische Erstellung von <clean> für alle neuen Dokumente (Python-Skript und Readme).
  7. Konvertierung von Excel 2013 nach ANNIS und PAULA mit Pepper mithilfe der folgenden Importer: SpreadsheetImporter, PTBImporter, CoNNLImporter. Merging mithilfe des Merger-Moduls. Export ins ANNIS- und PAULAFormat mit dem ANNISExporter und dem PAULAExporter.
  8. Durchgängige Korrektur der lang-Annotationen (nach erweiterten Annotationsrichtlinien)
  9. In den Dokumenten HortulusSanitatis-VR_1609_Uffenbach und BeschreibungDerGraeser-c27-31_1769_Schrebers wurde die Annotationsebene „quotemark“ hinzugefügt
  10. In allen Dokumenten wurden die Annotationsebenen „abbr“ , „gram“, „technicalterm“ und „M“ hinzugefügt
  11. In folgenden Dokumenten wurden die Annotationsebenen „kaus1“, „kaus2“, „kaus3“, „kaus4“, „kon1“, „kon2“, „lin1“, „lin2“, „lin3“, „lin4“ und „hypo“ hinzugefügt:
    ArtzneyBuchleinDerKreutter-Abrotanum_1532_Tallat
    ArtzneyBuchleinDerKreutter-VR_1532_Tallat
    GartDerGesundheit-c23-33_1487_Cuba
    GartDerGesundheit-VR_1487_vonCuba
    PflantzGart_1639_Rhagor
    PflantzGart-VR_1639_Rhagor
  12. In dem Dokument NeuwKreuterbuch_1588_Theodorus konnten die Bilder der Seiten 34-36 nicht annotiert
  13. Folgende Annotationsebenen wurden (soweit vorhanden) aus allen Dokumneten erntfernt: orc, cat, cat-const, func, deprel, lemma-deprel, pos-deprel, morph, pos-const, foreign, foreign_trans, sentence_end, position_verb, subclause_type, KOUS_sem, comment_lex, comment, reference, form_disease, problem, herbname_norm, herbprep, form_prep, noun_nom, form_noun, clause_type, position_rel, position_referent, form_referent, position_verb_rel, form_relpron, mod_referent, ppk_e1, ppk_e2, ppk_e3, pb_ana, atLeast, atMost, interpretation, hi, ref, ref_target, ref_type, definition, disease, plant, property, name, name_type

Korpus-Design

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Deshalb haben wir den Bereich der Kräuterkunde gewählt. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 3.000 bis 10.000 Wortformen. Die folgende Abbildung zeigt die Verteilung der  "norm" - Einheiten pro Jahr: 

copy_of_dokumentation-version-8.0.text.image2

 

Annotationsebenen

Das RIDGES-Korpus setzt sich aus Annotationen zusammen, die in verschiedenen Formaten erstellt wurden. Alle (Zwischen-) Formate stehen unter Download zum Herunterladen bereit, enthalten aber jeweils nicht alle hier aufgeführten Annotationsebenen, bzw. einige zusätzliche (irrelevante) Ebenen, die nicht nach ANNIS und PAULA konvertiert wurden. Eine ausführlichere Dokumentation der einzelnen Formate finden Sie im LAUDATIO-Repositorium.

Die Annotationsbenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in fünf Gruppen untergliedern.

 

  1. Transkription/Normalisierung
  2. Linguistische Annotationen
  3. Strukturelle Annotationen
  4. Inhaltliche Annotationen
  5. Metadaten

 

Transkription/Normalisierung

Annotationsebene und -wert(e) Beschreibung
dipl
eigenständige Segmentierung

Annotationswert(e):
  • Text
Die Transkription von Faksimiles stellt für die korpuslinguistische Aufbereitung zumeist die grundlegende, diplomatische Ebene (dipl). Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich kann so auch entgegen modernen Orthographieregeln segmentiert oder transkribiert werden. Eine Unicode-Tabelle mit Sonderzeichen wurde dabei zu Hilfe genommen.
clean
eigenständige Segmentierung

Annotationswert(e):
  • Text
Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Beginnt das zweite Wort eines durch Zeilenumbruch getrennten Wortes mit einem Großbuchstaben, wird dieser in der clean-Ebene in Kleinbuchstaben realisiert (Gelb- Sucht; wird zu Gelbsucht). Ist der komplette zweite Bestandteil in Großbuchstaben geschrieben, bleibt dies so bestehen (MON- TANUM wird zu MONTANUM). Außerdem stellen die neuen Dokumente aus Version 4.0 und 5.0 neue Anforderungen an die automatisch erstellte clean-Ebene. Mit Makra versehene Vokale können nicht länger kontextabhängig normalisiert werden. Deshalb werden ab Version 4.0 für Token, die Vokale mit Makra enthalten alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch '|' getrennt (zum Beispiel: 'auſzwēdig' zu 'auszwemdig|auszwendig'). Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript, das zur Erstellung benutzt wurde.
norm
eigenständige Segmentierung

Annotationswert(e):
  • Text

Die norm-Ebene stellt einen weiteren Normalisierungsschritt dar, indem hier die Tokenisierung, Graphematik, Flexionsformen und Lexeme an den neuhocheutschen Sprachstand angepasst werden. Graphematik: orthographische Anpassung nach Duden (kreutter -> Kräuter); Phonologie: zu beachten sind die frühneuhochdeutschen Lautwandelprozesse, also Diphthongierung, Monophthongierung, Synkope, Apokope, Nukleussenkung, etc.(lehret -> lehrt); Morphologie: in die Nasen -> in die NaseLexikologie: ausgestorbenes lexikalisches Material wird mit modernen Orthograhieregeln übernommen und ggf. in der Ebene "erlaeuterung" erkäutert (Vergeſz -> Vergess); Wortbildung: ausgestorbene Wortbildungsmorpheme werden nach Möglichkeit durch neuhochdeutsche Bildungen ersetzt (halben -> halber oder stachelecht -> stachelig). Kasus wurde bisher nur in einigen Dokumenten normalisiert.

 

Linguistische Annotationen

Annotationsebene und -wert(e) Beschreibung
pos
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • STTS
Automatische Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset (STTS).
lemma
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Lemmatisierung mit dem TreeTagger: Normalisierung der flektierten Wortformen, Zuordnung der entsprechenden Lexikoneinträge zu jeder Wortform.
lang
Segmentierung basiert
auf 'norm'

Annotationswert(e):
Kodiert die konkrete Sprache des im Layer foreign markierten Textes nach ISO Drei-Buchstaben-Code (z. B. lat).

abbr

Segmentierung basiert
auf 'norm'

Annotationswert(e)

  • yes
  • no
  • unknown 
Annotation von Abkürzungen in <norm>: yes: Abkürzungen in <norm>, no: keine Abkürzung in <norm> (Default-Wert), unknown: für unknown in <norm>.
comp
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • k
Komposition. Markiert alle im Korpus enthaltenen zusammen, getrennt oder mit Bindestrich geschriebenen Substantivkomposita (mit nominalem Kopf).
comp_orth
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • zs
  • gtr
  • bs
  • lb1
  • lb2
Beschreibt die Orthographie der in der Ebene "komp" annotierten Komposita: zs: zusammengeschrieben, gtr: getrennt geschrieben, bs: Bindestrichmarkierung (innerhalb einer Zeile), lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrichmarkierung), lb2: unterbrochen durch Zeilenumbruch (mit Bindestrichmarkierung).
prot
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • prot1
  • prot2
  • prot3
Weist jedem Kompositum in der Ebene komp einen Prototypen zu. Der Prototyp gibt an, wie wahrscheinlich ein Vorkommen ein Kompositum ist, dabei gilt: prot1: sicher als Kompositum zu identifizieren, prot2: sehr wahrscheinlich Kompositum und prot3: Zweifelsfall (nicht in der Ebene "komp" markiert).
comp_amb
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • a
  • gpre
Annotation von Wortfolgen, die möglicherweise Komposita sein könnten. a: Adjektiv-Nomen-Abfolgen, bei denen das Adjektiv unflektiert ist und bei denen man im modernen Deutschen eher ein Kompositum verwenden würde (z.B. das edel geſteine). Es gibt noch weitere AN-Abfolgen, die ebenfalls ein unflektiertes Adjektiv enthalten, die aber im heutigen Deutschen auch genauso (oder noch eher) als attributive Adjektive verwendet werden können. Diese wurden jedoch in ADJA_uninfl annotiert. gpre: Nomen-Nomen-Abfolgen, die sowohl als Komposita als auch als Nomina mit pränominalem Genitivattribut interpretiert werden können und bei denen der Kontext oder die Flexion keinen Aufschluss auf den grammatischen Status geben können.
infl_fuge
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • y
  • n
  • yn
  • NA
Annotation von Flexion bzw. Fugenelementen bei Wortfolgen, die möglicherweise Komposita sein könnten. y: Es ist ein Fugenelement, bzw. ein Flexionselement vorhanden (‚yes‘). n: Es ist kein Fugenelement, bzw. ein Flexionselement vorhanden (‚no‘). yn: Gilt für potentielle Komposita mit mehr als zwei lexikalischen Wortteilen, die sowohl mit als auch ohne Fugenelement oder Flexionselement realisiert wurden (z.B. Jungkfrawen har). NA: Es kann nicht beurteilt werden, ob ein Fugenelement, bzw. Flexionselement vorhanden ist (meistens weil das betroffene Wort/lexikalische Material nicht mehr transparent ist oder aus einer anderen Sprache (Latein) stammt).
comp_lex
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • lex
  • n
lex: lexikalisierte Komposita, die nicht (mehr) als Syntagma ausgedrückt werden können, weil ihre addierten Teilbedeutungen stark von der Kompositionsbedeutung abweichen (betroffene Themenbereiche: Pflanzennamen, geographische Namen, bestimmte Krankheiten, Körperteile, Tierarten, Sternzeichen), aber nicht wenn sie mit einem zusätzlichen Glied versehen sind, das nicht zu dem lexikalisierten Wort gehört, z.B. Eisenkrautsaft oder Beifußblumen (vs. Johannisblumen), Blutwassersucht. Verbindungen mit "Baum" werden wie Verbindungen mit "Kraut" behandelt - meistens sind sie ein zusätzliches Glied zur eigentlichen Pflanzenbezeichnung - Kirsche -> Kirschbaum, Eiche -> Eichenbaum; manchmal gehören sie aber zur lexikalisierten Pflanzenbezeichnung (z.B. Schildkraut, Rutelkraut, Wunderbaum). n: Oberes trifft nicht zu. Eine Tabelle mit Einzelentscheidungen findet man in den ausführlichen Annotationsguidelines.
comp_n
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • N
  • A
  • V
  • ADV
  • APPR
  • CARD
  • SUFF
  • CONV
  • X
Additive Werte zur Beschreibung der morphologischen Struktur der nominalen Komposita, z.B. N_N für Komposita, die aus zwei Nomina bestehen. Suffixe wurden nur berücksichtigt, wenn Suffigierung der letzte Wortbildungsprozess war ([[Kindbett]erin]). Zwischen den Kürzeln für die Kategorien der einzelnen morphologischen Elemente stehen Unterstriche. Ist die Kategorie eines Elements nicht ermittelbar, wird der Platzhalter „X“ verwendet.
comp_n_graph
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • sep
  • nospace
  • hyph
  • lb1
  • lb2
  • camel
Additive Werte zur Beschreibung der morphologischen Struktur der nominalen Komposita, z.B. N_N für Komposita, die aus zwei Nomina bestehen. Suffixe wurden nur berücksichtigt, wenn Suffigierung der letzte Wortbildungsprozess war ([[Kindbett]erin]). Zwischen den Kürzeln für die Kategorien der einzelnen morphologischen Elemente stehen Unterstriche. Ist die Kategorie eines Elements nicht ermittelbar, wird der Platzhalter „X“ verwendet.
comp_n_mod
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • n
  • art
  • apprart
  • adja
  • piat
  • pposat
  • pdat
  • card
  • prelat
  • NA
Gibt an, ob die in der Ebene <comp_n> annotierten Komposita einen oder mehrere(flektierende) Modifikatoren erhalten haben und welche(n). Dafür wurde dem Kompositum ein Wert aus dem STTS zugewiesen, der die Wortart des Modifikators beschreibt. Bei mehreren Modifikatoren wurden additive Werte vergeben, die durch einen Unterstrich separiert sind, z.B. 'art_adja'. Vom STTS abweichende Werte sind n (kein Modifikator vorhanden) und NA (keine Angabe möglich).
comp_a
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • N
  • A
  • ADV
  • CARD
  • SUFF
  • CONV
  • farb
Additive Werte zur Beschreibung der morphologischen Struktur der adjektivischen Komposita, z.B. A_A für Komposita, die aus zwei Adjektiven bestehen. Suffixe wurden nur berücksichtigt, wenn Suffigierung der letzte Wortbildungsprozess war. Zwischen den Kürzeln für die Kategorien der einzelnen morphologischen Elemente stehen Unterstriche. farb: das letzte Glied enthält die Wurzel „farb“, z.B. himmelfarben.
comp_a_graph
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • sep
  • nospace
  • hyph
  • lb1
  • lb2
Beschreibt die Graphematik der in der Ebene <comp_a> annotierten Komposita. sep: getrennt; nospace: zusammen; hyph: Bindestrich; lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrich); lb2: unterbrochen durch Zeilenumbruch (mit Bindestrich). Komposita, die aus mehr als zwei lexikalischen Teilen entstehen, erhalten einen additiven Wert (verbunden durch Unterstriche), z.B. „nospace_sep“ bei Saurampffer waſſer.
attr_gen
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • gpre
  • gpost
Markiert alle im Korpus enthaltenen Nominalphrasen, die ein Genitivattribut enthalten, gpre: pränominales Genitivattribut und gpost: postnominales Genitivattribut.
morph_ellipsis
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • morph_ellipsis
Wortteilellipse Markiert alle im Korpus enthaltenen Koordinationen von Kompositionserst- und Zweitglied, z.B.: gelb⸗ und Waſſerſucht).
persname
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Personennamen (nach Liste)
Diese Ebene dient der eindeutigen und schnellen Verknüpfung der im Korpus auftretenden Namen mit den dazugehörigen historischen Personen. Ist eine Person nicht eindeutig identifizierbar wird der in der "norm" gegebene Wert im Nominativ Singular in die Ebene "persname" übertragen. Die Schreibung der Namen richtet sich nach dieser Liste (diese enthält offizielle Abkürzungen und die entsprechende Ausschreibung vieler BotanikerInnen) und wenn dort nicht aufgeführt nach ihrer Schreibung in der deutschsprachigen Wikipedia. Anstelle von Leerzeichen werden Unterstriche gesetzt. Im Folgenden sind alle bisher in RIDGES vorkommenden eindeutigen Personennamen aufgeführt. Diese werden weiterhin so übernommen. Hinweis: Viele Autoren haben eine Art Künstlername und es gibt auch viele verschiedene Schreibweisen. In dieser Ebene muss darauf geachtet werden, dass ein und dieselbe Person immer mit dem gleichen Namen annotiert wird.
title
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • Freitext
Es werden alle Werknamen annotiert, auf die ein Autor referiert. Es wird der jeweilige Werkname im Nominativ angegeben.

kaus1-kaus4

Segmentierung basiert
auf 'dipl'

 

Annotationswert(e):

  • ant
  • kons
Erste bis vierte Annotationsebene von Antezedens und Konsequens in einer kausalen Relation: ant: Antezedens einer kausalen Relation, kons: Konsequens einer kausalen Relation.

kon1-kon2

Segmentierung basiert
auf 'norm'

 

Annotationswert(e):

  • konk
  • kone
  • koni
  • kona
Erste und zweite Annotationsebene der Art des Konnektors in kausalen Relationen (besierend auf <kaus1> - <kaus4>), konk: Kausaler Konnektor nach dem Handbuch deutscher Konnenktoren (HdK), kone: Konnektor (nicht kausal nach dem HdK), koni: kein Konnektor, kona: Annotation von und oder auch  in Kombination mit einem weiteren Konnektor am Anfang einer Relation.

lin1-lin4

Segmentierung basiert
auf 'dipl'

 

Annotationswert(e):

  • ik
  • ika
  • ikinsert
  • ikainsert
Erste bis vierte Annotationsebene der Relation der Konnekte (Abfolge von Antezedens und Konsequens basierden auf <kaus>): ik: Konsequens folgt Antezedens, ika: Antezedens folgt Konsequens, ikinsert: Konsequens ist in Antezedens eingebettet, ikainsert: Antezedens ist in Konsequens eingebettet.

hypo

Segmentierung basiert
auf 'dipl'

 

Annotationswert(e):

  • hypo
Verknüpfung der kausalen Relationen (basierend auf <kaus>): hypo: Markierung von ineinander eingebetteten kausalen Relationen.

M

Segmentierung basiert auf 'norm'
 

Annotationswert(e):

  • M
Annotation von „Menstruation“: M: Annotation der minimalen Nominalphrase (exklusive Präpositionen oder höher eingebetteten Phrasen )

gram

Segmentierung basiert auf 'norm'
 

Annotationswert(e):

  • det
  • adjAtt
  • genAtt
  • objAtt
  • relAtt
  • nks
  • nkc
  • nkd

 

Zurodnung grammatikalischer Einheiten der Nominalphrase, sowie Klassifizierung der morphologischen Komplexität des nominalen Kerns: det: Determinierer der Nominalphrase mit Referenz auf “Menstruation”, adjAtt: Adjektiv Attribut der Nominalphrase mit Referenz auf “Menstruation”, genAtt: Genitiv Attribut der Nominalphrase mit Referenz auf “Menstruation“, objAtt: Objekattribut der Nominalphrase mit Referenz auf “Menstruation”, relAtt: Relativsatzattribut der Nominalphrase mit Referenz auf “Menstruation”, nks: Nomenkern Simplex, nkc: Nomenkern Kompositum, nkd: Nomenkern Derivation

technicalterm

Segmentierung basiert auf 'norm'

 

Annotationswert(e):

  • para
  • met
  • loanmed
  • her
  • herspec

 

Semiotische Variation: Art der Beziehung zwischen der Wahl des vernakulären Zeiches, seiner grundsätzlichen Bedeutung und den Eigenschaften des medizinischen Konzepts auf das es referiert: para: Paraphrase, met: Metapher, loanmed: Medizinisches Lehnwort aus klassischen Sprachen, her: Ererbtes Vokabular, das zur Modifikation von Referenzen verwendet wird (nur für Attribute annotiert), herspec: Ererbtes Vokabular, dass als Terminologie fungiert (nur für Attribute annotiert)

 

StrukturelleAnnotationen

Annotationsebene und -wert(e) Beschreibung
lb
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • lb
Markierung einer ganzen Zeile.
pb
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • pb
Markierung einer ganzen Seite.
pb_n
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • Ganzzahlwert oder Buchstabe
Seitenzahl aus dem Faksimile.
unclear
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • unclear
Markierung, dass Zeichen eines Tokens oder ein Token bzw. ein Text nicht lesbar sind.
figure
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • figure
  • table
Markiert eine Grafik oder Tabelle, die im Text eingebettet ist.
figure_p
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • Integer
Angabe der Seite, auf der eine Abbildung im Original zu sehen ist.
column
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • l
  • r
Annotation aller dipl-Einheiten, die zusammen in einer Spalte stehen, wenn der Text mindestens in zwei Spalten aufgeteilt ist. l: links; r: rechts.
script
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • blackletter
  • roman
  • mixed
Beschreibung von Schriftartenänderungen, wobei die vorwiegende Schriftart als default-Wert gesetzt wurde.
hi_rend
Segmentierung basiert
auf 'dpl'

Annotationswert(e):
  • bold
  • iniCap
  • italics
  • letter-spacing:1em
  • red
  • underlined
Beschreibung der Darstellung des hervorgehobenen Bereichs, z. B. Schriftart, Farben etc. bold: Fettrdruck; iniCap: ausgeschmückter großer Anfangsbuchstabe (meistens bei Kapitelanfängen), italics: Kursivdruck, letter-spacing:1em: Sperrdruck; red: rot; underlined: unterstrichen.
head
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • head
Markierung einer Überschrift.
note
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • note
  • margin
  • end
In einer Spannenannotation wird die gesamte Fußnote mit dem Tag „note“ markiert. Der Text der Fußnoten wird immer am Ende des Absatzes, in dem sie eingepflegt sind, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.
quote
Segmentierung basiert
auf 'dipl'

Annotationswert(e):
  • yes
  • no
dipl-Token, die zu einem Zitat gehören, werden mit dem Wert "yes" versehen. Als default-Wert gilt "no".

quotemark
Segmentierung basiert auf 'dipl'

Annotationswert(e):

  • qm
Markierung von Anführungszeichen (außerhalb des Fließtextes): qm: Markierung pro Zeile mit Anführungszeichen 

 

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und -wert(e) Beschreibung
author_ref
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • author
  • pron1sg
  • pron1pl
  • pron2pl
  • pron3sg
Markiert Referenzen des Autors auf sich oder andere Autoren bzw. auf beide.
reader_ref
Segmentierung basiert
auf 'norm'

Annotationswert(e):
  • pron1pl
  • pron2pl
  • pron2sg
  • pron3sg
  • reader
  • author
Markiert Referenzen des Autors auf den Leser.

 

Metadaten

Diese Annotationen sind an die TEI-P5-Richtlinien angelehnt. Weiterhin gibt es die kompletten Korpusmetadaten in TEI p5: HANDLE-ID.

Annotationsebene und -wert(e) Beschreibung
author

Annotationswert(e):
  • Freitext
  • NA
Name des Autors des Textes.
bibl

Annotationswert(e):
  • Freitext
Voller bibliographischer Eintrag für die Quelle inklusive der im Korpus annotatierten Seitenzahlen.
date

Annotationswert(e):
  • Ganzzahlwert
Datum der Veröffentlichung, normalerweise das Jahr.
publisher

Annotationswert(e):
  • Freitext
  • NA
Verlag/Verleger.
place

Annotationswert(e):
  • Freitext
  • NA
Verlagsort.
title

Annotationswert(e):
  • Freitext
Titel der Arbeit, aus dem das Dokument extrahiert wurde.
translator

Annotationswert(e):
  • Freitext
  • NA
Übersetzer des Textes, wenn vorhanden.
trans_from

Annotationswert(e):
  • it
  • lat
  • NA
Sprache, aus der der Text übersetzt wurde.
editor

Annotationswert(e):
  • Freitext
  • NA
Herausgeber des Textes (wenn zusätzlich zum Verlag/Verleger angegeben).

version

Annotationswert(e):

  • 1.0
  • 2.0
  • 3.0
  • 4.0
  • 5.0
  • 6.0
  • 7.0
  • 8.0
  • 9.0
Version, in der das jeweilige Dokument zum Korpus hinzugefügt wurde.
edition_first

Annotationswert(e):
  • yes
  • no
Wenn bekannt, wird hier angegeben, ob es sich bei dem Faksimile um eine Erstauflage handelt oder nicht.
band

Annotationswert(e):
  • Ganzzahlwert
  • NA
Nummer des Bandes, wenn vorhanden.
maintopic

Annotationswert(e):
  • science
  • non-science
Angabe darüber, ob der Text eher Alltags- (non-science) oder Wissenschaftsthemen (science) behandelt.
thema

Annotationswert(e):
  • Al
  • As
  • B
  • G
  • K
  • L
  • M
  • R
Ordnet einem Text einen oder mehrere Themenbereiche zu. Additiver Wert aus den verschiedenen Kürzeln, alphabetisch geordnet. Al: Alchemie, As: Astronomie, B: Botanik, G: Gärtnerei, K: Küche, L: Linguistik. M: Medizin, R: Religion. Beispielwerte sind "B", "BM" oder "BKM".
register

Annotationswert(e):
  • herbology
Register des Textes.
lingualism

Annotationswert(e):
  • monoling
  • multiling
Gibt an, ob größere Textstellen vorhanden sind, die nicht auf Deutsch verfasst wurden. Dies gilt nicht für einzelne Übersetzungen von Pflanzennamen.
orig_date

Annotationswert(e):
  • Ganzzahlwert
  • NA
Ist ein Text eine Nichterstauflage, dann kann hier das Jahr der Erstauflage stehen, wenn bekannt.
orig_place

Annotationswert(e):
  • Freitext
  • NA
Ist ein Text eine Nichterstauflage, dann kann hier der Erscheinungsort der Erstauflage stehen, wenn bekannt.
repository

Annotationswert(e):
  • URL
URL zum Repositorium des Faksimiles.
lang_type

Annotationswert(e):
  • mhd
  • fnhd
  • nhd
Angabe des Sprachtyps. mhd: mittelhochdeutsch; fnhd: frühneuhochdeutsch, nhd: neuhochdeutsch
lang_area

Annotationswert(e):
  • md
  • obd
  • NA
Das Sprachgebiet wird angegeben. md: Mitteldeutsch, obd: oberdeutsch. Bei jüngeren Texten, die schon weitesgtehend standardisiert sind und denen kein Sprachgebiet zugeordnet werden konnte, wird als Wert "NA" angegeben.
text_type

Annotationswert(e):
  • prose
  • lyric
  • mixed
Angaben über die allgemeine Textgestaltung. Prosa: der Text ist komplett in Prosaform verfasst, Poesie: der Text ist komplett in Reimform verfasst; gemischt: der Text ist teilweise prosaisch, teilweise gereimt verfasst.
lyric_type

Annotationswert(e):
  • end_rhyme
  • meter
  • rhyme_meter
Wenn im Metadatum "textgestaltung" die Werte "Poesie" oder "gemischt" angegeben sind, dann wird hier eingetragen, welche Gestaltungselemente dafür verwendet wurden.
wormwood

Annotationswert(e):
  • yes
  • no
Gibt an, ob ein Textabschnitt zum Thema "Wermut" transkribiert wurde.
herb_sorting

Annotationswert(e):
  • yes
  • no
Gibt an, ob es sich bei dem Text um eine Kräutermonographiesammlung handelt, d.h. dass nacheinander verschiedene Kräuter abgehandelt werden.