Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Dokumentation Version 2.0

Dokumentation der zweiten Version von Ridges Herbology.

Korpus-Pipeline

  1. Konstitution: Ridges v1 ohne "Flora francisca redidiva"
    Eine vollständige Liste aller Dokumente dieser Version lässt sich unter Downloads finden.
  2. Manuelle Korrektur der Transkription, der <clean>-Ebene und der Normalisierung.
  3. Wortartentagging und Lemmatisierung mit TreeTagger.
  4. Manuelle Korrektur von strukturellen und inhaltlichen Annotationen mit MS Excel
  5. Export des Korpus in persistente Formate und ins Such- und Visualisierungstool ANNIS.

 

 

Korpus-Design

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Für das erste RIDGES-Korpus haben wir den Bereich der Kräuterkunde gewählt. Der Untersuchungszeitraum wurde in 30-jährige Abschnitte unterteilt, mit derzeit einer Stichprobe pro Abschnitt. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 4.000 bis 10.000 Wortformen.

Annotationsebenen

Die Annotationsebenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in vier Gruppen untergliedern.

  1. Transkription/Normalisierung
  2. Linguistische Annotationen
  3. Strukturelle Annotationen
  4. Inhaltliche Annotationen
  5. Metadaten
Beschreibungen der einzelnen Ebenen finden sich unten in englischer Sprache.

 

Transkription/Normalisierung

Diese Annotationen entsprechen immer genau einem Token. Part-of-speech-Annotationen (Wortarten) und Lemmatisierung wurden mit TreeTagger durchgeführt und von Hand korrigiert.

Annotationsebene und -wert(e) Beschreibung
dipl
Annotationswert(e):
  • Text
The diplomatic transcription of the word form as found on the manuscript.
clean
Annotationswert(e):
  • Text
Normalizations regarding graphical structures and special characters (e.g. "ſ" to "s"), but not modernized to Modern German orthography. For example, a form with a line break like wor=den will be cleaned to worden but not normalized to modern geworden where this would now be the appropriate form.
norm
Annotationswert(e):
  • Text
A normalized word form based on Modern German orthography. Modern flexion is not normalized.

 

Linguistische Annotationen

Annotationsebene und -wert(e) Beschreibung
pos
Annotationswert(e):
  • STTS
Part-of-speech annotation using the STTS tagset for German.
lemma
Annotationswert(e):
  • Text (Type)
The normalized uninflected lexicon entry for each word form, using modern orthography (again, obsolete words are also modernized, e.g. beſchicht has the lemma beschehen, analog to geschehen)
hyperlemma
Annotationswert(e):
  • Text
In some cases where the use of modernized orthography is impossible or misleading, a modern semantic equivalent is given as a hyperlemma (e.g. Heümonat is hyperlemmatized as Juli or ráß as beißend.
foreign
Annotationswert(e):
  • foreign
Non-german text.
foreign_trans
Annotationswert(e):
  • trans_to_german

  • trans_from_german
  • trans_from_german_extended

     

    trans_to_german_extended

Translation from and to German.
lang
Annotationswert(e):
Description of the target language and of the source language of a translation.

 

Strukturelle Annotationen

Annotationsebene und -wert(e) Description
lb
Annotationswert(e):
  • lb
Linebreak.
brace
Annotationswert(e):
  • brLeft
  • brRight
Left or right parentheses marking text over multiple lines.
brace_dir
Annotationswert(e):
  • Text
Direction of parentheses
p
Annotationswert(e):
  • p
A paragraph.
p_n
Annotationswert(e):
  • Number or letter
The number of a numbered paragraph (this may also be a letter such as A).
p_rend
Annotationswert(e):
  • initial capital
  • big bold type
Description of the rendering of the paragraph.
pb
Annotationswert(e):
  • pb
Pagebreak.
pb_n
Annotationswert(e):
  • Number or Letter
The number of the page (if marked explicitly).
pb_rend
Annotationswert(e):
  • in header: Von Haſelwurtz. Cap. III.
  • in header: Vorred
  • in header: Von Chamillen. Cap. VIII.
  • in header: Vorrede.
  • in header Vorred, signature ´A io`at bottom of page
  • in header: Von Staubwurtz. Cap. II
  • in header: Von Eibisch. Cap. V.
  • in header: Vorred, signature 'A ' at bottom of page
  • in header Vorred, signature'A iiij' at bottom of page
  • in header: Von Wermůt. Cap. I.
  • in header: Vorred, signature 'A iij' at bottom of page
  • in header: Von Drachenwurtz. Cap. IIII.
  • in header: Vorred, signature 'A ij' at bottom of page
  • Ohl zu machen.
  • Zum beſten zu Diſtilliren.
  • Waſſer auß Kräutern vnd dergleichen
  • Auffs beſt zu Diſtilliren.
  • Auß Kräutern vnd dergleichen
  • signature 'A ' at bottom of page
  • Auffs beſt zu Diſtilliren.
  • Waſſer auß Kräutern vnd dergleichen
  • Am beſten zu Diſtilliren.
Description of the rendering of the page (repeated parts of book or chapter titles, redundant confidence texts).
pb_ana
Annotationswert(e):
  • page number should be 7
Analysis of the pagebreak (e.g. in case of apparently incorrect page numbers).
div1 - div5
Annotationswert(e):
  • div
A subsection of the document. Nesting depth is made explicit by the number after div in the PAULA/relANNIS version
div1_type - div5_type
Annotationswert(e):
  • appendix
  • book
  • chapter
  • description
  • form
  • herb
  • names
  • name
  • nature
  • parts_preparation_and_usus
  • places
  • place
  • preface
  • postscript
  • power
  • reproduction
  • season
  • section
  • species
  • title
  • time
  • utensils
The type of section or subsection. Section can correspond to the entire "book", a "chapter" or smaller sections, including systematic types specific to the genre such as "place" (where a certain herb grows), "form" (descriptions of a herb's form) etc.
div1_n - div5_n
Annotationswert(e):
  • Number
A numbered subsection (the n annotation has the section number as a value, though this may also be a letter such as A or a subsection such as 1.1)
unclear
Annotationswert(e):
  • unclear
Unreadable or otherwise unclear text
atLeast
Annotationswert(e):
  • Number
Minimum presumed length of unclear text in characters
atMost
Annotationswert(e):
  • Number
Maximum presumed length of unclear text in characters
interpretation
Annotationswert(e):
  • Text
Suggestions for unreadable or unclear text
figure
Annotationswert(e):
  • figure
  • table
A graphic embedded in the original document.
figure_rend
Annotationswert(e):
  • Drawing of two jars
  • Drawing of three jars Drawing of two glasses
  • Drawing of three glasses
  • Drawing of two alembics
  • Drawing of an instrument
  • Drawing of an EIBISCH.
  • Drawing of a STAUBWURTZ.
  • Drawing of a KAMILLE.
  • Drawing of a HÜHNERDARM.
Description of the rendering of the figure.
hi
Annotationswert(e):
  • hi
Highlighted area.
hi_rend
Annotationswert(e):
  • antiqua
  • italics
  • fracture
  • bold
  • underlined
  • red
  • inicap
  • letter-spacing:1em
Description of the rendering of the highlighted area.
head
Annotationswert(e):
  • head
A heading.
head_n
Annotationswert(e):
  • Number
The number of a heading.
head_rend
Annotationswert(e):
  • red and black
  • red
  • brown
Description of the rendering of the heading.
note
Annotationswert(e):
  • note
  • margin
A note in the original document (e.g. footnotes, margins).
ref
Annotationswert(e):
  • ref
Reference to a footnote.
ref_target
Annotationswert(e):
  • #fZ (Z is a number)
ID of the footnote being referred to.
ref_type
Annotationswert(e):
  • noteAnchor
Type of reference (e.g. a TEI "noteAnchor").
quote
Annotationswert(e):
  • quote
A quotation (in some documents only).
list
Annotationswert(e):
  • list
A list of items.
list_type
Annotationswert(e):
  • simple
The type of list used.
item
Annotationswert(e):
  • item
Item in a list.
xml_id
Annotationswert(e):
  • fZ (Z is a number)
ID given to a footnote.

 

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und -wert(e) Description
definition
Annotationswert(e):
  • fig
  • expl
A definition of a figure.
term
Annotationswert(e):
  • t
  • h
  • d
A technical term, naming of a herb or plant, naming of a disease
property
Annotationswert(e):
  • appearance
  • effect
  • smell
  • preparation
  • taste
  • cultivation
Describes a reference to properties of a herb such as effect, smell etc.
reader_ref
Annotationswert(e):
  • pron1pl
  • pron2sg
  • pron3sg
  • pron2pl
  • address
References made by authors to the reader. Values indicate the grammatical type of the reference, e.g. "pron2sg" for second person singular pronoun.
author_ref
Annotationswert(e):
  • pron1pl
  • pron1sg
  • pron2sg
  • pron3sg
  • author
References made by authors to themselves. Values indicate the grammatical type of the reference, e.g. "pron1pl" for first person plural pronoun.
name
Annotationswert(e):
  • name
A proper name (annotated only in some documents).
name_type
Annotationswert(e):
  • herb
  • scholar
  • plant
  • person
  • flower
  • tree
  • gardener
  • publisher
The type of proper name (e.g. "person", "herb").

 

Metadaten

Diese Annotationen folgen den TEI-P5-Richtlinien.

Annotationsebene und -wert(e) Description
meta::author
Annotationswert(e):
  • author
Name of the author (if known).
meta::bibl
Annotationswert(e):
  • bibl
Full bibliographical entry for the source including the page numbers annotated in the corpus.
meta::date
Annotationswert(e):
  • date
Date of publication, usually just the year (e.g. "1722").
meta::publisher
Annotationswert(e):
  • publisher
Publisher of the document (if known).
meta::pubPlace
Annotationswert(e):
  • pubPlace
Publication place of the document.
meta::title
Annotationswert(e):
  • title
Title of the work the document was extracted from.