Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Allgemeine Annotationsrichtlinien

BeMaTaC – Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache

Lemmatisierung (lemma)


  • Vollautomatische Lemmatisierung durch TreeTagger mit den Standardparametern für Deutsch

  • Das Lemma von flektierbaren Wörtern unterscheidet sich je nach Wortart:

    Nomen: Nominativ Singular
    Artikel: die bzw. eine
    Personalpronomen: Nominativ
    Verben: Infinitiv Präsens Aktiv
    Adjektive: Unflektierte Positivform


Part-of-speech-Tagging (pos)



Äußerungsspannen (utt)


  • Eine Spanne bildet eine syntaktisch zusammenhängende Äußerung ab

  • Jede Spanne ist mit dem Wert utt gefüllt

  • Äußerungen treten in drei verschiedenen Formen auf:

    • Selbstständige Ein-Wort-Äußerungen

      Beispiele: [hallo], [okay], [ja], [nein], [gut], [genau]

    • Clauses mit einem finiten Verb und den davon abhängigen Konstituenten

      Beispiel: [du gehst zum Rad] [und dann gehst du nach oben]

    • Potentiell elliptische Clauses, in denen das finite Verb fehlt

      Beispiel: [du gehst zum Rad] [und dann zum Toaster]

  • Besonderheiten und Ausnahmen:

    • Ein repariertes finites Verb erzeugt keine neue Äußerung

      Beispiel: [ich gehe äh biege links ab]

    • Ein Sprecherwechsel oder eine akustische Pause beendet nicht zwangsweise die Äußerung

      Beispiel (instructor): [du gehst   nach links]
      Beispiel (instructee):   [ja]  
    • Gefüllte Pausen (Filler) stehen nie am Ende einer Äußerung

    • Ungefüllte Pausen (Stille) am Rande einer Äußerung gehören nicht mehr zur Äußerung

    • Clauses entsprechen nicht immer einem vollständigen grammatischen (Teil-)Satz


Ungefüllte Pausen (break)


  • Ungefüllte Pausen werden als akustische Stille definiert

  • Die Annotation erfolgt automatisch an den Stellen, an denen weder für Instructor noch Instructee etwas transkribiert wurde (Ebenen dipl, norm und extra)

  • Die Mindestlänge beträgt 0,1 Sekunden, kürzere Pausen werden nicht erfasst

  • Die Annotation erfolgt mit mindestens einer Vorkommastelle, einem Dezimalpunkt sowie exakt einer Nachkommastelle (gerundet)

    Beispiel: 0.4



Letzte Aktualisierung: 21. März 2014