Allgemeine Annotationsrichtlinien
Lemmatisierung (lemma)
-
Vollautomatische Lemmatisierung durch TreeTagger mit den Standardparametern für Deutsch
-
Das Lemma von flektierbaren Wörtern unterscheidet sich je nach Wortart:
Nomen: Nominativ Singular
Artikel: die bzw. eine
Personalpronomen: Nominativ
Verben: Infinitiv Präsens Aktiv
Adjektive: Unflektierte Positivform
Part-of-speech-Tagging (pos)
-
Vollautomatisches Tagging durch TreeTagger mit den Standardparametern für Deutsch
-
Das Tagset ist der De-facto-Standard für Deutsch, das Stuttgart-Tübingen-TagSet (STTS)
Ausführliche Richtlinien mit Beispielen:
Anne Schiller, Simone Teufel, Christine Stöckert & Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset).
Äußerungsspannen (utt)
-
Eine Spanne bildet eine syntaktisch zusammenhängende Äußerung ab
-
Jede Spanne ist mit dem Wert utt gefüllt
-
Äußerungen treten in drei verschiedenen Formen auf:
-
Selbstständige Ein-Wort-Äußerungen
Beispiele: [hallo], [okay], [ja], [nein], [gut], [genau]
-
Clauses mit einem finiten Verb und den davon abhängigen Konstituenten
Beispiel: [du gehst zum Rad] [und dann gehst du nach oben]
-
Potentiell elliptische Clauses, in denen das finite Verb fehlt
Beispiel: [du gehst zum Rad] [und dann zum Toaster]
-
-
Besonderheiten und Ausnahmen:
-
Ein repariertes finites Verb erzeugt keine neue Äußerung
Beispiel: [ich gehe äh biege links ab]
-
Ein Sprecherwechsel oder eine akustische Pause beendet nicht zwangsweise die Äußerung
Beispiel (instructor): [du gehst nach links] Beispiel (instructee): [ja] -
Gefüllte Pausen (Filler) stehen nie am Ende einer Äußerung
-
Ungefüllte Pausen (Stille) am Rande einer Äußerung gehören nicht mehr zur Äußerung
-
Clauses entsprechen nicht immer einem vollständigen grammatischen (Teil-)Satz
-
Ungefüllte Pausen (break)
-
Ungefüllte Pausen werden als akustische Stille definiert
-
Die Annotation erfolgt automatisch an den Stellen, an denen weder für Instructor noch Instructee etwas transkribiert wurde (Ebenen dipl, norm und extra)
-
Die Mindestlänge beträgt 0,1 Sekunden, kürzere Pausen werden nicht erfasst
-
Die Annotation erfolgt mit mindestens einer Vorkommastelle, einem Dezimalpunkt sowie exakt einer Nachkommastelle (gerundet)
Beispiel: 0.4
Letzte Aktualisierung: 21. März 2014