Faculty of Language, Literature and Humanities - Corpus Linguistics and Morphology

Discourse annotation guidelines

BeMaTaC – A deeply annotated multimodal map-task corpus of spoken learner and native German

The following guidelines are only available in German.


Backchanneling (bc)


  • Hinweis: Im L1-Subkorpus ist Backchanneling nur für Instructee annotiert

  • Eine Spanne bildet eine verbale Instanz von Backchanneling ab

  • Jede Spanne ist mit dem Wert bc gefüllt

  • Backchanneling ist für die Annotation wie folgt definiert:

    • Kurze Rückmeldung, welche Kooperation und Verstehen ausdrückt

      Beispiele: ja, mhm, okay, genau
      Gegenindikatoren: Fragen, Ausrufe, Antworten auf explizite Fragen

    • Backchanneling mit mehr als zwei kurzen Token wird nicht berücksichtigt

      Beispiele: ja genau, ja okay, okay gut
      Gegenindikatoren: Satzvervollständigungen, Wort-, Phrasen-, Satzwiederholungen

    • Da sich Instructor und Instructee nicht sehen können sowie Gestik und Mimik nicht aufgezeichnet werden, wird nonverbales Backchanneling nicht berücksichtigt

      Gegenindikatoren: Kopfnicken, Kopfschütteln, Lächeln, Augenkontakt, Schulterzucken, Blickwechsel

    • Kann eine Anweisung nicht von einer expliziten Frage abgegrenzt werden, gilt die Reaktion im Zweifelsfall als Backchanneling

      Gegenindikator: Antwort auf vorangegangene eindeutig explizite Frage

  • Weitere Informationen zu theoretischem Hintergrund und Auswertungen:

    Clara Becker. 2013. Doing Backchanneling – Verhalten von Frauen und Männern beim Backchanneling im aufgabenorientierten Dialog. Bachelorarbeit. Humboldt-Universität zu Berlin, Juli 2013.


Disfluencies (df)


  • f# bzw. ff#kennzeichnet gefüllte Pausen (Filler), diese werden innerhalb einer Äußerung durchnummeriert, ff# kennzeichnet äußerungsinitiale Filler

    dipl: ähm jetzt musst du äh um den Kr/ ähm Kreis
    norm:   jetzt musst du   um den     Kreis
    df: ff1       f2       f3  
    utt: utt
  • pr kennzeichnet Wortdehnungen (Prolongationen)

    dipl: ... und dem   äh der Sanduhr ...
    norm: ... und dem     der Sanduhr ...
    df: ...   pr   f2     ...
    break: ...     0.2       ...
    len: ... 0.281 0.605 0.220 0.577 0.162 0.620 ...
  • mp kennzeichnet Aussprachefehler (mispronunciations)

    dipl: du musst nach richts jetzt
    norm: du musst nach rechts jetzt
    df:       mp  
  • eet kennzeichnet Explicit Editing Terms (EETs), Phrasen oder Ausdrücke, die eine vorherige Aussage korrigieren oder editieren

    dipl: nach links ach ne Quatsch ich meine nach rechts
    df:     eet    
  • r kennzeichnet direkt aufeinander folgende Wiederholungen (repetitions) innerhalb derselben Äußerung, die identisch normalisiert sind (ungefüllte Pausen können dazwischen stehen)

    dipl: des is   ist unten rechts
    norm: das ist   ist unten rechts
    df:       r    
    break:     0.1      
  • Weitere Informationen zu theoretischem Hintergrund und Auswertungen:

    Myriam Klapi. 2013. Disfluency Patterns: A Contrastive Corpus Study. Masterarbeit. Humboldt-Universität zu Berlin, Dezember 2013.


Reparaturen (repair, subrep)


  • Zusammenfassung:

    • Reparaturen werden in unterschiedliche Abschnitte unterteilt (repair): Reparandum rd, Interregnum ir und Reparans rs

    • Einzelne Token werden weiterhin nach der Art ihrer Reparaturfunktion annotiert (subrep): Repetition r#, Substitution s#, Insertion i#

    • Jede Ebene repair bzw. subrep kann zu repair2 bzw. subrep2 verdoppelt werden, um verschachtelten Reparaturen besser Rechnung zu tragen

  • Ausführliche Richtlinien mit Beispielen:

    Malte Belz. 2014. Richtlinien zur Annotation von Reparaturen in BeMaTaC. Humboldt-Universität zu Berlin, März 2014.

  • Weitere Informationen zu theoretischem Hintergrund und Auswertungen:

    Malte Belz. 2013. Disfluencies und Reparaturen bei Muttersprachlern und Lernern – eine kontrastive Analyse. Masterarbeit. Humboldt-Universität zu Berlin, November 2013.



Last update: 21 March 2014