Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Die Falko-Familie: einzelne Korpora

Zusammenfassung der einzelnen Falko-Korpora

Die Korpora der Falko-Familie besteht aus mehreren Einzelkorpora. In den vergangenen Jahren ist die Datenmenge vor allem durch das Hinzukommen neuer Korpusdaten mit leicht veränderten Spezifikationen der Lerner- und Erhebungsparameter erheblich gewachsen. Sämtliche im ANNIS-Falko-Suchinterface verfügbaren Ressourcen sind im Folgenden zusammengefasst.

  • Das Essay-Kernkorpus enthält argumentative Aufsätze von fortgeschrittenen Lernenden des DaF mit multiplen L1-Hintergrund. Unter anderem haben wir Essays aus Adana, Berlin (Sommerkurse im Sprachenzentrum der HU), Kopenhagen, Mombasa, Nairobi, Nyeri, Taschkent, Stellenbosch und Turin erhoben. Das Essaykorpus wurde in der Vergangenheit konstant weiter ausgebaut, was die enthaltenen Lernerdaten sowie die Datenannotation angeht. Aus diesem Grund besteht es aus verschiedenen, parallel verfügbaren Versionen. Wenn Sie das Korpus neu nutzen wollen, nehmen Sie bitte die neueste Version; wenn Sie an eine vorige Nutzung anknüpfen wollen, merken Sie sich bitte die bislang verwendete Version.
    Wie die Regel bei den Korpora der Falko-Familie, sind im Essay-Korpus die originalen Lerneräußerungen mit automatischen Wortart- und Lemma-Annotationen sowie Zielhypothesen versehen, die grammatische und stilistische Abweichungen von der Zielsprache Deutsch darstellen. Auch die Zielhypothesen sind getaggt. Automatisch generierte Tags für grundlegende Typen von Abweichungen der Lerneräußerung von der Zielhypothese geben Aufschluss über basale Fehlerkategorien. 
    Die Erhebungsumstände und Annotationsrichtlinien sind im Falko-Handbuch beschrieben.
    Wenn Sie uns helfen und Lernerdaten erheben oder zum Einpflegen zusenden wollen, schreiben Sie uns bitte.
  • Wie zu den meisten Falko-Korpora existiert auch zum Essaykorpus ein Vergleichskorpus mit Muttersprachlerdaten (erhoben an Berliner Gymnasien).
     
  • Das WHiG-Korpus enthält wie das Essay-Korpus argumentative Aufsätze von fortgeschrittenen DaF-Lernenden (zu denselben Themenbereichen wie das Essay-Korpus), allein dass es sich hierbei um einen homogenen L1-Hintergrund (Englisch) handelt. Informationen zum WHiG-Projekt erhalten Sie hier.
     
  • Das Kobalt-DaF-Korpus besteht aus drei Subkorpora mit schwedischer, chinesischer und weißrussischer Muttersprache sowie einem L1-Vergleichskorpus und folgt den Falko-Erhebungs- und Aufbereitungsrichtlinien. Was die Annotationen betrifft, so ist Kobalt-DaF etwas reichhaltiger annotiert als die übrigen Falko-Korpora. Details folgen auf der Kobalt-DaF-Dokumentationsseite (in Erstellung).
     
  • Das KanDel-Korpus - erhoben von Nina Vyatkina in Kansas, USA - enthält im Gegensatz zu den übrigen Falko-Korpora geschrieben Daten von beginnenden US-amerikanischen Lernenden des DaF, außerdem wurden diese Daten longitudinal aufbereitet. Nähere Informationen erhalten Sie auf der KanDel-Dokumentationsseite.
     
  • Das Zusammenfassungskorpus enthält Textzusammenfassungen, die von fortgeschrittenen Lernern des Deutschen erstellt wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben.
    Dazu gibt es
    • ein Erweiterungskorpus mit Textzusammenfassungen, die von dänischen Lernern des Deutschen in Kopenhagen erstellt wurden,
    • ein Vergleichskorpus mit Texten von Muttersprachlern
    • und die Sammlung der Vorlagentexte.
  • Das Georgetown-Longitudinalkorpus enthält Daten, die über mehrere Semester und Lernstände an der Georgetown-Universität in Washington erhoben wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben. Dazu gibt es ein Vergleichskorpus mit Texten von Muttersprachlern für das Genre der Buchrezensionen (Falko Baseline Vergleich). Zum Longitudinalkorpus ist eine Metadatentabelle verfügbar.

  • Das fehlergetaggte Lernerkorpus ungarischer DaF-Lernenden der Universität Szeged Dulko ist im Aufbau befindlich und wird Essay- und Übersetzungstexte enthalten. Dulko ist das einzige Korpus der Falko-Familie, welches zusätzlich zu der Formulierung von Zielhypothesen ein explizites, grammatisch orientiertes Fehlertagging haben wird. Mehr Informationen erhalten Sie hier

 

Tabellarische Zusammenfassung:

Name

Texttyp

Anzahl Token

Anzahl Texte

L1

Annotationen

Essay L2 (v2.4)

Essay

144.619

248

>30

ZH1, ZH2,

pos, lemma, diff-tags, top. Felder, …

Essay L1 (v2.3)

Essay

70.615

95

de

"

WHiG L2 (v2.1)

Essay

130.949

196

en

"

Kobalt-DaF L2 (v1.4)

Essay

33.368

51

chin,  swe,  russ

"

Kobalt-DaF L1 (v1.4)

Essay

12.984

20

de

"

KanDel

(long v.2015)

Bericht

34.612

185

en

ZH1, pos, lemma, diff-tags

KanDel

(cross v.2015)

Bericht

73.920

425

en

ZH1, pos, lemma, diff-tags

Summary L2 (v1.2)

Zusammen- fassung

40.638

106

>10

o. ZH, mit top. Feldern

Summary L1 (v1.2)

Zusammen- fassung

21.211

57

de

nur pos + lemma

Georgetown

Brief, Erzählung

78.151

92

eng

pos, lemma, teilw. ZH, top. Felder

Dulko (erscheint)

Essay, Übers.

t.b.a.

t.b.a.

ung

ZH, pos, lemma, diff-tags, error tags

 

641.067

1.475