Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Die Falko-Familie: einzelne Korpora

Zusammenfassung der einzelnen Falko-Korpora

Die Falko-Familie besteht aus mehreren Einzelkorpora. In den vergangenen Jahren ist die Datenmenge vor allem durch das Hinzukommen neuer Korpusdaten mit leicht veränderten Spezifikationen der Lerner- und Erhebungsparameter gewachsen. Sämtliche im ANNIS-Suchinterface der HU-Berlin verfügbaren Subkorpora sind im Folgenden zusammengefasst.

  • Das Essay-Kernkorpus enthält argumentative Aufsätze von fortgeschrittenen Lernenden des DaF mit multiplen L1-Hintergrund. Unter anderem haben wir Essays aus Adana, Berlin (Sommerkurse im Sprachenzentrum der HU), Kopenhagen, Mombasa, Nairobi, Nyeri, Taschkent, Stellenbosch und Turin erhoben. Das Essaykorpus wurde in der Vergangenheit konstant weiter ausgebaut, was die enthaltenen Lernerdaten sowie die Datenannotation angeht. Aus diesem Grund besteht es aus verschiedenen, parallel verfügbaren Versionen. Wenn Sie das Korpus neu nutzen wollen, nehmen Sie bitte die neueste Version; wenn Sie an eine vorige Nutzung anknüpfen wollen, merken Sie sich bitte die bislang verwendete Version.
    Wie die Regel bei den Korpora der Falko-Familie, sind im Essay-Korpus die originalen Lerneräußerungen mit automatischen Wortart- und Lemma-Annotationen sowie Zielhypothesen versehen, die grammatische und stilistische Abweichungen von der Zielsprache Deutsch darstellen. Auch die Zielhypothesen sind getaggt. Automatisch generierte Tags für grundlegende Typen von Abweichungen der Lerneräußerung von der Zielhypothese geben Aufschluss über basale Fehlerkategorien. 
    Die Erhebungsumstände und Annotationsrichtlinien sind im Falko-Handbuch beschrieben.
    • Wie zu den meisten Falko-Korpora existiert auch zum Essaykorpus ein L1-Vergleichskorpus mit Muttersprachlerdaten (erhoben größtenteils an Berliner Gymnasien; einige Texte wurden in Einsteigersemestern der FU Berlin erhoben).
  • Das WHiG-Korpus enthält wie das Essay-Korpus argumentative Aufsätze von fortgeschrittenen DaF-Lernenden (zu denselben Themenbereichen wie das Essay-Korpus), allein dass es sich hierbei um einen homogenen L1-Hintergrund (Englisch) handelt. Informationen zum WHiG-Projekt erhalten Sie hier.
  • Das Kobalt-DaF-Korpus besteht aus drei Subkorpora mit schwedischer, chinesischer und weißrussischer Muttersprache sowie einem L1-Vergleichskorpus und folgt den Falko-Erhebungs- und Aufbereitungsrichtlinien. Was die Annotationen betrifft, so ist Kobalt-DaF etwas reichhaltiger annotiert als die übrigen Falko-Korpora. Details folgen auf der Kobalt-DaF-Dokumentationsseite (in Erstellung).
  • Das KanDel-Korpus - erhoben von Nina Vyatkina in Kansas, USA - enthält im Gegensatz zu den übrigen Falko-Korpora geschrieben Daten von beginnenden US-amerikanischen Lernenden des DaF, außerdem wurden diese Daten longitudinal aufbereitet. Nähere Informationen erhalten Sie auf der KanDel-Dokumentationsseite.
  • Das Falko-Summary-Korpus enthält Textzusammenfassungen, die von fortgeschrittenen Lernern des Deutschen erstellt wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben.
    Im Zusammenhang mit dem Summary-Korpus gibt es...
    • Händisch erstellte Annotationen von Stellungsfeldern, erarbeitet von Doolittle 2008,
    • ein Vergleichskorpus mit Texten von Muttersprachlern (Falko Summary L1),
    • die Sammlung der Vorlagentexte
  • Das Georgetown-Longitudinalkorpus enthält Daten, die über mehrere Semester und Lernstände an der Georgetown-Universität in Washington erhoben wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben. Dazu gibt es ein Vergleichskorpus mit Texten von Muttersprachlern für das Genre der Buchrezensionen (Falko Baseline Vergleich). Zum Longitudinalkorpus ist eine Metadatentabelle verfügbar.
  • Das fehlergetaggte Lernerkorpus ungarischer DaF-Lernenden der Universität Szeged Dulko ist im Aufbau befindlich und wird Essay- und Übersetzungstexte enthalten. Dulko ist das einzige Korpus der Falko-Familie, welches zusätzlich zu der Formulierung von Zielhypothesen ein explizites, grammatisch orientiertes Fehlertagging haben wird. Mehr Informationen erhalten Sie in Hirschmann & Nolda 2019 sowie im Dulko-Handbuch

 

Tabellarische Zusammenfassung:

Name

Texttyp

Anzahl Token

Anzahl Texte

L1

Annotationen

Link zur Suche im ANNIS-Interface

Falko Essay L2 (v2.4)

Essay

144.619

248

>30

ZH1, ZH2,

pos, lemma, diff-tags, top. Felder, …

Link

Falko Essay L1 (v2.3)

Essay

70.615

95

de

wie Falko-Essay L2

Link

WHiG L2 (v2.1)

Essay

130.949

196

en

wie Falko-Essay L2

Link

Kobalt-DaF L2 (v1.4)

Essay

33.368

51

chin,  swe,  russ

wie Falko-Essay L2

Link

Kobalt-DaF L1 (v1.4)

Essay

12.984

20

de

wie Falko-Essay L2

Link

KanDel

(long v.2015)

Bericht

34.612

185

en

ZH1, pos, lemma, diff-tags

Link

KanDel

(cross v.2015)

Bericht

73.920

425

en

ZH1, pos, lemma, diff-tags

Link

Falko Summary L2 (v1.2)

Zusammen- fassung

40.638

106

>10

o. ZH, mit top. Feldern

Link

Falko Summary L1 (v1.2)

Zusammen- fassung

21.211

57

de

nur pos + lemma

Link

Falko Georgetown

Brief, Erzählung

78.151

92

eng

pos, lemma, teilw. ZH, top. Felder

Link

Dulko Essay

Essay

11.786

34

ung

ZH, pos, lemma, diff-tags, error tags

Link

Dulko Translation

Über-setzung

9.224

30

ung wie Dulko-Essay; Original-Übersetzungs-Entsprechungen Link

 

Wenn Sie selber Lernerdaten erheben oder teilen wollen und dabei mit uns kooperieren möchten, schreiben Sie uns bitte.