Die Falko-Familie: einzelne Korpora
Zusammenfassung der einzelnen Falko-Korpora
Die Falko-Familie besteht aus mehreren Einzelkorpora. In den vergangenen Jahren ist die Datenmenge vor allem durch das Hinzukommen neuer Korpusdaten mit leicht veränderten Spezifikationen der Lerner- und Erhebungsparameter gewachsen. Sämtliche im ANNIS-Suchinterface der HU-Berlin verfügbaren Subkorpora sind im Folgenden zusammengefasst.
- Das Essay-Kernkorpus enthält argumentative Aufsätze von fortgeschrittenen Lernenden des DaF mit multiplen L1-Hintergrund. Unter anderem haben wir Essays aus Adana, Berlin (Sommerkurse im Sprachenzentrum der HU), Kopenhagen, Mombasa, Nairobi, Nyeri, Taschkent, Stellenbosch und Turin erhoben. Das Essaykorpus wurde in der Vergangenheit konstant weiter ausgebaut, was die enthaltenen Lernerdaten sowie die Datenannotation angeht. Aus diesem Grund besteht es aus verschiedenen, parallel verfügbaren Versionen. Wenn Sie das Korpus neu nutzen wollen, nehmen Sie bitte die neueste Version; wenn Sie an eine vorige Nutzung anknüpfen wollen, merken Sie sich bitte die bislang verwendete Version.
Wie die Regel bei den Korpora der Falko-Familie, sind im Essay-Korpus die originalen Lerneräußerungen mit automatischen Wortart- und Lemma-Annotationen sowie Zielhypothesen versehen, die grammatische und stilistische Abweichungen von der Zielsprache Deutsch darstellen. Auch die Zielhypothesen sind getaggt. Automatisch generierte Tags für grundlegende Typen von Abweichungen der Lerneräußerung von der Zielhypothese geben Aufschluss über basale Fehlerkategorien.
Die Erhebungsumstände und Annotationsrichtlinien sind im Falko-Handbuch beschrieben.- Wie zu den meisten Falko-Korpora existiert auch zum Essaykorpus ein L1-Vergleichskorpus mit Muttersprachlerdaten (erhoben größtenteils an Berliner Gymnasien; einige Texte wurden in Einsteigersemestern der FU Berlin erhoben).
- Das WHiG-Korpus enthält wie das Essay-Korpus argumentative Aufsätze von fortgeschrittenen DaF-Lernenden (zu denselben Themenbereichen wie das Essay-Korpus), allein dass es sich hierbei um einen homogenen L1-Hintergrund (Englisch) handelt. Informationen zum WHiG-Projekt erhalten Sie hier.
- Das Kobalt-DaF-Korpus besteht aus drei Subkorpora mit schwedischer, chinesischer und weißrussischer Muttersprache sowie einem L1-Vergleichskorpus und folgt den Falko-Erhebungs- und Aufbereitungsrichtlinien. Was die Annotationen betrifft, so ist Kobalt-DaF etwas reichhaltiger annotiert als die übrigen Falko-Korpora. Details folgen auf der Kobalt-DaF-Dokumentationsseite (in Erstellung).
- Das KanDel-Korpus - erhoben von Nina Vyatkina in Kansas, USA - enthält im Gegensatz zu den übrigen Falko-Korpora geschrieben Daten von beginnenden US-amerikanischen Lernenden des DaF, außerdem wurden diese Daten longitudinal aufbereitet. Nähere Informationen erhalten Sie auf der KanDel-Dokumentationsseite.
- Das Falko-Summary-Korpus enthält Textzusammenfassungen, die von fortgeschrittenen Lernern des Deutschen erstellt wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben.
Im Zusammenhang mit dem Summary-Korpus gibt es...- Händisch erstellte Annotationen von Stellungsfeldern, erarbeitet von Doolittle 2008,
- ein Vergleichskorpus mit Texten von Muttersprachlern (Falko Summary L1),
- die Sammlung der Vorlagentexte
- Das Georgetown-Longitudinalkorpus enthält Daten, die über mehrere Semester und Lernstände an der Georgetown-Universität in Washington erhoben wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben. Dazu gibt es ein Vergleichskorpus mit Texten von Muttersprachlern für das Genre der Buchrezensionen (Falko Baseline Vergleich). Zum Longitudinalkorpus ist eine Metadatentabelle verfügbar.
- Das fehlergetaggte Lernerkorpus ungarischer DaF-Lernenden der Universität Szeged Dulko ist im Aufbau befindlich und wird Essay- und Übersetzungstexte enthalten. Dulko ist das einzige Korpus der Falko-Familie, welches zusätzlich zu der Formulierung von Zielhypothesen ein explizites, grammatisch orientiertes Fehlertagging haben wird. Mehr Informationen erhalten Sie in Hirschmann & Nolda 2019 sowie im Dulko-Handbuch.
Tabellarische Zusammenfassung:
|
Name |
Texttyp |
Anzahl Token |
Anzahl Texte |
L1 |
Annotationen |
Link zur Suche im ANNIS-Interface |
|
Falko Essay L2 (v2.4) |
Essay |
144.619 |
248 |
>30 |
ZH1, ZH2, pos, lemma, diff-tags, top. Felder, … |
|
|
Falko Essay L1 (v2.3) |
Essay |
70.615 |
95 |
de |
wie Falko-Essay L2 |
|
|
WHiG L2 (v2.1) |
Essay |
130.949 |
196 |
en |
wie Falko-Essay L2 |
|
|
Kobalt-DaF L2 (v1.4) |
Essay |
33.368 |
51 |
chin, swe, russ |
wie Falko-Essay L2 |
|
|
Kobalt-DaF L1 (v1.4) |
Essay |
12.984 |
20 |
de |
wie Falko-Essay L2 |
|
|
KanDel (long v.2015) |
Bericht |
34.612 |
185 |
en |
ZH1, pos, lemma, diff-tags |
|
|
KanDel (cross v.2015) |
Bericht |
73.920 |
425 |
en |
ZH1, pos, lemma, diff-tags |
|
|
Falko Summary L2 (v1.2) |
Zusammen- fassung |
40.638 |
106 |
>10 |
o. ZH, mit top. Feldern |
|
|
Falko Summary L1 (v1.2) |
Zusammen- fassung |
21.211 |
57 |
de |
nur pos + lemma |
|
|
Falko Georgetown |
Brief, Erzählung |
78.151 |
92 |
eng |
pos, lemma, teilw. ZH, top. Felder |
|
|
Dulko Essay |
Essay |
11.786 |
34 |
ung |
ZH, pos, lemma, diff-tags, error tags |
|
|
Dulko Translation |
Über-setzung |
9.224 |
30 |
ung | wie Dulko-Essay; Original-Übersetzungs-Entsprechungen | Link |
Wenn Sie selber Lernerdaten erheben oder teilen wollen und dabei mit uns kooperieren möchten, schreiben Sie uns bitte.