KiDKo: Haupt- und Ergänzungskorpus

Deutsch in multilingualen Kontexten | KiDKo: Haupt- und Ergänzungskorpus

KiDKo: Haupt- und Ergänzungskorpus

Zitierhinweise

Das Korpus ist unter Angabe folgender Referenz unter CC-BY 4.0 lizenziert:

Heike Wiese, Ines Rehbein, Sören Schalowski, Ulrike Freywald & Katharina Mayr (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum.

licensed under a Creative Commons Attribution 4.0 International License

Datenerhebung

Spontansprachliche Daten jugendlicher Sprecher:innen aus Eigenaufnahmen: informelle, weitgehend auf Deutsch geführte Gespräche im Freundeskreis.

Sprecher:innen

Ankersprecher:innen und ihre Freund:innen.

Ankersprecher:innen waren Schüler:innen der 9. Klasse, zum Erhebungszeitpunkt 14 - 17 Jahre alt; Erstkontakt über zwei Schulen mit 84,4% (Berlin-Kreuzberg) bzw. 4,8% (Berlin-Hellersdorf) Schüler:innen "nicht-deutscher Herkunftssprache" (d.h. die Eltern haben auf einem Fragebogen der Schulverwaltung angegeben, dass die Sprache, die in der Familie vorwiegend gesprochen wird, nicht Deutsch ist) (s. a. Wiese et al. 2012).

Detaillierte Informationen zu den Ankersprecher:innen findet man hier.

Zahlen zu den Anteilen der einzelnen Sprecher:innen am Korpus sind hier als Tabelle verfügbar.

Umfang

	Anzahl Token	Anzahl Sprecher:innen
KiDKo/Mu	~ 228.000	17 (10 männlich, 7 weiblich)
KiDKo/Mo	~ 105.000	6 (5 männlich, 1 weiblich)

Aufbereitung der Daten

(s. auch Rehbein, Schalowski & Wiese 2014)

Die Korpusdaten liegen in transkribierter sowie orthografisch normalisierter Form vor (z.T. als kommentierte Übersetzungen aus dem Türkischen). Die Transkripte sind mit den Audiodateien verknüpft und wurden anonymisiert und nach Wortarten annotiert (PoS-Tagging) (Rehbein & Schalowski 2013). Eine weitere Annotationsebene stellt Informationen zu syntaktischen Chunks und zu topologischen Feldern bereit.

Die Transkription der Sprachdaten folgt einer adaptierten Version des Gesprächsanalytischen Transkriptionssystems (GAT) nach Selting et al. (1998) und wurde im Transkriptionssystem EXMARaLDA (Extensible Markup Language for Discourse Annotation) (Schmidt & Wörner 2005) vorgenommen.

Jedem Transkript sind Metainformationen zu soziodemographischen Merkmalen und dem sprachlichen Hintergrund der Sprecher:innen zugeordnet (für alle Ankersprecher:innen: Geschlecht, Wohngebiet, Familiensprache).

Zugang zum Korpus:

Das Korpus ist am Hamburger Zentrum für Sprachkorpora (HZSK) über die CLARIN-Infrastruktur online zugänglich und in ANNIS durchsuchbar (ANNIS ist eine Open-Source-Plattform, die browserbasierte Suchanfragen von linguistisch annotierten Korpora ermöglicht). Wählen Sie auf der HZSK-Seite Ihre Heimatinstitution aus, loggen Sie sich mit Ihren gewohnten Zugangsdaten ein und stimmen Sie der Lizenzvereinbarung zu. Danach können Sie KiDKo aufrufen. Wenn Sie keiner gelisteten Heimatinstitution angehören, können Sie hier unkompliziert einen eigenen Zugang zu CLARIN beantragen.

Aus rechtlichen Gründen können wir die Audiodaten nicht online zugänglich machen. Wir haben jedoch einen lokalen Arbeitsplatz an der Humboldt-Universität zu Berlin eingerichtet, auf dem vor Ort mit den Daten gearbeitet werden kann. Bei Interesse kontaktieren Sie uns bitte und vereinbaren einen Termin (heike.wiese at hu-berlin.de).

Alternativ können Sie auch über das Repository der Universität Hamburg auf die Daten zugreifen, in dem Sie dort einen Zugang anfordern: https://www.fdr.uni-hamburg.de/record/8247

Das Korpus ist zum Durchlesen auch als PDF verfügbar (aufgrund der großen Datenmenge ist das Teilkorpus KiDKo/Mu dabei in fünf Dateien aufgeteilt). Die pdf-Dateien können Sie direkt herunterladen:

Informationen zur Arbeit mit KiDKo und ANNIS

Allgemeine Übersicht und erste Einführung mit Beispielen für Suchanfragen
Informationen zur Transkription und Normalisierung der Daten
STTS-Richtlinien (Stuttgart-Tübingen Tagset)
Übersicht über das STTS-POS-Inventar
Erweitertes POS-Tagset in KiDKo
Quickstart - Kurzeinführung in ANNIS und KiDKo
ANNIS User Guide

Literatur

Rehbein, I., Schalowski, S., and Wiese, H. (2014).The KiezDeutsch Korpus (KiDKo) Release 1.0.
In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC),
May 24-31, 2014. Reykjavik, Iceland.
Rehbein, I., and Schalowski, S. (2013). STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227 (Themenheft "Das STTS-Tagset für Wortartentagging - Stand und Perspektiven").
Selting, Margret; Auer, Peter; Barden, Birgit, Bergmann, Jörg; Couper-Kuhlen, Elizabeth; Günthner, Susanne; Meier, Christoph; Quasthoff, Uta; Schlobinski, Peter; Uhmann, Susanne (1998). Gesprächsanalytisches Transkriptionssystem (GAT). Linguistische Berichte 173: 91-122.
Wiese, Heike; Freywald, Ulrike; Schalowski, Sören, & Mayr, Katharina (2012). Das KiezDeutsch- Korpus. Spontansprachliche Daten Jugendlicher aus urbanen Wohngebieten. Deutsche Sprache 40:97-123.
Zeldes, A., Ritz, J., Lüdeling, A., and Chiarcos, C. (2009). Annis: A search tool for multi-layer annotated corpora. In Proceedings of Corpus Linguistics, July 20-23, 2009. Liverpool, UK.

Sprach- und literaturwissenschaftliche Fakultät - Deutsch in multilingualen Kontexten