Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Forschung und Ressourcen

Hier stellen wir Ihnen die aktuelle und vergangene Forschung vor, an der die Angehörigen der Professur für Korpuslinguistik und Morphologie einen maßgeblichen Anteil haben.

Seitennavigation:

Vorgestellte Ressourcen in alphabetischer Reihenfolge: ANNIS, BeMaTaC, CALLIDUS, CLV, DDB (Deutsche diachrone Baumbank), empirikom, Falko, Hexatomic, KanDel, Kobalt-DaF (Korpus), Kobalt-DaF (Netzwerk), KOMPOST, LangBank, LAUDATIO, Märchenkorpus, Mind Research Repository, NoSta-D, RIDGES, RUEG, SaltNPep­per, SFB 1412, <ti­ger2/>, WHiG


Laufende Projekte


CLV Logo Farbig 6 für kleines Feld

 

 

 

 

In CLV (Crosslingual Language Varieties) werden verschiedene Transferphänomene untersucht, wobei in erster Linie Lerner- und Übersetzungsprache unter einem Dach betrachtet werden.

Die untersuchten sprachlichen Zielsysteme umfassen Deutsch, Englisch und Hebräisch, die mit verschiedenen anderen Sprachsystemen interagieren (u.a. Arabisch, Französisch und Russisch).

Webseite

RUEG (Logo)

Das Projekt "Research Unit Emerging Grammars" (RUEG) untersucht die grammatischen Systeme und Sprachgebrauchsressourcen bei bilingualen Sprecher*innen aus Familien mit Migrationshintergrund, sog. "Heritage-Sprecherinnen und -sprechern".

Webseite

Register SFB1412
Sonderforschungsbereich 1412 "Register"

Der SFB 1412 Register: Language-Users’ Knowledge of Situational-Functional Variation untersucht Aspekte des Registerwissens von Sprecher*innen einer Sprache.

Webseite

 

Korpusressourcen


BeMaTaC

sample_map_instructee_full.jpg

Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung.

Webseite

BeMaTaC L1-Korpus im ANNIS-Suchinterface

DDB

Deutsche Diachrone Baumbank

DDB Logo

Die DDB (Deut­sche Dia­chro­ne Baum­bank) ist ein klei­nes (ca. 8000 To­ken), syn­tak­tisch tief an­no­tier­tes Kor­pus, be­ste­hend aus drei Sub­kor­po­ra un­ter­schied­li­cher Sprach­stu­fen des Deut­schen (Alt­hoch­deutsch, Mit­tel­hoch­deutsch, Früh­neu­hoch­deutsch). Der Auf­bau des Kor­pus ori­en­tiert sich im We­sent­li­chen am TI­GER-Kor­pus, der größ­ten frei er­hält­li­chen Baum­bank des Deut­schen (www.ims.uni-stutt­gart.de/pro­jek­te/TI­GER/). DDB ist ent­stan­den im Rah­men des vom Ber­li­ner Se­nat ge­för­der­ten Pro­jekts "In­ter­dis­zip­li­nä­rer For­schungs­ver­bund Lin­gu­is­tik – Bio­in­for­ma­tik zur Be­rech­nung von Ver­wandt­schaft und Ab­stam­mung".
Webseite
Alle drei Subkorpora im ANNIS-Suchinterface

null

Fal­ko ("Fehlerannotiertes Lernerkorpus") ist ein frei zu­gäng­li­ches Ler­ner­kor­pus des fortgeschrittenen schriftlichen Deut­schen als Fremd­spra­che mit diversen L1-Hintergründen.

Webseite

L2-Essay-Korpus im ANNIS-Suchinterface

KanDeL

KanDeL (Kansas Developmental Learner Corpus) ist ein frei verfügbares longitudinales Lernerkorpus von Anfängern bis zu intermediären Lernern von Deutsch als Fremdsprache mit englischsprachlichem L1-Hintergrund, aufgebaut von Nina Vyatkina an der University of Kansas.

Webseite

KanDel "cross cohort" im ANNIS-Suchinterface

Kobalt-DaF

 

Das Kobalt-DaF-Korpus ist aus dem gleichnamigen Netzwerk hervorgegangen, nach der Vorlage des Falko-Essay-Korpus aufgebaut und beinhaltet drei Lernergruppen fortgeschrittener Lernender des Deutschen als Fremdsprache mit L1 Chinesisch, Schwedisch und Weißrussisch sowie ein muttersprachliches Vergleichskorpus.

Kobalt-DaF-L2-Subkorpus im ANNIS-Suchinterface

Märchenkorpus

Das Märchenkorpus enthält die 201 Kinder- und Hausmärchen sowie die im 2. Band abgedruckten 10 Kinderlegenden in der von den Brüder Grimm herausgegeben Ausgabe letzter Hand. Das Korpus wurde für das Vertiefungsseminar "Dramapädagogik des Märchens: Linguistik, Didaktik und Theater" kompiliert und aufbereitet. Das Vertiefungsseminar fand im Sommersemester 2013 am Deutschen Seminar der Universität Tübingen unter Leitung von Maik Walter statt (vgl. Walter 2013 in Zeitschrift für Theaterpädagogik).

Märchenkorpus im ANNIS-Suchinterface

NoSta-D

NoSta-D bildet eine Korpussammlung, bestehend aus verschiedenen Nichtstandardvarietäten, mitsamt detailliert ausgearbeiteten Annotationsrichtlinien für diese Typen von Sprachdaten

Webseite

Alle NoSta-D-Korpora im ANNIS-Suchinterface

RidgesLogo_Wermut_kl.png

Das Projekt RIDGES (Register in Diachronic German Science) un­ter­sucht die Ent­ste­hung und Ent­wick­lung der deut­schen Wis­sen­schafts­spra­che ab Mit­te des 16. Jahr­hun­derts bis ins spä­te 19. Jahr­hun­dert.

Webseite

RIDGES-Korpus im ANNIS-Suchinterface

 

Software und Datenformate sowie -infrastrukturen


null

ANNIS ist ein brow­ser­ba­sier­tes, Open-Source Such- und Vi­su­a­li­sie­rungs­werk­zeug für kom­ple­xe lin­gu­is­ti­sche Mehr­ebe­nen­kor­po­ra. ANNIS steht für An­no­ta­ti­on der In­for­ma­ti­ons­struk­tur und wur­de ursprünglich im Rah­men des SFB 632 "In­for­ma­ti­ons­struk­tur" erstellt, wird nach dessen Ablauf aber ständig weiterentwickelt.
ANNIS ba­siert nicht auf ei­ner be­stimm­ten lin­gu­is­ti­schen The­o­rie und kann so­mit un­ter­schied­lichs­te Kor­po­ra durch­su­chen und dar­stel­len. So kön­nen sprach­li­che Phä­no­me­ne un­ter­schied­li­cher Ebe­nen ge­mein­sam dar­ge­stellt und durch­sucht wer­den wie bei­spiels­wei­se Syn­tax, Se­man­tik, Mor­pho­lo­gie, Pro­so­die, Re­fe­ren­ti­a­li­tät und Le­xik. Mit ANNIS ist es eben­falls mög­lich mul­ti­me­di­a­le Da­ten wie Au­dio- und Vi­deo­da­tei­en ein­zu­bin­den.
Ne­ben ei­ner ser­ver­ba­sier­ten Va­ri­an­te bie­tet ANNIS mit dem ANNIS-Kick­star­ter auch ei­ne Desk­top­va­ri­an­te an.
Distributionen und weitere Informationen zu ANNIS und den verwandten Programmen finden Sie hier.
Ein allgemeine ANNIS-Instanz mit sprachübergreifenden Korpusressourcen finden Sie hier.

Hexatomic

Hexatomic ist eine minimalistische Infrastruktur für die nachhaltige Bereitstellugn von einem Mehrebenenannotation-Tool für linguistische Korpora. Gemeinschaftsprojekt mit der Friedrich-Schiller-Universität Jena.

Webseite

Laudatio

LAUDATIO (Long term Ac­cess and Us­age of Deep­ly An­no­tat­ed In­for­ma­tion) ist ein Pro­jekt zur Ent­wick­lung ei­ner nach­hal­ti­gen und nut­zer­ori­en­tier­ten Spei­che­rung von For­schungs­da­ten für die his­to­ri­sche Lin­gu­is­tik.

Das Pro­jekt ver­folgt das Ziel, für das Fach­ge­biet der his­to­ri­schen Lin­gu­is­tik ei­ne In­fra­struk­tur un­ter Ein­be­zie­hung ei­nes Re­pos­i­to­ry zu ent­wi­ckeln, mit der fach­spe­zi­fi­sche Pri­mär­da­ten in Form tief an­no­tier­ter und kom­plex struk­tu­rier­ter Text­kor­po­ra er­fasst, per­sis­tent ge­spei­chert und je­der­zeit zu­greif­bar be­reit­ge­stellt wer­den.

Webseite

null

SaltNPep­per stellt ein Frame­work für die Ver­ar­bei­tung lin­gu­is­ti­scher Da­ten zur Ver­fü­gung und be­steht aus dem Me­ta­mo­dell Salt und dem Kon­ver­ter­frame­work Pep­per. Salt ist ein auf ei­nem all­ge­mei­nen Gra­phen auf­bau­en­des Me­ta­mo­dell zur Dar­stel­lung lin­gu­is­ti­scher Da­ten. Die­se Da­ten wer­den da­bei auf­grund ih­rer struk­tu­rel­len Ei­gen­schaf­ten als Kno­ten und Kan­ten re­prä­sen­tiert. Die Be­schrän­kung auf die struk­tu­rel­le Re­prä­sen­ta­ti­on er­mög­licht es mit Salt Da­ten aus sehr un­ter­schied­li­chen lin­gu­is­ti­schen Ana­ly­sen, wie bei­spiels­wei­se aus Dis­kurs­ana­ly­sen, syn­tak­ti­schen Ana­ly­sen, mor­pho­lo­gi­schen Ana­ly­sen etc. dar­zu­stel­len.
Das Kon­ver­ter­frame­work Pep­per ba­siert auf dem Me­ta­mo­dell Salt und dient der uni­ver­sel­len Kon­ver­tie­rung ver­schie­de­ner Da­ten­for­ma­te in­ein­an­der. Pep­per zer­legt den Kon­ver­tie­rungs­pro­zess in ein­zel­ne Schrit­te und ist sehr mo­du­lar auf­ge­baut. Da­durch ist es mög­lich durch ei­nen Plug-in-Me­cha­nis­mus wei­te­re For­ma­te in den Kon­ver­tie­rungs­pro­zess ein­zu­bin­den.SaltNPep­per stellt zwei leis­tungs­fä­hi­ge Frame­works zur Ver­fü­gung für die Be­ar­bei­tung von lin­gu­is­tisch an­no­tier­ten Da­ten. Es wur­de an der Hum­boldt-Uni­ver­si­tät zu Ber­lin als Open-Source-Pro­jekt ent­wi­ckelt.

null


 

<ti­ger2/> ist ein stan­dard­kon­for­mes XML-For­mat zur Serialisierung des SynAF Modells (ISO 24615:2010, ISO-Standard-Entwurf für syn­tak­ti­sche Annotation).  <ti­ger2/> baut auf dem weit ver­brei­te­ten For­mat Ti­gerXML (siehe hier) auf und bildet eine the­o­rie­un­ab­hän­gige Repräsentation syntaktischer Strukturen. Mehr zum Format (Schemata, API usw.):

Webseite

 

Beendete Projekte und Netzwerke


Fox Logo of the Software

CALLIDUS

Das interdisziplinäre Forschungsprojekt CALLIDUS (Computer-Aided Language Learning: Lexikonerwerb im Lateinunterricht durch korpusgestützte Methoden) versucht die folgende These wissenschaftlich zu überprüfen: Eine Wortschatzarbeit, die auf der Basis eines tief annotierten elektronischen Textkorpus erfolgt, beeinflusst die Wortschatzkompetenz der Lateinlernenden positiver als die traditionelle Wortschatzarbeit im Lateinunterricht.

Webseite

INDUS-Netzwerk

Individualisiertes Sprachenlernen (als Gegenstück zu standardisierten Massenkursen) ist durch neuste Entwicklungen der Sprachtechnologie in greifbare Nähe gerückt. Somit lassen sich nicht nur die weit verbreiteten sondern auch "kleine" Sprachen abdecken. Es zeigt sich jedoch, dass die Einbettung der Technologien in reale Lernsituationen viele neue Fragen aufwirft, die nur durch eine viele Disziplinen überspannende Forschungsanstrengung beantwortet werden können.

Das INDUS-Netzwerk bringt dazu Akteure aus den Disziplinen Sprachtechnologie, Linguistik, Bildungsforschung, Lernpsychologie, Pädagogische Psychologie, Spracherwerbsforschung und Didaktik des Sprachenlernens zusammen, die sich im Kontext ihrer spezifischen Expertise bereits mit dem Lernen von Sprachen auseinandergesetzt haben. Gemeinsam werden konkrete Forschungsfragen bearbeitet, die sich vor allem auf die Aspekte der Individualisierung beziehen, z. B. zur Modellierung des Lerners, zur Anpassung des Lehrmaterials an verschiedene Lernausgangslagen wie Muttersprache und Vorwissen und zur Generierung von hilfreichen Rückmeldungen.

Webseite


null

Ziel des Netz­werks, das durch die Deut­sche For­schungs­ge­mein­schaft (DFG) ge­för­dert wird, ist es, Kom­pe­ten­zen aus ger­ma­nis­ti­scher Sprach­wis­sen­schaft, Com­pu­ter­lin­gu­is­tik, In­for­ma­tik und Psy­cho­lo­gie zu bün­deln, um an­hand ei­ner Rei­he kon­kre­ter For­schungs­fra­gen Vor­schlä­ge für Stan­dards zur Auf­be­rei­tung von Sprach­da­ten aus der deutsch­spra­chi­gen in­ter­net­ba­sier­ten Kom­mu­ni­ka­ti­on zu er­ar­bei­ten und Me­tho­den und Werk­zeu­ge für de­ren em­pi­ri­sche com­pu­ter­ge­stütz­te Ana­ly­se zu ent­wi­ckeln. Die Er­geb­nis­se wer­den in Pu­b­li­ka­ti­o­nen do­ku­men­tiert, die Vor­schlä­ge für Stan­dards und Ver­fah­ren sol­len suk­zes­si­ve on­line be­reit­ge­stellt wer­den.

Webseite

KOMPOST

Mit Hil­fe com­pu­ter­lin­gu­is­ti­scher Me­tho­den sol­len In­di­ka­to­ren für die Qua­li­tät von Schü­ler­tex­ten für die deut­sche Spra­che er­mit­telt und un­ter­sucht wer­den. Ei­nen Schwer­punkt bil­det die Ver­än­de­rung der Wer­te der Qua­li­täts­in­di­ka­to­ren über ver­schie­de­ne Klas­sen­stu­fen hin­weg, d. h. die Ent­wick­lung von be­ob­acht­ba­ren Aus­prä­gun­gen von Text­kom­pe­tenz im Längs­schnitt. Als Aus­gangs­ba­sis ste­hen Auf­sät­ze, Test­er­geb­nis­se, Ein­stel­lun­gen und In­for­ma­ti­o­nen von Schü­lern aus der Ham­bur­ger Längs­schnitt­un­ter­su­chung KESS und wei­te­ren Er­he­bun­gen zur Ver­fü­gung. Den Kern der Un­ter­su­chung bil­den 8000 Auf­sät­ze aus der 4., so­wie 1000 Auf­sät­ze aus der 8. Klas­se, die in meh­re­ren Di­men­si­o­nen be­wer­tet wur­den. Sprach­test­er­geb­nis­se der­sel­ben Schü­ler die­nen als Au­ßen­kri­te­ri­um zur Va­li­die­rung der Text­be­wer­tun­gen und wer­den eben­falls mit den In­di­ka­to­ren in Be­zie­hung ge­setzt, um auf in­di­rek­tem Weg zu­sätz­li­che Ge­setz­mä­ßig­kei­ten zu er­ken­nen, die bei der be­reits durch­ge­führ­ten we­ni­ger ob­jek­ti­ven und re­li­a­b­len Be­wer­tung durch mensch­li­che Le­ser nicht ge­fun­den wer­den kön­nen. Die ein­ge­setz­ten Ver­fah­ren bil­den den Aus­gangs­punkt für den Pro­to­typ ei­nes On­line­werk­zeugs, das im Di­a­log mit Schü­lern und Leh­rern ent­wi­ckelt wird und den An­wen­dern ei­ne ver­ständ­li­che Rück­mel­dung über­mit­telt. Da­r­ü­ber hi­n­aus sol­len die Er­geb­nis­se der Da­ten­ana­ly­se so auf­be­rei­tet wer­den, dass sie für die Wei­ter­ent­wick­lung von Kom­pe­tenz­mo­del­len ver­wen­det wer­den kön­nen.

Webseite

LangBank

Das LangBank (Digital Infrastructure to Support the Study of Latin and Historical German) Projekt beschäftigt sich mit der Entwicklung einer Ressource für annotierte Texte in klassischem Latein und in historischen Stufen des Deutschen. Der Zugriff auf eine große Bandbreite vollständig annotierter Texte ist notwendig für geisteswissenschaftliche Forschung sowie für den Erwerb einer Sprache: Während es für Lehrer und Schüler unabdingbar ist, Texte zu finden, die sowohl dem Kompetenzniveau des Lernenden entsprechen, als auch der Illustration bestimmter sprachlicher Konstruktionen dienen, benötigen Forscher Zugriff auf eine Bandbreite von Texten, die unter dem Gesichtspunkt einer spezifischen Fragestellung ausgewählt wurden. In beiden Szenarien ist eine Textauswahl zu treffen im Hinblick auf, beispielsweise spezifische grammatische Konstruktionen, ein bestimmtes Vokabular oder orthographische Varianz.

Webseite

Mind Research Repository (MRR)

Das Mind Research Repository (MRR) stellt einen Zugang zu wissenschaftlichen Publikationen und zugehörigen Daten sowie Analyseskripten und Plottingcode zur Verfügung. Das MRR hat sich aus dem Potsdam Mind Research Repository entwickelt.
Die Kombination eines Papiers mit zugehörigen Daten und Skripten nennen wir "Paper Package". Die Hauptziele des Mind Research Repository sind folgende:

  • Dokumentation von Daten und (statistischen) Analysen von Veröffentlichungen in einem öffentlichen Forum
  • Wissenschaftler einzuladen (a) Analysen/Plots zu reproduzieren (b) alternative Analysemethoden anzuwenden und eventuell zu publizieren oder (c) Analyseskripte an die eigenen Daten anzupassen
  • Leser in die Lage zu versetzen, den Autoren Rückmeldung zu ihren Skripten zu geben, sowohl zu nötigen oder möglichen Verbesserungen als auch zu Fehlern
  • Als Seite für Ergebnisse zu dienen, die nicht veröffentlicht wurden weil sie andere als die erwarteten Ergebisse geliefert haben (unter der Annahme das es keine technischen oder anderen offensichtlichen Gründe hierfür gibt). Solche Ergebnisse im Kontext von erfolgreich verlaufenen Experimenten zu veröffentlichen könnte Kollegen zu einem neuen Blick auf die problematischen Befunde anregen. Evenuell kann so das Problem des bekannten "publication bias", also der Tendenz, dass vor allem positive Ergebnisse veröffentlicht werden, etwas reduziert werden.

Webseite

Netzwerk Kobalt-DaF

Kobalt-DaF ist ein DFG-gefördertes Netzwerk zur Annotation und Analyse argumentativer Lernertexte mit dem Ergebnis eines schriftlichen Korpus des fortgeschrittenen Deutschen als Fremdsprache und chinesischen, schwedischen und weißrussischen Lernerkohorten.

Webseite

null

Ziel die­ses Pro­jekts WHiG ("What's Hard in German?") ist es, die­je­ni­gen sprach­li­chen Struk­tu­ren im Deut­schen aus­fin­dig zu ma­chen und zu un­ter­su­chen, die be­son­de­re Schwie­rig­kei­ten beim Er­werb des Deut­schen als Fremd­spra­che be­rei­ten. Sol­che Schwie­rig­kei­ten wer­den in der Re­gel durch Be­trach­tun­gen von Feh­lern er­mit­telt (bspw. Bo­rin & Prütz 2004 oder Wes­ter­gren-Axels­son & Hahn 2001). Wer­den schwie­ri­ge Struk­tu­ren von Ler­nern je­doch ver­mie­den, schei­tert die­ser An­satz. Da­her ver­mu­ten wir, dass es für ei­ne sys­te­ma­ti­sche Su­che nach schwie­ri­gen Struk­tu­ren ef­fek­ti­ver ist, de­ren re­la­ti­ves Vor­kom­men in Ler­ner­da­ten zu un­ter­su­chen.

Webseite