Direkt zum InhaltDirekt zur SucheDirekt zur Navigation
▼ Zielgruppen ▼

Humboldt-Universität zu Berlin - Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Forschung

Laufende Projekte


null

ANNIS ist ein brow­ser­ba­sier­tes, Open-Source Such- und Vi­su­a­li­sie­rungs­werk­zeug für kom­ple­xe lin­gu­is­ti­sche Mehr­ebe­nen­kor­po­ra. ANNIS steht für An­no­ta­ti­on der In­for­ma­ti­ons­struk­tur und wur­de im Rah­men des SFB 632 "In­for­ma­ti­ons­struk­tur: Die sprach­li­chen Mit­tel der Glie­de­rung von Äu­ße­rung, Satz und Text" ent­wi­ckelt.
ANNIS ba­siert nicht auf ei­ner be­stimm­ten lin­gu­is­ti­schen The­o­rie und kann so­mit un­ter­schied­lichs­te Kor­po­ra durch­su­chen und dar­stel­len. So kön­nen sprach­li­che Phä­no­me­ne un­ter­schied­li­cher Ebe­nen ge­mein­sam dar­ge­stellt und durch­sucht wer­den wie bei­spiels­wei­se Syn­tax, Se­man­tik, Mor­pho­lo­gie, Pro­so­die, Re­fe­ren­ti­a­li­tät und Le­xik. Mit ANNIS ist es eben­falls mög­lich mul­ti­me­di­a­le Da­ten wie Au­dio- und Vi­deo­da­tei­en ein­zu­bin­den.
Ne­ben ei­ner ser­ver­ba­sier­ten Va­ri­an­te bie­tet ANNIS mit dem ANNIS-Kick­star­ter auch ei­ne Desk­top­va­ri­an­te an.

http://corpus-tools.org/

LangBank

Das LangBank (Digital Infrastructure to Support the Study of Latin and Historical German) Projekt beschäftigt sich mit der Entwicklung einer Ressource für annotierte Texte in klassischem Latein und in historischen Stufen des Deutschen. Der Zugriff auf eine große Bandbreite vollständig annotierter Texte ist notwendig für geisteswissenschaftliche Forschung sowie für den Erwerb einer Sprache: Während es für Lehrer und Schüler unabdingbar ist, Texte zu finden, die sowohl dem Kompetenzniveau des Lernenden entsprechen, als auch der Illustration bestimmter sprachlicher Konstruktionen dienen, benötigen Forscher Zugriff auf eine Bandbreite von Texten, die unter dem Gesichtspunkt einer spezifischen Fragestellung ausgewählt wurden. In beiden Szenarien ist eine Textauswahl zu treffen im Hinblick auf, beispielsweise spezifische grammatische Konstruktionen, ein bestimmtes Vokabular oder orthographische Varianz.

http://sfs.uni-tuebingen.de/langbank/de/index.html

Laudatio

LAUDATIO (Long term Ac­cess and Us­age of Deep­ly An­no­tat­ed In­for­ma­tion) ist ein Pro­jekt zur Ent­wick­lung ei­ner nach­hal­ti­gen und nut­zer­ori­en­tier­ten Spei­che­rung von For­schungs­da­ten für die his­to­ri­sche Lin­gu­is­tik.

Das Pro­jekt ver­folgt das Ziel, für das Fach­ge­biet der his­to­ri­schen Lin­gu­is­tik ei­ne In­fra­struk­tur un­ter Ein­be­zie­hung ei­nes Re­pos­i­to­ry zu ent­wi­ckeln, mit der fach­spe­zi­fi­sche Pri­mär­da­ten in Form tief an­no­tier­ter und kom­plex struk­tu­rier­ter Text­kor­po­ra er­fasst, per­sis­tent ge­spei­chert und je­der­zeit zu­greif­bar be­reit­ge­stellt wer­den.

http://www.laudatio-repository.org

Mind Research Repository (MRR)

Das Mind Research Repository (MRR) stellt einen Zugang zu wissenschaftlichen Publikationen und zugehörigen Daten sowie Analyseskripten und Plottingcode zur Verfügung. Das MRR hat sich aus dem Potsdam Mind Research Repository entwickelt.
Die Kombination eines Papiers mit zugehörigen Daten und Skripten nennen wir "Paper Package". Die Hauptziele des Mind Research Repository sind folgende:

  • Dokumentation von Daten und (statistischen) Analysen von Veröffentlichungen in einem öffentlichen Forum
  • Wissenschaftler einzuladen (a) Analysen/Plots zu reproduzieren (b) alternative Analysemethoden anzuwenden und eventuell zu publizieren oder (c) Analyseskripte an die eigenen Daten anzupassen
  • Leser in die Lage zu versetzen, den Autoren Rückmeldung zu ihren Skripten zu geben, sowohl zu nötigen oder möglichen Verbesserungen als auch zu Fehlern
  • Als Seite für Ergebnisse zu dienen, die nicht veröffentlicht wurden weil sie andere als die erwarteten Ergebisse geliefert haben (unter der Annahme das es keine technischen oder anderen offensichtlichen Gründe hierfür gibt). Solche Ergebnisse im Kontext von erfolgreich verlaufenen Experimenten zu veröffentlichen könnte Kollegen zu einem neuen Blick auf die problematischen Befunde anregen. Evenuell kann so das Problem des bekannten "publication bias", also der Tendenz, dass vor allem positive Ergebnisse veröffentlicht werden, etwas reduziert werden.

http://openscience.uni-leipzig.de

null

SaltNPep­per stellt ein Frame­work für die Ver­ar­bei­tung lin­gu­is­ti­scher Da­ten zur Ver­fü­gung und be­steht aus dem Me­ta­mo­dell Salt und dem Kon­ver­ter­frame­work Pep­per. Salt ist ein auf ei­nem all­ge­mei­nen Gra­phen auf­bau­en­des Me­ta­mo­dell zur Dar­stel­lung lin­gu­is­ti­scher Da­ten. Die­se Da­ten wer­den da­bei auf­grund ih­rer struk­tu­rel­len Ei­gen­schaf­ten als Kno­ten und Kan­ten re­prä­sen­tiert. Die Be­schrän­kung auf die struk­tu­rel­le Re­prä­sen­ta­ti­on er­mög­licht es mit Salt Da­ten aus sehr un­ter­schied­li­chen lin­gu­is­ti­schen Ana­ly­sen, wie bei­spiels­wei­se aus Dis­kurs­ana­ly­sen, syn­tak­ti­schen Ana­ly­sen, mor­pho­lo­gi­schen Ana­ly­sen etc. dar­zu­stel­len.
Das Kon­ver­ter­frame­work Pep­per ba­siert auf dem Me­ta­mo­dell Salt und dient der uni­ver­sel­len Kon­ver­tie­rung ver­schie­de­ner Da­ten­for­ma­te in­ein­an­der. Pep­per zer­legt den Kon­ver­tie­rungs­pro­zess in ein­zel­ne Schrit­te und ist sehr mo­du­lar auf­ge­baut. Da­durch ist es mög­lich durch ei­nen Plug-in-Me­cha­nis­mus wei­te­re For­ma­te in den Kon­ver­tie­rungs­pro­zess ein­zu­bin­den.SaltNPep­per stellt zwei leis­tungs­fä­hi­ge Frame­works zur Ver­fü­gung für die Be­ar­bei­tung von lin­gu­is­tisch an­no­tier­ten Da­ten. Es wur­de an der Hum­boldt-Uni­ver­si­tät zu Ber­lin als Open-Source-Pro­jekt ent­wi­ckelt.

null

<ti­ger2/> ist ein stan­dard­kon­for­mes XML-For­mat zur Serialisierung des SynAF Modells (ISO 24615:2010, ISO-Standard-Entwurf für syn­tak­ti­sche Annotation).  <ti­ger2/> baut auf dem weit ver­brei­te­ten For­mat Ti­gerXML (sie­he http://www.ims.uni-stuttgart.de/projekte/TIGER/) auf und bildet eine the­o­rie­un­ab­hän­gige Repräsentation syntaktischer Strukturen. Mehr zum Format (Schemata, API usw.):

http://korpling.german.hu-berlin.de/tiger2/

 

Ressourcen


BeMaTaC

Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung.

Homepage

DDB

Deutsche Diachrone Baumbank

Die DDB (Deut­sche Dia­chro­ne Baum­bank) ist ein klei­nes (ca. 8000 To­ken), syn­tak­tisch tief an­no­tier­tes Kor­pus, be­ste­hend aus drei Sub­kor­po­ra un­ter­schied­li­cher Sprach­stu­fen des Deut­schen (Alt­hoch­deutsch, Mit­tel­hoch­deutsch, Früh­neu­hoch­deutsch). Der Auf­bau des Kor­pus ori­en­tiert sich im We­sent­li­chen am TI­GER-Kor­pus, der größ­ten frei er­hält­li­chen Baum­bank des Deut­schen (http://www.ims.uni-stutt­gart.de/pro­jek­te/TI­GER/). DDB ist ent­stan­den im Rah­men des vom Ber­li­ner Se­nat ge­för­der­ten Pro­jekts "In­ter­dis­zip­li­nä­rer For­schungs­ver­bund Lin­gu­is­tik – Bio­in­for­ma­tik zur Be­rech­nung von Ver­wandt­schaft und Ab­stam­mung".
Link zur Homepage
Link zum Suchinterface ("DeutscheDiachroneBaumbank" auswählen)

null

Fal­ko ist ein frei zu­gäng­li­ches feh­ler­an­no­tier­tes Ler­ner­kor­pus des Deut­schen als Fremd­spra­che.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko

KanDeL

KanDeL (Kansas Developmental Learner corpus) ist ein frei verfügbares longitudinales Lernerkorpus von Anfängern bis zu intermediären Lernern von Deutsch als Fremdsprache, aufgebaut von Nina Vyatkina an der University of Kansas

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/research/kandel

Märchenkorpus

Das Märchenkorpus enthält die 201 Kinder- und Hausmärchen sowie die im 2. Band abgedruckten 10 Kinderlegenden in der von den Brüder Grimm herausgegeben Ausgabe letzter Hand. Das Korpus wurde für das Vertiefungsseminar "Dramapädagogik des Märchens: Linguistik, Didaktik und Theater" kompiliert und aufbereitet. Das Vertiefungsseminar fand im Sommersemester 2013 am Deutschen Seminar der Universität Tübingen unter Leitung von Maik Walter statt (vgl. Maik Walter (i.E.): Es VERBte (ein)mal. Linguistisches Forschungstheater im Grimm-Jahr 2013. Erscheint in Zeitschrift für Theaterpädagogik 63. 29.Jahrgang. Themenheft: Forschung, Fachdiskurse und Labore).

http://www.textbewegung.de/

NoSta-D

CLARIN-D-Kurationsprojekt: Linguistische Annotation von Nichtstandardvarietäten — Guidelines und „Best Practices“ (F-AG 7 | KP 2)

Das RIDGES-Pro­jekt (Reg­is­ter in Di­a­chron­ic Ger­man Sci­ence) un­ter­sucht die Ent­ste­hung und Ent­wick­lung der deut­schen Wis­sen­schafts­spra­che ab Mit­te des 16. Jahr­hun­derts bis ins spä­te 19. Jahr­hun­dert.

 

Netzwerke


INDUS-Netzwerk

Individualisiertes Sprachenlernen (als Gegenstück zu standardisierten Massenkursen) ist durch neuste Entwicklungen der Sprachtechnologie in greifbare Nähe gerückt. Somit lassen sich nicht nur die weit verbreiteten sondern auch „kleine“ Sprachen abdecken. Es zeigt sich jedoch, dass die Einbettung der Technologien in reale Lernsituationen viele neue Fragen aufwirft, die nur durch eine viele Disziplinen überspannende Forschungsanstrengung beantwortet werden können.

Das INDUS-Netzwerk bringt dazu Akteure aus den Disziplinen Sprachtechnologie, Linguistik, Bildungsforschung, Lernpsychologie, Pädagogische Psychologie, Spracherwerbsforschung und Didaktik des Sprachenlernens zusammen, die sich im Kontext ihrer spezifischen Expertise bereits mit dem Lernen von Sprachen auseinandergesetzt haben. Gemeinsam werden konkrete Forschungsfragen bearbeitet, die sich vor allem auf die Aspekte der Individualisierung beziehen, z.B. zur Modellierung des Lerners, zur Anpassung des Lehrmaterials an verschiedene Lernausgangslagen wie Muttersprache und Vorwissen und zur Generierung von hilfreichen Rückmeldungen.

Homepage

Netzwerk Kobalt-DAF


null

Annotation und Analyse argumentativer Lernertexte

Konvergierende Zugänge zu einem schriftlichen Korpus des Deutschen als Fremdsprache

http://www.kobalt-daf.de/

 

Beendete Projekte und Netzwerke


empirikom


null

Ziel des Netz­werks, das durch die Deut­sche For­schungs­ge­mein­schaft (DFG) ge­för­dert wird, ist es, Kom­pe­ten­zen aus ger­ma­nis­ti­scher Sprach­wis­sen­schaft, Com­pu­ter­lin­gu­is­tik, In­for­ma­tik und Psy­cho­lo­gie zu bün­deln, um an­hand ei­ner Rei­he kon­kre­ter For­schungs­fra­gen Vor­schlä­ge für Stan­dards zur Auf­be­rei­tung von Sprach­da­ten aus der deutsch­spra­chi­gen in­ter­net­ba­sier­ten Kom­mu­ni­ka­ti­on zu er­ar­bei­ten und Me­tho­den und Werk­zeu­ge für de­ren em­pi­ri­sche com­pu­ter­ge­stütz­te Ana­ly­se zu ent­wi­ckeln. Die Er­geb­nis­se wer­den in Pu­b­li­ka­ti­o­nen do­ku­men­tiert, die Vor­schlä­ge für Stan­dards und Ver­fah­ren sol­len suk­zes­si­ve on­line be­reit­ge­stellt wer­den.

http://www.empirikom.net/

KOMPOST

Mit Hil­fe com­pu­ter­lin­gu­is­ti­scher Me­tho­den sol­len In­di­ka­to­ren für die Qua­li­tät von Schü­ler­tex­ten für die deut­sche Spra­che er­mit­telt und un­ter­sucht wer­den. Ei­nen Schwer­punkt bil­det die Ver­än­de­rung der Wer­te der Qua­li­täts­in­di­ka­to­ren über ver­schie­de­ne Klas­sen­stu­fen hin­weg, d. h. die Ent­wick­lung von be­ob­acht­ba­ren Aus­prä­gun­gen von Text­kom­pe­tenz im Längs­schnitt. Als Aus­gangs­ba­sis ste­hen Auf­sät­ze, Test­er­geb­nis­se, Ein­stel­lun­gen und In­for­ma­ti­o­nen von Schü­lern aus der Ham­bur­ger Längs­schnitt­un­ter­su­chung KESS und wei­te­ren Er­he­bun­gen zur Ver­fü­gung. Den Kern der Un­ter­su­chung bil­den 8000 Auf­sät­ze aus der 4., so­wie 1000 Auf­sät­ze aus der 8. Klas­se, die in meh­re­ren Di­men­si­o­nen be­wer­tet wur­den. Sprach­test­er­geb­nis­se der­sel­ben Schü­ler die­nen als Au­ßen­kri­te­ri­um zur Va­li­die­rung der Text­be­wer­tun­gen und wer­den eben­falls mit den In­di­ka­to­ren in Be­zie­hung ge­setzt, um auf in­di­rek­tem Weg zu­sätz­li­che Ge­setz­mä­ßig­kei­ten zu er­ken­nen, die bei der be­reits durch­ge­führ­ten we­ni­ger ob­jek­ti­ven und re­li­a­b­len Be­wer­tung durch mensch­li­che Le­ser nicht ge­fun­den wer­den kön­nen. Die ein­ge­setz­ten Ver­fah­ren bil­den den Aus­gangs­punkt für den Pro­to­typ ei­nes On­line­werk­zeugs, das im Di­a­log mit Schü­lern und Leh­rern ent­wi­ckelt wird und den An­wen­dern ei­ne ver­ständ­li­che Rück­mel­dung über­mit­telt. Da­r­ü­ber hi­n­aus sol­len die Er­geb­nis­se der Da­ten­ana­ly­se so auf­be­rei­tet wer­den, dass sie für die Wei­ter­ent­wick­lung von Kom­pe­tenz­mo­del­len ver­wen­det wer­den kön­nen.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/kompost
null

Ziel die­ses Pro­jekts ist es, die­je­ni­gen sprach­li­chen Struk­tu­ren im Deut­schen aus­fin­dig zu ma­chen und zu un­ter­su­chen, die be­son­de­re Schwie­rig­kei­ten beim Er­werb des Deut­schen als Fremd­spra­che be­rei­ten. Sol­che Schwie­rig­kei­ten wer­den in der Re­gel durch Be­trach­tun­gen von Feh­lern er­mit­telt (bspw. Bo­rin & Prütz 2004 oder Wes­ter­gren-Axels­son & Hahn 2001). Wer­den schwie­ri­ge Struk­tu­ren von Ler­nern je­doch ver­mie­den, schei­tert die­ser An­satz. Da­her ver­mu­ten wir, dass es für ei­ne sys­te­ma­ti­sche Su­che nach schwie­ri­gen Struk­tu­ren ef­fek­ti­ver ist, de­ren re­la­ti­ves Vor­kom­men in Ler­ner­da­ten zu un­ter­su­chen.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/lernschwierigkeiten/WHIG