Überblick

Aktuelle Projekte

ANNIS ist ein brow­ser­ba­sier­tes, Open-Source Such- und Vi­su­a­li­sie­rungs­werk­zeug für kom­ple­xe lin­gu­is­ti­sche Mehr­ebe­nen­kor­po­ra. ANNIS steht für An­no­ta­ti­on der In­for­ma­ti­ons­struk­tur und wur­de im Rah­men des SFB 632 "In­for­ma­ti­ons­struk­tur: Die sprach­li­chen Mit­tel der Glie­de­rung von Äu­ße­rung, Satz und Text" ent­wi­ckelt.
ANNIS ba­siert nicht auf ei­ner be­stimm­ten lin­gu­is­ti­schen The­o­rie und kann so­mit un­ter­schied­lichs­te Kor­po­ra durch­su­chen und dar­stel­len. So kön­nen sprach­li­che Phä­no­me­ne un­ter­schied­li­cher Ebe­nen ge­mein­sam dar­ge­stellt und durch­sucht wer­den wie bei­spiels­wei­se Syn­tax, Se­man­tik, Mor­pho­lo­gie, Pro­so­die, Re­fe­ren­ti­a­li­tät und Le­xik. Mit ANNIS ist es eben­falls mög­lich mul­ti­me­di­a­le Da­ten wie Au­dio- und Vi­deo­da­tei­en ein­zu­bin­den.
Ne­ben ei­ner ser­ver­ba­sier­ten Va­ri­an­te bie­tet ANNIS mit dem ANNIS-Kick­star­ter auch ei­ne Desk­top­va­ri­an­te an.

http://www.sfb632.uni-potsdam.de/d1/annis/

DDB

Die DDB (Deut­sche Dia­chro­ne Baum­bank) ist ein klei­nes (ca. 8000 To­ken), syn­tak­tisch tief an­no­tier­tes Kor­pus, be­ste­hend aus drei Sub­kor­po­ra un­ter­schied­li­cher Sprach­stu­fen des Deut­schen (Alt­hoch­deutsch, Mit­tel­hoch­deutsch, Früh­neu­hoch­deutsch). Der Auf­bau des Kor­pus ori­en­tiert sich im We­sent­li­chen am TI­GER-Kor­pus, der größ­ten frei er­hält­li­chen Baum­bank des Deut­schen (http://www.ims.uni-stutt­gart.de/pro­jek­te/TI­GER/). DDB ist ent­stan­den im Rah­men des vom Ber­li­ner Se­nat ge­för­der­ten Pro­jekts "In­ter­dis­zip­li­nä­rer For­schungs­ver­bund Lin­gu­is­tik – Bio­in­for­ma­tik zur Be­rech­nung von Ver­wandt­schaft und Ab­stam­mung".

  • Hirschmann, Hagen; Lüdeling, Anke & Zeldes, Amir (erscheint) Measuring and Coding Language Change: An Evolving Study in a Multi-Layer Corpus Architecture. In: Journal on Computing and Cultural Heritage. Vorabversion
  • Lüdeling, Anke; Hirschmann, Hagen; Zeldes, Amir (erscheint) Variationism and Underuse Statistics in the Analysis of the Development of Relative Clauses in German. In: Kawaguchi, Yuji, Minegishi, Makoto & Viereck, Wolfgang (Hrsg.), Corpus Analysis and Diachronic Linguistics. Amsterdam: John Benjamins. Vorabversion

empirikom


Ziel des Netz­werks, das durch die Deut­sche For­schungs­ge­mein­schaft (DFG) ge­för­dert wird, ist es, Kom­pe­ten­zen aus ger­ma­nis­ti­scher Sprach­wis­sen­schaft, Com­pu­ter­lin­gu­is­tik, In­for­ma­tik und Psy­cho­lo­gie zu bün­deln, um an­hand ei­ner Rei­he kon­kre­ter For­schungs­fra­gen Vor­schlä­ge für Stan­dards zur Auf­be­rei­tung von Sprach­da­ten aus der deutsch­spra­chi­gen in­ter­net­ba­sier­ten Kom­mu­ni­ka­ti­on zu er­ar­bei­ten und Me­tho­den und Werk­zeu­ge für de­ren em­pi­ri­sche com­pu­ter­ge­stütz­te Ana­ly­se zu ent­wi­ckeln. Die Er­geb­nis­se wer­den in Pu­b­li­ka­ti­o­nen do­ku­men­tiert, die Vor­schlä­ge für Stan­dards und Ver­fah­ren sol­len suk­zes­si­ve on­line be­reit­ge­stellt wer­den.

http://www.empirikom.net/

Fal­ko ist ein frei zu­gäng­li­ches feh­ler­an­no­tier­tes Ler­ner­kor­pus des Deut­schen als Fremd­spra­che.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko

KOMPOST

Mit Hil­fe com­pu­ter­lin­gu­is­ti­scher Me­tho­den sol­len In­di­ka­to­ren für die Qua­li­tät von Schü­ler­tex­ten für die deut­sche Spra­che er­mit­telt und un­ter­sucht wer­den. Ei­nen Schwer­punkt bil­det die Ver­än­de­rung der Wer­te der Qua­li­täts­in­di­ka­to­ren über ver­schie­de­ne Klas­sen­stu­fen hin­weg, d. h. die Ent­wick­lung von be­ob­acht­ba­ren Aus­prä­gun­gen von Text­kom­pe­tenz im Längs­schnitt. Als Aus­gangs­ba­sis ste­hen Auf­sät­ze, Test­er­geb­nis­se, Ein­stel­lun­gen und In­for­ma­ti­o­nen von Schü­lern aus der Ham­bur­ger Längs­schnitt­un­ter­su­chung KESS und wei­te­ren Er­he­bun­gen zur Ver­fü­gung. Den Kern der Un­ter­su­chung bil­den 8000 Auf­sät­ze aus der 4., so­wie 1000 Auf­sät­ze aus der 8. Klas­se, die in meh­re­ren Di­men­si­o­nen be­wer­tet wur­den. Sprach­test­er­geb­nis­se der­sel­ben Schü­ler die­nen als Au­ßen­kri­te­ri­um zur Va­li­die­rung der Text­be­wer­tun­gen und wer­den eben­falls mit den In­di­ka­to­ren in Be­zie­hung ge­setzt, um auf in­di­rek­tem Weg zu­sätz­li­che Ge­setz­mä­ßig­kei­ten zu er­ken­nen, die bei der be­reits durch­ge­führ­ten we­ni­ger ob­jek­ti­ven und re­li­a­b­len Be­wer­tung durch mensch­li­che Le­ser nicht ge­fun­den wer­den kön­nen. Die ein­ge­setz­ten Ver­fah­ren bil­den den Aus­gangs­punkt für den Pro­to­typ ei­nes On­line­werk­zeugs, das im Di­a­log mit Schü­lern und Leh­rern ent­wi­ckelt wird und den An­wen­dern ei­ne ver­ständ­li­che Rück­mel­dung über­mit­telt. Da­r­ü­ber hi­n­aus sol­len die Er­geb­nis­se der Da­ten­ana­ly­se so auf­be­rei­tet wer­den, dass sie für die Wei­ter­ent­wick­lung von Kom­pe­tenz­mo­del­len ver­wen­det wer­den kön­nen.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/kompost

Laudatio

LAUDATIO (Long term Ac­cess and Us­age of Deep­ly An­no­tat­ed In­for­ma­tion) ist ein Pro­jekt zur Ent­wick­lung ei­ner nach­hal­ti­gen und nut­zer­ori­en­tier­ten Spei­che­rung von For­schungs­da­ten für die his­to­ri­sche Lin­gu­is­tik.

Das Pro­jekt ver­folgt das Ziel, für das Fach­ge­biet der his­to­ri­schen Lin­gu­is­tik ei­ne In­fra­struk­tur un­ter Ein­be­zie­hung ei­nes Re­pos­i­to­ry zu ent­wi­ckeln, mit der fach­spe­zi­fi­sche Pri­mär­da­ten in Form tief an­no­tier­ter und kom­plex struk­tu­rier­ter Text­kor­po­ra er­fasst, per­sis­tent ge­spei­chert und je­der­zeit zu­greif­bar be­reit­ge­stellt wer­den.

http://blog.hu-berlin.de/laudatio/

Netzwerk Kobalt-DAF

Annotation und Analyse argumentativer Lernertexte
Konvergierende Zugänge zu einem schriftlichen Korpus des Deutschen als Fremdsprache

http://www.uni-konstanz.de/Kobalt/

Das RIDGES-Pro­jekt (Reg­is­ter in Di­a­chron­ic Ger­man Sci­ence) un­ter­sucht die Ent­ste­hung und Ent­wick­lung der deut­schen Wis­sen­schafts­spra­che ab Mit­te des 16. Jahr­hun­derts bis ins spä­te 19. Jahr­hun­dert.

SaltNPep­per stellt ein Frame­work für die Ver­ar­bei­tung lin­gu­is­ti­scher Da­ten zur Ver­fü­gung und be­steht aus dem Me­ta­mo­dell Salt und dem Kon­ver­ter­frame­work Pep­per. Salt ist ein auf ei­nem all­ge­mei­nen Gra­phen auf­bau­en­des Me­ta­mo­dell zur Dar­stel­lung lin­gu­is­ti­scher Da­ten. Die­se Da­ten wer­den da­bei auf­grund ih­rer struk­tu­rel­len Ei­gen­schaf­ten als Kno­ten und Kan­ten re­prä­sen­tiert. Die Be­schrän­kung auf die struk­tu­rel­le Re­prä­sen­ta­ti­on er­mög­licht es mit Salt Da­ten aus sehr un­ter­schied­li­chen lin­gu­is­ti­schen Ana­ly­sen, wie bei­spiels­wei­se aus Dis­kurs­ana­ly­sen, syn­tak­ti­schen Ana­ly­sen, mor­pho­lo­gi­schen Ana­ly­sen etc. dar­zu­stel­len.
Das Kon­ver­ter­frame­work Pep­per ba­siert auf dem Me­ta­mo­dell Salt und dient der uni­ver­sel­len Kon­ver­tie­rung ver­schie­de­ner Da­ten­for­ma­te in­ein­an­der. Pep­per zer­legt den Kon­ver­tie­rungs­pro­zess in ein­zel­ne Schrit­te und ist sehr mo­du­lar auf­ge­baut. Da­durch ist es mög­lich durch ei­nen Plug-in-Me­cha­nis­mus wei­te­re For­ma­te in den Kon­ver­tie­rungs­pro­zess ein­zu­bin­den.SaltNPep­per stellt zwei leis­tungs­fä­hi­ge Frame­works zur Ver­fü­gung für die Be­ar­bei­tung von lin­gu­is­tisch an­no­tier­ten Da­ten. Es wur­de an der Hum­boldt-Uni­ver­si­tät zu Ber­lin als Open-Source-Pro­jekt ent­wi­ckelt.

https://korpling.german.hu-berlin.de/saltnpepper

<ti­ger2/> ist ein stan­dard­kon­for­mes XML-For­mat (SynAF Modell, ISO 24615:2010) für syn­tak­ti­sche Struk­tu­ren.  <ti­ger2/> baut auf dem weit ver­brei­te­ten For­mat Ti­gerXML (sie­he http://www.ims.uni-stuttgart.de/projekte/TIGER/) auf. <tiger2/> ist the­o­rie­un­ab­hän­gig, da­her kön­nen un­ter­schied­li­che syn­tak­ti­sche An­no­ta­ti­o­nen in <ti­ger2/> ab­ge­bil­det wer­den.

http://korpling.german.hu-berlin.de/tiger2/ 

Ziel die­ses Pro­jekts ist es, die­je­ni­gen sprach­li­chen Struk­tu­ren im Deut­schen aus­fin­dig zu ma­chen und zu un­ter­su­chen, die be­son­de­re Schwie­rig­kei­ten beim Er­werb des Deut­schen als Fremd­spra­che be­rei­ten. Sol­che Schwie­rig­kei­ten wer­den in der Re­gel durch Be­trach­tun­gen von Feh­lern er­mit­telt (bspw. Bo­rin & Prütz 2004 oder Wes­ter­gren-Axels­son & Hahn 2001). Wer­den schwie­ri­ge Struk­tu­ren von Ler­nern je­doch ver­mie­den, schei­tert die­ser An­satz. Da­her ver­mu­ten wir, dass es für ei­ne sys­te­ma­ti­sche Su­che nach schwie­ri­gen Struk­tu­ren ef­fek­ti­ver ist, de­ren re­la­ti­ves Vor­kom­men in Ler­ner­da­ten zu un­ter­su­chen.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/lernschwierigkeiten/WHIG

Artikelaktionen
zuletzt geändert: 18.01.12 von Burkhard Dietterle (Stud. Hilfskraft)
Benutzerspezifische Werkzeuge