Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Korpora

Übersicht

Synchron

Deutsch

  • DWDS-Kernkorpus
    http://www.dwds.de/resource/kerncorpus/

    Korpus der Berlin-Brandenburgischen Akademie der Wissenschaften, auf dessen Grundlage das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) erstellt wurde.

  • Projekt Deutscher Wortschatz
    http://wortschatz.uni-leipzig.de/

    Deutscher Wortschatz Online. Enthält 35 Millionen Sätze mit 500 Millionen Wörtern.

  • Hamburg Dependency Treebank
    http://hdl.handle.net/11022/0000-0000-7FC7-2

    The Hamburg Dependency Treebank is to our knowledge the largest dependency treebank available (at the date of its publication). It consists of genuine dependency annotations, i.e. they have not been transformed from phrase structures. The sentences were all sourced from the German news site heise.de, from articles published between 1996 and 2001. The mapping from sentences to articles and authors is retained, allowing, e.g. analysis of individual style. The creation of the treebank through manual annotation was largely interleaved with the creation of a standard for morphologically and syntactically annotating sentences as well as a constraint-based parser.

  • IDS-Korpora
    http://www.ids-mannheim.de/kt/corpora.html

    Korpora des Instituts für Deutsche Sprache. Es handelt sich um die weltweit größte Sammlung von deutschsprachigen Textkorpora als empirische Basis für die linguistische Forschung. Online-Recherche ist mit COSMAS II möglich.

  • LIMAS-Korpus
    http://www.korpora.org/Limas/

    Repräsentatives Zeitschnittkorpus der deutschen Gegenwartssprache (Schriftsprache) von 1970: Es handelt sich um eine Auswahl von 500 Texten, respektive Textfragmenten, verschiedener Textsorten mit insgesamt 1 Million Wortformen. Das Korpus kann in seiner Gesamtheit im WWW recherchiert werden.

  • Korpus Südtirol
    http://www.korpus-suedtirol.it/index_DE

    Eine Initiative zur Sammlung, Archivierung und korpuslinguistischen Erschließung von südtiroler deutschsprachigen Texten.

Englisch

  • British National Corpus (BNC)
    http://www.natcorp.ox.ac.uk

    Das British National Corpus enthält 100 Millionen Wörter geschriebener und gesprochener Sprache aus verschiedensten Bereichen und soll das derzeitige British English repräsentieren. Eine CD ist erhältich.

  • American National Corpus (ANC)
    http://americannationalcorpus.org/

    Das ANC-Projekt peilt die Entwicklung eines Korpus vergleichbar dem BNC an.

  • Loyola Computer-Mediated Communication Corpus
    http://cmccorpus.cs.loyola.edu/

    900 Textproben computervermittelter Kommunikation aus dem Loyola College in Baltimore (Maryland, USA)

  • Michigan Corpus of Academic Spoken English: MiCASE
    http://quod.lib.umich.edu/m/micase/

    Online abfragbar; freier Zugang. flach annotiert.Metadaten 152 Transkriptionen ( 1,848,364 Wörter)

  • International Corpus of English (ICE)
    http://ice-corpora.net/ice/

    Korpora regionaler Varietäten des Englischen. Jedes Korpus enthält eine Million Wörter, sowohl gesprochen als auch geschrieben, erhoben nach 1989. Vereinheitliches Korpusdesign und Annotationsschema. Viele der Korpora sind zum Zweck der akademischen Forschung frei verfügbar nach Anmeldung.

Finnisch

Französisch

Italienisch

Katalanisch

Russisch

Schwedisch

Spanisch

Tschechisch

  • Cesky Národní Korpus (CNK)
    http://ucnk.ff.cuni.cz

    Tschechisches Nationalkorpus. Eine Abfrage ist online möglich oder mit "Bonito".

Türkisch

  • Nationales Korpus des Türkischen
    http://www.tnc.org.tr/

Multilinguale Korpora

  • OPUS - Open source Parallelkorpus
    http://urd.let.rug.nl/tiedeman/OPUS/

    OPUS enthält 30 Millionen Wörter in 60 Sprachen. Das Korpus besteht aus der Office.org Dokumentation (OO), PHP manuals (PHP) and KDE manuals (KDEdoc) inklusive KDE Systemnachrichten.

  • Multext Project
    http://www.lpl.univ-aix.fr/projects/multext/

    Multilinguale Texttools und Korpora

  • Multext-East
    http://nl.ijs.si/ME/

    MULTEXT-East ist ein 6 Sprachenkorpus: Bulgarisch, Tschechisch, Estonisch, Ungarisch, Rumänisch und Slovenisch und Englisch als die 'hub' -Sprache des Projekts

  • Bohemica.com
    http://www.bohemica.com/index.php

    Tschechisch-englisches aligniertes Übersetzungskorpus. Insgesamt 100,000 Wörter. Es besteht aus 24 Schriftstücken zwischen 1000 und 4000 Wörtern. Es enthält enthält sowohl fiction als auch non-fiction und steht zum Download zur Verfügung.

Diachron

Deutsch

Englisch

Französisch

Italienisch

Ladinisch

Niederländisch

Portugiesisch

  • O Corpus do Portugues
    http://www.corpusdoportugues.org/

    Das Korpus besteht aus 45 Millionen Wörtern, aus 50.000 portugiesischen Texten des 14. bis 20. Jahrhunderts. Es ist mit Lemma- und Part-of-Speech-Informationen annotiert. Ein sehr mächtiges Webinterface erlaubt die Suche nach diesen Informationen, die Einschränkung der Suche auf Texten aus bestimmten Registern, Dialekten oder Zeitperioden und die Berechnung von Statistiken über die Suchergebnisse.

  • Tycho Brahe Parsed Corpus of Historical Portuguese
    http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html

    Syntaktisch annotiert. Download möglich.

Spanisch

Weitere Ressourcen