Korpora
Übersicht
Synchron
Deutsch
- DWDS-Kernkorpus
http://www.dwds.de/resource/kerncorpus/Korpus der Berlin-Brandenburgischen Akademie der Wissenschaften, auf dessen Grundlage das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) erstellt wurde.
- Projekt Deutscher Wortschatz
http://wortschatz.uni-leipzig.de/Deutscher Wortschatz Online. Enthält 35 Millionen Sätze mit 500 Millionen Wörtern.
- Hamburg Dependency Treebank
http://hdl.handle.net/11022/0000-0000-7FC7-2The Hamburg Dependency Treebank is to our knowledge the largest dependency treebank available (at the date of its publication). It consists of genuine dependency annotations, i.e. they have not been transformed from phrase structures. The sentences were all sourced from the German news site heise.de, from articles published between 1996 and 2001. The mapping from sentences to articles and authors is retained, allowing, e.g. analysis of individual style. The creation of the treebank through manual annotation was largely interleaved with the creation of a standard for morphologically and syntactically annotating sentences as well as a constraint-based parser.
- IDS-Korpora
http://www.ids-mannheim.de/kt/corpora.htmlKorpora des Instituts für Deutsche Sprache. Es handelt sich um die weltweit größte Sammlung von deutschsprachigen Textkorpora als empirische Basis für die linguistische Forschung. Online-Recherche ist mit COSMAS II möglich.
- LIMAS-Korpus
http://www.korpora.org/Limas/Repräsentatives Zeitschnittkorpus der deutschen Gegenwartssprache (Schriftsprache) von 1970: Es handelt sich um eine Auswahl von 500 Texten, respektive Textfragmenten, verschiedener Textsorten mit insgesamt 1 Million Wortformen. Das Korpus kann in seiner Gesamtheit im WWW recherchiert werden.
- Korpus Südtirol
http://www.korpus-suedtirol.it/index_DEEine Initiative zur Sammlung, Archivierung und korpuslinguistischen Erschließung von südtiroler deutschsprachigen Texten.
Englisch
- British National Corpus (BNC)
http://www.natcorp.ox.ac.ukDas British National Corpus enthält 100 Millionen Wörter geschriebener und gesprochener Sprache aus verschiedensten Bereichen und soll das derzeitige British English repräsentieren. Eine CD ist erhältich.
- American National Corpus (ANC)
http://americannationalcorpus.org/Das ANC-Projekt peilt die Entwicklung eines Korpus vergleichbar dem BNC an.
- Loyola Computer-Mediated Communication Corpus
http://cmccorpus.cs.loyola.edu/900 Textproben computervermittelter Kommunikation aus dem Loyola College in Baltimore (Maryland, USA)
-
Michigan Corpus of Academic Spoken English: MiCASE
http://quod.lib.umich.edu/m/micase/Online abfragbar; freier Zugang. flach annotiert.Metadaten 152 Transkriptionen ( 1,848,364 Wörter)
- International Corpus of English (ICE)
http://ice-corpora.net/ice/Korpora regionaler Varietäten des Englischen. Jedes Korpus enthält eine Million Wörter, sowohl gesprochen als auch geschrieben, erhoben nach 1989. Vereinheitliches Korpusdesign und Annotationsschema. Viele der Korpora sind zum Zweck der akademischen Forschung frei verfügbar nach Anmeldung.
Finnisch
- The Advanced Finnish Learners’ Corpus
http://www.hum.utu.fi/oppiaineet/suomi/en/research/Siitonen_Ivaska.htmlLongitudinalkorpus mit Texten von Lernern der finnischen Sprache im MA-Studiengang.
Französisch
- Corpus de Référence du Français parlé
http://sites.univ-provence.fr/delic/corpus/index.html440.000 Wörter, 134 Aufnahmen, über 36 Stunden gesprochener Sprache
- Un corpus d’entretiens spontanés
http://www.llas.ac.uk/resources/mb/8095 Unterhaltungen bzw. Sprecher
Italienisch
- CORpus di Italiano Scritto (CORIS)
http://corpora.dslo.unibo.it/coris_eng.html100 Millionen Wörter.
- Banca dati dell'italiano parlato (BADIP)
http://languageserver.uni-graz.at/badip/badip/home.phpDiverse italienische gesprochene Korpora
- Corpus OVI dell'Italiano antico (corpus TLIO)
http://www.vocabolario.org/
21,817,929 Wörter in 1978 Texten
Katalanisch
- Corpus del català contemporani
http://www.ub.edu/cccub/Korpus der katalanischen gesprochenen Umgangsprache.
Russisch
- Narusco
http://narusco.ru/Nationales Korpus der russischen Literatursprache
Schwedisch
- The Bank of Swedish
http://spraakbanken.gu.se/Eine linguistische Referenzdatenbank der Göteborg-Universität.
Spanisch
- Arthus
http://www.bds.usc.es/corpus.htmlDiverse Textsorten. Zeitgenossisch. Alle eingescannt.
Tschechisch
- Cesky Národní Korpus (CNK)
http://ucnk.ff.cuni.czTschechisches Nationalkorpus. Eine Abfrage ist online möglich oder mit "Bonito".
Türkisch
- Nationales Korpus des Türkischen
http://www.tnc.org.tr/
Multilinguale Korpora
- OPUS - Open source Parallelkorpus
http://urd.let.rug.nl/tiedeman/OPUS/OPUS enthält 30 Millionen Wörter in 60 Sprachen. Das Korpus besteht aus der Office.org Dokumentation (OO), PHP manuals (PHP) and KDE manuals (KDEdoc) inklusive KDE Systemnachrichten.
- Multext Project
http://www.lpl.univ-aix.fr/projects/multext/Multilinguale Texttools und Korpora
- Multext-East
http://nl.ijs.si/ME/MULTEXT-East ist ein 6 Sprachenkorpus: Bulgarisch, Tschechisch, Estonisch, Ungarisch, Rumänisch und Slovenisch und Englisch als die 'hub' -Sprache des Projekts
- Bohemica.com
http://www.bohemica.com/index.phpTschechisch-englisches aligniertes Übersetzungskorpus. Insgesamt 100,000 Wörter. Es besteht aus 24 Schriftstücken zwischen 1000 und 4000 Wörtern. Es enthält enthält sowohl fiction als auch non-fiction und steht zum Download zur Verfügung.
Diachron
Deutsch
- Bibliotheca Augustana
www.fh-augsburg.de/~harsch/augustana.htmllitteraturae et artis collectio
- Kali Korpus
www.kali.uni-hannover.deDas Kali-Korpus (Kali: "Korpusarbeit Linguistik") ist ein teilannotiertes diachrones Korpus des Deutschen für Forschung und Lehre, das seit Ende 2003 am Deutschen Seminar der Universität Hannover unter der Leitung von Prof. Dr. Gabriele Diewald aufgebaut wird.
- Textkorpus von Thomas Gloning
http://www.uni-giessen.de/gloning/etexte.htmfrei zugänglich
- Bochumer Mittelhochdeutsch Korpus
http://www.ruhr-uni-bochum.de/wegera/archiv_1.htm - Mittelhochdeutsche Begriffsdatenbank (MHDBDB)
http://mhdbdb.sbg.ac.atEnthält 4.7 Millionen Wörter
- CEEC (Codices Electronici Ecclesiae Coloniensis)
http://www.ceec.uni-koeln.deIm Rahmen des Projektes CEEC werden die mittelalterlichen Kodizes der Erzbischöflichen Diözesan- und Dombibliothek Köln (DDB) digitalisiert.
- TITUS
http://titus.uni-frankfurt.de/indexd.htmThesaurus Indogermanischer Text- und Sprachmaterialien
- mediavum
http://www.mediaevum.deviele Links zu historischen Texten
Englisch
- Penn-Helsinki Parsed Corpus of Middle English
http://www.ling.upenn.edu/midengDas Korpus enthält Prosa-Beispiele und ist syntaktisch annotiert. Diese syntaktischen Strukturen sind auch abfragbar. CD-ROM
- Brooklyn-Geneva-Amsterdam-Helsinki Parsed Corpus of Old English
http://www-users.york.ac.uk/~sp20/corpus.htmlDas Korpus enthält Prosa-Beispiele und ist syntaktisch annotiert. Diese syntaktischen Strukturen sind auch abfragbar. CD-ROM
- Lampeter Corpus of Early Modern English
http://khnt.hit.uib.no/icame/manuals/LAMPETER/LAMPHOME.HTMTextsammlung aus verschiedenen Bereichen, die zwischen 1640 und 1740 publiziert wurden.
- Corpus of Early English Correspondence (CEEC)
http://www.helsinki.fi/varieng/domains/CEEC.html2.7 Millionen Wörter. Texte von 1417 bis 1681.
- The English language of the north-west in the late Modern English period: A Corpus of late 18c Prose
http://www.llc.manchester.ac.uk/subjects/lel/staff/david-denison/corpus-late-18th-century-prose/Ca. 300,000 Wörter. Briefe von 1761 bis 1789.
- Corpus of Early Modern Playtexts in English: KEMPE
http://corp.hum.sdu.dkOnline abfragbar; freier Zugang. pos- und syntaktisch annotiertes Korpus mit 8.9 Millionen Wörtern.
Französisch
- Frantext
http://zeus.inalf.fr/frantext.htmhttp://setis.library.usyd.edu.au/frantext (Beschreibung)
Italienisch
- Corpus OVI dell'Italiano antico (corpus TLIO)
http://www.vocabolario.org/
21,817,929 Wörter in 1978 Texten
Ladinisch
- Corpus dl ladin leterar
http://vll.ladintal.it/applications/textanalysis/search.jsp
- Wörterbuch Vocabolar dl ladin leterar
http://vll.smallcodes.com
Niederländisch
- Taalbank
http://gtb.inl.nl/
Portugiesisch
- O Corpus do Portugues
http://www.corpusdoportugues.org/Das Korpus besteht aus 45 Millionen Wörtern, aus 50.000 portugiesischen Texten des 14. bis 20. Jahrhunderts. Es ist mit Lemma- und Part-of-Speech-Informationen annotiert. Ein sehr mächtiges Webinterface erlaubt die Suche nach diesen Informationen, die Einschränkung der Suche auf Texten aus bestimmten Registern, Dialekten oder Zeitperioden und die Berechnung von Statistiken über die Suchergebnisse.
- Tycho Brahe Parsed Corpus of Historical Portuguese
http://www.tycho.iel.unicamp.br/~tycho/corpus/index.htmlSyntaktisch annotiert. Download möglich.
Spanisch
- Corpus del espanol (RAE)
http://www.corpusdelespanol.org/Von 1200 bis 2000.
Weitere Ressourcen
- Technical Report "Eine vergleichende Analyse von historischen und diachronen digitalen Korpora"
http://www.deutschdiachrondigital.de/publikationen/TRHistorischeKorpora.pdf.Von Emil Kroymann, Sebastian Thiebes, Anke Lüdeling, Ulf Leser. Institut für Informatik der Humboldt Universität zu Berlin, Technischer Report 174.
- Internet Grammar
http://www.tu-chemnitz.de/phil/english/InternetGrammar/shared/Deutsch-Englisches Übersetzungskorpus. Es enthält Texte der letzten 15 Jahre aus Politik, Tourismus sowie akademische Texte - je 1 Million Wörter pro Sprache.
- A Glossarial DataBase of Middle English
http://www.hti.umich.edu/english/gloss - Johnson's Dictionary
http://www.hti.umich.edu/english/johnsonZugang mit einem Passwort möglich
- Dictionnaire du Moyen francais
http://atilf.atilf.fr/dmf.htm - Middle English
http://ets.umdl.umich.edu/m/mec/Elektronische Version des Middle English Dictionary
- The Perseus Digital Library
http://www.perseus.tufts.edu/ - Celt Corpus of Electronic Texts
http://www.ucc.ie/celt/Online-Ressource für irische Geschichte, Literatur and Politik
- Medievaland Early Modern Data Bank (MEMDB)
http://www.scc.rutgers.edu/memdb/ - The Thesaurus Linguae Graecae (TLG)
http://www.tlg.uci.edu/Literarische Texte auf Griechisch
- The Early Modern English Dictionaries Database (EMEDD)
http://www.chass.utoronto.ca/~ian/emedd.html - The Patrologia Latina Database (PLD)
http://etext.virginia.edu/pld.htmlPatrologiae enthält die einflussreichsten Werke aus der alt- und mittlealterlichen Theologie, Philosophie, Geschichte und Literatur. Kommerziell.
- A Dictionary of the Welsh Language
http://www.aber.ac.uk/~gpcwww/ - Thesaurus Lingua Aethiopicae
http://www.uni-mainz.de/Organisationen/TLA/index.html - Lateinische und griechische Texte
http://www.ulg.ac.be/cipl/bdlasla/ - Wörterbuchnetz
http://www.woerterbuchnetz.de/Wörterbuchnetz
- Electronic Text Corpus of Sumerian Literature (ETCSL)
http://etcsl.orinst.ox.ac.uk/Transkription von Tontäfelchen mit über 350 literarischen Werken aus Mesopotamien (heutiges Irak) in sumerischer Sprache, spätes 3. und frühes 2. Jhd. v. Chr.