Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Software

Online-Werkzeuge

  • VIEW (Variation in Englisch Words and Phrases)
    http://view.byu.edu/

    Öffentlich zugängliches Web-Interface von Mark Davies zum Durchsuchen des BNC. Vielfältige Suchmöglichkeiten.

  • PIE (Phrases in English)
    http://pie.usna.edu/

    Öffentlich zugängliches Web-Interface von William H. Fletcher zum Durchsuchen des BNC. Erlaubt die Suche nach Wort-, Wortart- oder Zeichen-N-Grammen, sowie nach Phrasenrahmen.

  • The Sketch Engine
    http://www.sketchengine.co.uk/

    Die Sketch Engine von Adam Kilgarriff und Pavel Rychly ist eine Korpus-Suchmaschine, die Word Sketches, grammatische Relationen und einen distributionalen Thesaurus verbindet. Ein Word Sketch ist eine automatische, von Korpora abgeleitete Zusammenfassung auf einer Seite vom grammatischen und kollokationalen Verhalten eines Wortes. Kostenloser Test-Zugang nach Registrierung.

APIs und Frameworks

  • Annotation Graph Toolkit (AGTK)
    http://agtk.sourceforge.net/

    Freie Softwarebibliothek in C++ (Java-Port verfügbar) für die Verarbeitung von Annotationsgraphen. Annotationsgraphen sind ein formales Framework zur Repräsentation von linguistischen Annotationen von Daten mit einer zeitlichen Abfolge. Annotationsgraphen abstrahieren von Dateiformaten, Kodierungsrichtlinien und Nutzerschnittstellen und bieten eine logische Schicht für Annotationssysteme.

  • Atlas (Architecture and Tools for Linguistic Analysis Systems)
    http://www.nist.gov/speech/atlas/

    Software library in Java for the processing of annotation graphs. Altas provides a data model, a storage format, and an API.

  • LT XML
    http://www.ltg.ed.ac.uk/software/xml/

    Freie Softwarebibliothek in C für die Verarbeitung von XML-Dokumenten.

  • NITE XML Toolkit (NXT)
    http://www.ltg.ed.ac.uk/NITE/

    Softwarebibliothek in Java für die Entwicklung von maßgeschneiderten Korpuswerkzeugen mit einem Schwerpunkt auf stark strukturierten und/oder quer-annotierten multimodalen Korpora. NXT bietet ein Datenmodell, ein Speicherformat und eine Programmierschnittstelle, mit der sich Daten verarbeiten und abfragen sowie graphische Benutzerschnittstellen aufbauen lassen.

Werkzeuge zur Korpuserstellung

  • CLaRK
    http://www.bultreebank.org/clark/

    Ein XML-basiertes System zur Korpus-Erstellung.

  • CorpusExplorer
    http://www.CorpusExplorer.de
    Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte.
    Der CorpusExplorer vereint über 45 interaktiven Auswertungsmöglichkeiten
    mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise,
    Taggen oder die grafische Aufbereitung von Ergebnissen werden
    vollständig automatisiert. Die einfache Handhabung erleichtert den
    Einsatz in der universitären Lehre und führt zu schnellen sowie
    gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele
    Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein
    eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle
    Funktionen in eigene Programme zu integrieren.
  • GATE - General Architecture for Text Engineering
    http://gate.ac.uk/

    GATE ist ein modulares System zur linguistischen Verarbeitung von Texten. Es umfasst eine Architektur, Softwarebibliothek und graphische Benutzerschnittstelle. Durch Plugins können Anwendungen für eine bestimmte Annotationsaufgabe zusammengesetzt werden. GATE ist frei verfügbar unter der GNU Library General Public License (LGPL 2.0) und kann nach einer Registrierung heruntergeladen werden. Es ist in Java implementiert und daher für alle gängigen Plattformen verfügbar.

  • SPre - ein konsequent konfigurierbarer Präprozessor
    http://www.spinfo.phil-fak.uni-koeln.de/spinfo-forschung-spre.html

    SPre ist ein Programm, mit dem Texte beliebigen Formates segmentiert und annotiert werden können. Die Algorithmen zur Segmentierung sind mittels einer XML-Datei relativ frei konfigurierbar. Ebenso können eigene Annotatoren in das Projekt integriert werden. SPre wird zunächst als Plugin für GATE veröffentlicht. SPre ist in Java implementiert und daher für alle gängigen Plattformen verfügbar.

  • jTokeniser
    http://www.andy-roberts.net/software/jTokeniser/

    Programm und API zum Tokenisieren natürlicher Sprache. Verschiedene Tokeniser für die Segmentierung von Sätzen in Wörter und Texte und Sätze werden mitgeliefert. Geschrieben in Java, daher plattformunabhängig. Freie Software (LGPL).

Annotationswerkzeuge

  • Alembic Workbench Project
    http://www.mitre.org/tech/alembic-workbench/

    Werkzeug zur manuellen oder maschinellen Annotation von Textkorpora. Die maschinelle Annotation kann durch 2 Ansätze erfolgen: entweder werden Heuristiken zur Informationsextraktion manuell erstellt oder automatisch induziert. Kostenlos verfügbar.

  • PALinkA: A Discourse Annotation Tool
    http://clg.wlv.ac.uk/projects/PALinkA/

    Ein Annotationsprogramm mit einer Reihe verschiedener Annotationsmöglichkeiten: z.B. zur Annotierung von Anapher-Auflösung, Centering, Zusammenfassung u.a.

  • TASX (Time Aligned Signal data eXchange) zurzeit nicht erreichbar
    http://medien.informatik.fh-fulda.de/tasxforce

    TASX bietet ein XML-basiertes Speicherformat, Annotationstool und ein webbasiertes Abfragesystem für multimodale Korpora.

  • Annotate
    http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/annotate.html

    Annotate dient der komfortablen und effizienten, semi-automatischen Annotation von Korpusdaten. Es unterstützt die Erstellung kontextfreier Strukturen und erlaubt dabei zusätzlich kreuzende Kanten.

  • Synpathy
    http://www.mpi.nl/tools/synpathy.html

    Synpathy ist ein vom Max-Planck-Institut entwickeltes Annotationswerkzeug zur manuellen Erstellung und Bearbeitung von linguistisch annotierten Syntaxbäumen im Tiger-Format. Die annotierten Daten werden lokal in XML-Dateien gespeichert. Unterschiedliche Versionen für Windows, Mac und Linux sind alle frei verfügbar.

  • EXMARaLDA
    http://www.exmaralda.org/

    EXMARaLDA steht für "EXtensible MARkup Language for Discourse Annotation" und ist ein XML-basiertes System zur Diskurstranskription und -annotation auf dem Computer.

  • Transcriber
    http://www.etca.fr/CTA/gip/Projets/Transcriber/

    Werkzeug für die manuelle Annotation von Sprachsignalen. Graphische Benutzerschnittstelle um lange Sprachaufnahmen zu segmentieren, sie zu transkribieren sowie Sprecherwechsel, Topikwechsel und die akustischen Bedingungen zu annotieren. Das Werkzeug wurde in Hinblick auf die Transkribierung und Annotation von Radionachrichten entworfen, ist aber auch für andere Bereich der Sprachforschung geeignet.

  • Anvil
    http://www.dfki.de/~kipp/anvil/

    Anvil ist a freies Werkzeug zur Annotation von Video.

  • MMAX
    http://mmax.eml-research.de

    Ein Tool für multimodale Annotation in XML.

  • SALTO (das "SALSA Tool")
    http://www.coli.uni-saarland.de/projects/salsa/page.php?id=software

    Auf Java basierendes Tool für semantische Textannotationen. Eingabe- und Ausgabeformat ist Tiger XML. Auf Anfrage für wissenschaftliche Zwecke verfügbar.

  • Tree Editor TrED
    http://ufal.mff.cuni.cz/~pajas/tred/
    Erstellt Baumannotationen. Bevorzugtes Format ist Prague Markup Language (PML). Damit wurde die Prague Dependency Treebank erstellt. Frei unter der GPL für Windows, Mac und Linux verfügbar.

Tagger

Korpusanalyse

  • IMS Open Corpus Workbench (CWB)
    http://cwb.sourceforge.net/

    Die IMS Open Corpus Workbench (ehemals IMS Corpus Workbench) ist eine Sammlung von Werkzeugen für Volltext-Retrieval in Textkorpora. Der Corpus Query Processor (CQP) ist ein mächtiges Suchwerkzeug mit Unterstützung von regulären Ausdrücken, Suchbedingungen auf allen Annotationsebenen und Kollokationsanalyse. Kostenlose Forschungs- und Evaluationslizenzen.

  • WordSmith
    http://www.lexically.net/wordsmith/

    Kommerzielle Werkzeugsammlung zur Auswertung des Verhaltens von Wörtern in Text. Es gibt ein Werkzeug zur Erzeugung von Listen aller Wörter oder Wortcluster in einem Text, ein Konkordanzprogramm, um ein Wort in seinem Kontext zu zeigen, sowie ein Werkzeug zur Identifizierung von Schlüsselwörtern eines Textes. Demo-Modus verfügbar (eingeschränkter Funktionsumfang).

  • AntConc
    http://www.antlab.sci.waseda.ac.jp/software.html

    lizensfreie Konkordanz-Software; erstellt u.a. KWIC (key word in context), Wortclusters, N-gramme, Wordfrequenzen

  • TextSTAT - Simples Text Analyse Tool
    http://neon.niederlandistik.fu-berlin.de/de/textstat/

    freie Konkordanz-Software; erstellt u.a. KWIC (key word in context), Wortclusters, N-gramme, Wordfrequenzen, rückwärts/rückläufiges Sortieren

  • QLDB - Querying Linguistic Databases
    http://www.ldc.upenn.edu/Projects/QLDB/

    Projekt zu Datenmodellen und Abfragesprachen für linguistische Datenbanken.

  • An On-Line Repository of Association Measures
    http://www.collocations.de/AM/

    Das am meisten genutzte Werkzeug zur Analyse von Wort-Kombinationen und zur Extraktion von Kollokationen aus Textkorpora sind statistische
    Assoziationsmaße. Sie werden auf Kontingenztafeln angewandt, die Kookkurrenzhäufigkeiten enthalten.

  • The UCS Toolkit (version 0.3)
    http://www.collocations.de/

    Das UCS toolkit is eine Sammlung von libraries and Skripts für die statischse Analyse von Kookurenz-Daten.

Sonstiges