Software
Online-Werkzeuge
- VIEW (Variation in Englisch Words and Phrases)
http://view.byu.edu/Öffentlich zugängliches Web-Interface von Mark Davies zum Durchsuchen des BNC. Vielfältige Suchmöglichkeiten.
- PIE (Phrases in English)
http://pie.usna.edu/Öffentlich zugängliches Web-Interface von William H. Fletcher zum Durchsuchen des BNC. Erlaubt die Suche nach Wort-, Wortart- oder Zeichen-N-Grammen, sowie nach Phrasenrahmen.
- The Sketch Engine
http://www.sketchengine.co.uk/Die Sketch Engine von Adam Kilgarriff und Pavel Rychly ist eine Korpus-Suchmaschine, die Word Sketches, grammatische Relationen und einen distributionalen Thesaurus verbindet. Ein Word Sketch ist eine automatische, von Korpora abgeleitete Zusammenfassung auf einer Seite vom grammatischen und kollokationalen Verhalten eines Wortes. Kostenloser Test-Zugang nach Registrierung.
APIs und Frameworks
- Annotation Graph Toolkit (AGTK)
http://agtk.sourceforge.net/Freie Softwarebibliothek in C++ (Java-Port verfügbar) für die Verarbeitung von Annotationsgraphen. Annotationsgraphen sind ein formales Framework zur Repräsentation von linguistischen Annotationen von Daten mit einer zeitlichen Abfolge. Annotationsgraphen abstrahieren von Dateiformaten, Kodierungsrichtlinien und Nutzerschnittstellen und bieten eine logische Schicht für Annotationssysteme.
- Atlas (Architecture and Tools for Linguistic Analysis Systems)
http://www.nist.gov/speech/atlas/Software library in Java for the processing of annotation graphs. Altas provides a data model, a storage format, and an API.
- LT XML
http://www.ltg.ed.ac.uk/software/xml/Freie Softwarebibliothek in C für die Verarbeitung von XML-Dokumenten.
- NITE XML Toolkit (NXT)
http://www.ltg.ed.ac.uk/NITE/Softwarebibliothek in Java für die Entwicklung von maßgeschneiderten Korpuswerkzeugen mit einem Schwerpunkt auf stark strukturierten und/oder quer-annotierten multimodalen Korpora. NXT bietet ein Datenmodell, ein Speicherformat und eine Programmierschnittstelle, mit der sich Daten verarbeiten und abfragen sowie graphische Benutzerschnittstellen aufbauen lassen.
Werkzeuge zur Korpuserstellung
- CLaRK
http://www.bultreebank.org/clark/Ein XML-basiertes System zur Korpus-Erstellung.
- CorpusExplorer
http://www.CorpusExplorer.de
Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte.
Der CorpusExplorer vereint über 45 interaktiven Auswertungsmöglichkeiten
mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise,
Taggen oder die grafische Aufbereitung von Ergebnissen werden
vollständig automatisiert. Die einfache Handhabung erleichtert den
Einsatz in der universitären Lehre und führt zu schnellen sowie
gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele
Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein
eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle
Funktionen in eigene Programme zu integrieren. - GATE - General Architecture for Text Engineering
http://gate.ac.uk/GATE ist ein modulares System zur linguistischen Verarbeitung von Texten. Es umfasst eine Architektur, Softwarebibliothek und graphische Benutzerschnittstelle. Durch Plugins können Anwendungen für eine bestimmte Annotationsaufgabe zusammengesetzt werden. GATE ist frei verfügbar unter der GNU Library General Public License (LGPL 2.0) und kann nach einer Registrierung heruntergeladen werden. Es ist in Java implementiert und daher für alle gängigen Plattformen verfügbar.
- SPre - ein konsequent konfigurierbarer Präprozessor
http://www.spinfo.phil-fak.uni-koeln.de/spinfo-forschung-spre.htmlSPre ist ein Programm, mit dem Texte beliebigen Formates segmentiert und annotiert werden können. Die Algorithmen zur Segmentierung sind mittels einer XML-Datei relativ frei konfigurierbar. Ebenso können eigene Annotatoren in das Projekt integriert werden. SPre wird zunächst als Plugin für GATE veröffentlicht. SPre ist in Java implementiert und daher für alle gängigen Plattformen verfügbar.
- jTokeniser
http://www.andy-roberts.net/software/jTokeniser/Programm und API zum Tokenisieren natürlicher Sprache. Verschiedene Tokeniser für die Segmentierung von Sätzen in Wörter und Texte und Sätze werden mitgeliefert. Geschrieben in Java, daher plattformunabhängig. Freie Software (LGPL).
Annotationswerkzeuge
- Alembic Workbench Project
http://www.mitre.org/tech/alembic-workbench/Werkzeug zur manuellen oder maschinellen Annotation von Textkorpora. Die maschinelle Annotation kann durch 2 Ansätze erfolgen: entweder werden Heuristiken zur Informationsextraktion manuell erstellt oder automatisch induziert. Kostenlos verfügbar.
- PALinkA: A Discourse Annotation Tool
http://clg.wlv.ac.uk/projects/PALinkA/Ein Annotationsprogramm mit einer Reihe verschiedener Annotationsmöglichkeiten: z.B. zur Annotierung von Anapher-Auflösung, Centering, Zusammenfassung u.a.
- TASX (Time Aligned Signal data eXchange) zurzeit nicht erreichbar
http://medien.informatik.fh-fulda.de/tasxforceTASX bietet ein XML-basiertes Speicherformat, Annotationstool und ein webbasiertes Abfragesystem für multimodale Korpora.
- Annotate
http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/annotate.htmlAnnotate dient der komfortablen und effizienten, semi-automatischen Annotation von Korpusdaten. Es unterstützt die Erstellung kontextfreier Strukturen und erlaubt dabei zusätzlich kreuzende Kanten.
- Synpathy
http://www.mpi.nl/tools/synpathy.htmlSynpathy ist ein vom Max-Planck-Institut entwickeltes Annotationswerkzeug zur manuellen Erstellung und Bearbeitung von linguistisch annotierten Syntaxbäumen im Tiger-Format. Die annotierten Daten werden lokal in XML-Dateien gespeichert. Unterschiedliche Versionen für Windows, Mac und Linux sind alle frei verfügbar.
- EXMARaLDA
http://www.exmaralda.org/EXMARaLDA steht für "EXtensible MARkup Language for Discourse Annotation" und ist ein XML-basiertes System zur Diskurstranskription und -annotation auf dem Computer.
- Transcriber
http://www.etca.fr/CTA/gip/Projets/Transcriber/Werkzeug für die manuelle Annotation von Sprachsignalen. Graphische Benutzerschnittstelle um lange Sprachaufnahmen zu segmentieren, sie zu transkribieren sowie Sprecherwechsel, Topikwechsel und die akustischen Bedingungen zu annotieren. Das Werkzeug wurde in Hinblick auf die Transkribierung und Annotation von Radionachrichten entworfen, ist aber auch für andere Bereich der Sprachforschung geeignet.
- Anvil
http://www.dfki.de/~kipp/anvil/Anvil ist a freies Werkzeug zur Annotation von Video.
- MMAX
http://mmax.eml-research.deEin Tool für multimodale Annotation in XML.
- SALTO (das "SALSA Tool")
http://www.coli.uni-saarland.de/projects/salsa/page.php?id=softwareAuf Java basierendes Tool für semantische Textannotationen. Eingabe- und Ausgabeformat ist Tiger XML. Auf Anfrage für wissenschaftliche Zwecke verfügbar.
- Tree Editor TrED
http://ufal.mff.cuni.cz/~pajas/tred/
Erstellt Baumannotationen. Bevorzugtes Format ist Prague Markup Language (PML). Damit wurde die Prague Dependency Treebank erstellt. Frei unter der GPL für Windows, Mac und Linux verfügbar.
Tagger
- TreeTagger
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Trainierbarer Tagger auf Basis von Entscheidungsbäumen. Part-Of-Speech-Parametersätze sind für Englisch, Deutsch, Französisch und Italienisch verfügbar.
- HMM-based tagger MBT
http://ilk.kub.nl/Memory Based Tagger. Zum Download unter "Software". Dutch, English, Spanish, Swedish, and German
- AMALGAM Tagger
http://www.comp.leeds.ac.uk/amalgam/amalgam/amalghome.htmDer AMALGAM Tagger basiert auf Brills Tagger und taggt englische Texte mit den Wortart-Tagsets des Brown Corpus (Brown), International Corpus of English (ICE), Lundon-Lund Corpus (LLC), Lancaster-Oslo/Bergen Corpus (LOB), UNIX parts (Parts), Polytechnic of Wales Corpus (POW), Spoken English Corpus (SEC), and University of Pennsylvania Corpus (UPenn). AMALGAM Tagger kann nur via email benutzt werden.
- Monty Tagger
http://web.media.mit.edu/~hugo/montytagger/Monty tagger ist Teil der MontyLingua-Werkzeuge. Erweiterung von Brills Tagger.
- claws
http://www.comp.lancs.ac.uk/ucrel/claws/ - CoCab
http://chasen.aist-nara.ac.jp/~kaoru-ya/cocab/biomedizinisches Vokabular
- connexor-tagger
http://www.connexor.com/mit einem kleinen Tagset
- EngCG-tagger
http://www.ling.helsinki.fi/~avoutila/cg/ - QTag
http://phrasys.net/uob/om/software Trainierbarer, probabilistischer Part-Of-Speech-Tagger. Parametersätze für's Englische sind vorhanden.
- LT POS-Tagger
http://www.ltg.ed.ac.uk/software/pos/index.htmlbenutzt den Penn Treebank set, akzeptier sowohl Plaintext als auch smgltext.
- ISSCO TaggerTool
http://www.issco.unige.ch/staff/robert/tatoo/tatoo.html - Brill Tagger
http://www.cs.jhu.edu/~brill/Transformationsbasierter Tagger.
- mtag Multext-Tagger
http://www.issco.unige.ch/projects/MULTEXT.htmlre-implementation of the Xerox tagger in C
- TnT
http://www.coli.uni-sb.de/~thorsten/tnt/statistisch, von Thorsten Brants; für Windows, deutsch, englisch
- AUTASYS
http://www.phon.ucl.ac.uk/home/alex/project/tagging/tagging.htmEin System zur automatischen analyse Englischer Wortklassen.
- GALENA
http://www.dc.fi.udc.es/lfcia/Proyectos/Galena/Tagger und Parser für Spanisch. Für verschiedene Plattformen. 7000 Lemmas.
Korpusanalyse
- IMS Open Corpus Workbench (CWB)
http://cwb.sourceforge.net/Die IMS Open Corpus Workbench (ehemals IMS Corpus Workbench) ist eine Sammlung von Werkzeugen für Volltext-Retrieval in Textkorpora. Der Corpus Query Processor (CQP) ist ein mächtiges Suchwerkzeug mit Unterstützung von regulären Ausdrücken, Suchbedingungen auf allen Annotationsebenen und Kollokationsanalyse. Kostenlose Forschungs- und Evaluationslizenzen.
- WordSmith
http://www.lexically.net/wordsmith/Kommerzielle Werkzeugsammlung zur Auswertung des Verhaltens von Wörtern in Text. Es gibt ein Werkzeug zur Erzeugung von Listen aller Wörter oder Wortcluster in einem Text, ein Konkordanzprogramm, um ein Wort in seinem Kontext zu zeigen, sowie ein Werkzeug zur Identifizierung von Schlüsselwörtern eines Textes. Demo-Modus verfügbar (eingeschränkter Funktionsumfang).
- AntConc
http://www.antlab.sci.waseda.ac.jp/software.htmllizensfreie Konkordanz-Software; erstellt u.a. KWIC (key word in context), Wortclusters, N-gramme, Wordfrequenzen
- TextSTAT - Simples Text Analyse Tool
http://neon.niederlandistik.fu-berlin.de/de/textstat/freie Konkordanz-Software; erstellt u.a. KWIC (key word in context), Wortclusters, N-gramme, Wordfrequenzen, rückwärts/rückläufiges Sortieren
- QLDB - Querying Linguistic Databases
http://www.ldc.upenn.edu/Projects/QLDB/Projekt zu Datenmodellen und Abfragesprachen für linguistische Datenbanken.
- An On-Line Repository of Association Measures
http://www.collocations.de/AM/Das am meisten genutzte Werkzeug zur Analyse von Wort-Kombinationen und zur Extraktion von Kollokationen aus Textkorpora sind statistische
Assoziationsmaße. Sie werden auf Kontingenztafeln angewandt, die Kookkurrenzhäufigkeiten enthalten. - The UCS Toolkit (version 0.3)
http://www.collocations.de/Das UCS toolkit is eine Sammlung von libraries and Skripts für die statischse Analyse von Kookurenz-Daten.
Sonstiges
- STTS (Stuttgart-Tübingen-TagSet)
http://www.ims.uni-stuttgart.de/projekte/corplex/TagSets/stts-table.htmlSTTS ist eine Wortart-Klassifikation für das Deutsche. Verweise zu anderen Tagsets.