Überblick
Überblick
Aktuelle Projekte
|
|
ANNIS ist ein browserbasiertes, Open-Source Such- und Visualisierungswerkzeug für komplexe linguistische Mehrebenenkorpora. ANNIS steht für Annotation der Informationsstruktur und wurde im Rahmen des SFB 632 "Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text" entwickelt. |
DDB |
Die DDB (Deutsche Diachrone Baumbank) ist ein kleines (ca. 8000 Token), syntaktisch tief annotiertes Korpus, bestehend aus drei Subkorpora unterschiedlicher Sprachstufen des Deutschen (Althochdeutsch, Mittelhochdeutsch, Frühneuhochdeutsch). Der Aufbau des Korpus orientiert sich im Wesentlichen am TIGER-Korpus, der größten frei erhältlichen Baumbank des Deutschen (http://www.ims.uni-stuttgart.de/projekte/TIGER/). DDB ist entstanden im Rahmen des vom Berliner Senat geförderten Projekts "Interdisziplinärer Forschungsverbund Linguistik – Bioinformatik zur Berechnung von Verwandtschaft und Abstammung".
|
empirikom |
Ziel des Netzwerks, das durch die Deutsche Forschungsgemeinschaft (DFG) gefördert wird, ist es, Kompetenzen aus germanistischer Sprachwissenschaft, Computerlinguistik, Informatik und Psychologie zu bündeln, um anhand einer Reihe konkreter Forschungsfragen Vorschläge für Standards zur Aufbereitung von Sprachdaten aus der deutschsprachigen internetbasierten Kommunikation zu erarbeiten und Methoden und Werkzeuge für deren empirische computergestützte Analyse zu entwickeln. Die Ergebnisse werden in Publikationen dokumentiert, die Vorschläge für Standards und Verfahren sollen sukzessive online bereitgestellt werden. |
|
|
Falko ist ein frei zugängliches fehlerannotiertes Lernerkorpus des Deutschen als Fremdsprache. http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko |
KOMPOST |
Mit Hilfe computerlinguistischer Methoden sollen Indikatoren für die Qualität von Schülertexten für die deutsche Sprache ermittelt und untersucht werden. Einen Schwerpunkt bildet die Veränderung der Werte der Qualitätsindikatoren über verschiedene Klassenstufen hinweg, d. h. die Entwicklung von beobachtbaren Ausprägungen von Textkompetenz im Längsschnitt. Als Ausgangsbasis stehen Aufsätze, Testergebnisse, Einstellungen und Informationen von Schülern aus der Hamburger Längsschnittuntersuchung KESS und weiteren Erhebungen zur Verfügung. Den Kern der Untersuchung bilden 8000 Aufsätze aus der 4., sowie 1000 Aufsätze aus der 8. Klasse, die in mehreren Dimensionen bewertet wurden. Sprachtestergebnisse derselben Schüler dienen als Außenkriterium zur Validierung der Textbewertungen und werden ebenfalls mit den Indikatoren in Beziehung gesetzt, um auf indirektem Weg zusätzliche Gesetzmäßigkeiten zu erkennen, die bei der bereits durchgeführten weniger objektiven und reliablen Bewertung durch menschliche Leser nicht gefunden werden können. Die eingesetzten Verfahren bilden den Ausgangspunkt für den Prototyp eines Onlinewerkzeugs, das im Dialog mit Schülern und Lehrern entwickelt wird und den Anwendern eine verständliche Rückmeldung übermittelt. Darüber hinaus sollen die Ergebnisse der Datenanalyse so aufbereitet werden, dass sie für die Weiterentwicklung von Kompetenzmodellen verwendet werden können. http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/kompost |
Laudatio |
LAUDATIO (Long term Access and Usage of Deeply Annotated Information) ist ein Projekt zur Entwicklung einer nachhaltigen und nutzerorientierten Speicherung von Forschungsdaten für die historische Linguistik. Das Projekt verfolgt das Ziel, für das Fachgebiet der historischen Linguistik eine Infrastruktur unter Einbeziehung eines Repository zu entwickeln, mit der fachspezifische Primärdaten in Form tief annotierter und komplex strukturierter Textkorpora erfasst, persistent gespeichert und jederzeit zugreifbar bereitgestellt werden. |
Netzwerk Kobalt-DAF |
Annotation und Analyse argumentativer Lernertexte
|
|
|
Das RIDGES-Projekt (Register in Diachronic German Science) untersucht die Entstehung und Entwicklung der deutschen Wissenschaftssprache ab Mitte des 16. Jahrhunderts bis ins späte 19. Jahrhundert. |
|
|
SaltNPepper stellt ein Framework für die Verarbeitung linguistischer Daten zur Verfügung und besteht aus dem Metamodell Salt und dem Konverterframework Pepper. Salt ist ein auf einem allgemeinen Graphen aufbauendes Metamodell zur Darstellung linguistischer Daten. Diese Daten werden dabei aufgrund ihrer strukturellen Eigenschaften als Knoten und Kanten repräsentiert. Die Beschränkung auf die strukturelle Repräsentation ermöglicht es mit Salt Daten aus sehr unterschiedlichen linguistischen Analysen, wie beispielsweise aus Diskursanalysen, syntaktischen Analysen, morphologischen Analysen etc. darzustellen. |
|
|
<tiger2/> ist ein standardkonformes XML-Format (SynAF Modell, ISO 24615:2010) für syntaktische Strukturen. <tiger2/> baut auf dem weit verbreiteten Format TigerXML (siehe http://www.ims.uni-stuttgart.de/projekte/TIGER/) auf. <tiger2/> ist theorieunabhängig, daher können unterschiedliche syntaktische Annotationen in <tiger2/> abgebildet werden. |
|
|
Ziel dieses Projekts ist es, diejenigen sprachlichen Strukturen im Deutschen ausfindig zu machen und zu untersuchen, die besondere Schwierigkeiten beim Erwerb des Deutschen als Fremdsprache bereiten. Solche Schwierigkeiten werden in der Regel durch Betrachtungen von Fehlern ermittelt (bspw. Borin & Prütz 2004 oder Westergren-Axelsson & Hahn 2001). Werden schwierige Strukturen von Lernern jedoch vermieden, scheitert dieser Ansatz. Daher vermuten wir, dass es für eine systematische Suche nach schwierigen Strukturen effektiver ist, deren relatives Vorkommen in Lernerdaten zu untersuchen. |