Sprach- und literaturwissenschaftliche Fakultät - Sprachgeschichte

Komplexe Datenbasen (2003-2006)


 

Forschungsverbund

  • Komplexe Datenbasen zur Rekonstruktion und Simulation evolutionärer Prozesse
  • Projektleiter:
    - Prof. Dr. Karin Donhauser (Sprachgeschichte)
    - Prof. Dr. Anke Lüdeling (Korpuslinguistik)
    - Prof. Dr. Ulf Leser (Bioinformatik)
  • Fördereinrichtung:
    Senatsverwaltung für Wissenschaft und Forschung des Landes Berlin, 2003–2006

 

Kurzbeschreibung

Ziel dieses Projekts die Etablierung eines interdisziplinären Forschungsverbundes mit dem Thema Berechnung von Verwandtschaft und Abstammung. Beteiligt sind die Disziplinen Linguistik, Korpuslinguistik, Informatik und Bioinformatik. Mit der Etablierung dieses Netzwerkes wollen wir eine Brücke schlagen von den Philologien über die Linguistik und Informatik bis hin in die Lebenswissenschaften. Wir verbinden dabei in einer für die aktuelle Forschungslandschaft ungewöhnliche Weise erneut geistes- und naturwissenschaftliche Disziplinen, die bezogen auf diese Zielsetzung bereits Anfang des 19. Jahrhunderts erfolgreich zusammengearbeitet haben und die nun vor Aufgaben stehen, die eine Erneuerung der Zusammenarbeit sinnvoll, wenn nicht sogar notwendig erscheinen lassen.

Genau wie die Linguistik/Korpuslinguistik steht auch die Biologie/Bioinformatik vor der Aufgabe, große Mengen von Zeichenketten zu analysieren und zu verarbeiten. Die Zeichenketten sind mit Metadaten zu versehen und in Datenbanken abzulegen und einer Vielzahl von Benutzern mit unterschiedlichen Interessen zugänglich zu machen. Während die Bioinformatik diese Zeichenketten (genomische DNA) unter anderem mit dem Ziel untersucht, ähnliche Teilzeichenketten zu finden, um beispielsweise die Verwandtschaftsbeziehungen von Genen oder Spezies aufzuklären, analysiert die Linguistik Zeichenketten (Wörter, Sätze und Texte) mit dem sehr ähnlichen Ziel, Verwandtschaft zwischen Sprachen und Transformationsprozes-se von lexikalischen und grammatischen Strukturen (Sprachwandel) zu verstehen. Beide Forschungsgebiete sind heute undenkbar geworden ohne modernste Methoden der Informatik, stellen andererseits die Informatik aber auch vor neue und interessante Fragestellungen, beispielsweise im Bereich der Mustersuche in Strings (Bioinformatik) oder des maschinellen Textverstehens (Linguistik).

Die beteiligten Forscher und Forscherinnen sind Experten auf ihren jeweiligen Gebieten. Sie haben sich zusammengefunden bei der Vorbereitung eines bundesweiten interdisziplinären Großprojektes, dessen Ziel es ist, ein historisches Referenzkorpus für das Deutsche aufzubauen, in dem die Textüberlieferung des Deutschen von ihren Anfängen um 800 bis in die Gegenwart in digitaler Form erschlossen und unter Einsatz modernster sprachtechnologischer, korpuslinguistischer und informatischer Methoden und Verfahren so aufbereitet werden soll, dass sie einer möglichst breiten Nutzergemeinde zur Verfügung steht. Mit dem Aufbau und der Etablierung eines interdisziplinären Forschungsverbundes sollen die erforderlichen wissenschaftlichen und wissenschaftlich-methodischen Sondierungen intensiviert, die tragende interdisziplinäre Kooperationsstruktur entwickelt sowie die bestehende erfolgreiche Zusammenarbeit vertieft und erweitert werden.