Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Dr. phil. Anna Shadrova

Wiss. Mitarbeiterin Forschungsgruppe RUEG (Korpuslinguistik, insb. quantitative Methodologie, L2-Erwerb, Multilingualismus, Lexikosyntax, Variation)

 

Kontakt



Dorotheenstraße 24
Raum 3.333
10117 Berlin - Mitte

anna [punkt] shadrova [ät] hu-berlin [punkt] de
Postanschrift:

c/o Institut für deutsche Sprache und Linguistik
Sprach- und Literaturwissenschaftliche Fakultät
Humboldt-Universität zu Berlin
Unter den Linden 6
D-10099 Berlin

Interessen

Korpuslinguistik, insb. Methdologie und epistemologische Einbettung, Datenmodellierung, quantitative Methoden in kleinen und mittelgroßen Korpora (SMISC); Formalisierung gebrauchsbasierter Methoden, Multilingualismus, L2-Erwerb und Interlanguage, Lexikosyntax, linguistische Variation, Schnittstellenphänomene aus gebrauchsbasierter Perspektive,

Aktuelle Projekte

RUEG - Research Unit Emerging Grammars: Projekt Corpus-linguistic methods (Pc)

Die Forschungsgruppe RUEG beschäftigt sich mit emergierenden Mustern und Variation in der mehrsprachigen Ausgangslage von Herkunftssprecher*innen des Türkischen, Russischen und Griechischen in Russland, des Deutschen in den USA, und den jeweiligen monolingualen Vergleichsgruppen aus Russland, Griechenland, der Türkei und den USA. RUEG betrachtet vielfältige der Grammatik und des Lexikons.

Die Forschung in RUEG basiert auf einem vielschichtigen Korpus, das Daten aus formalen und informellen sowie mündlichen und schriftlichen Erhebungssettings enthält und Erhebungen in der Majoritäts- und Herkunftssprache der bilingualen Teilnehmer*innen enthält. Darüber hinaus betrachten wir potentielle Unterschiede nach Geschlecht und Alter und verschiedene Vitalitätsgrade der Herkunftssprache in den jeweiligen Communities.

Diese Komplexität erfordert eine adäquate technische Repräsentation sowie ein hohes Maß an methodischer und methodologischer Einbettung. Das ist der Arbeitsschwerpunkt von Pc. Unser Fokus liegt auf der Entwicklung von validen quantitativen Methoden für komplex verwobene, aber im Umfang kleinere bis mittelgroße Korpusdaten. Dafür beschäftigen wir uns mit der Nutzbarmachung von Graphmetriken und Methoden der Netzwerkanalyse für kernlinguistische Fragestellungen; mit dem Potential Bayesscher Statistik im Vergleich mit komplexer frequentistischer Statistik (insbesondere Mixed-Effect Modeling), der Anwendung von Techniken des Maschinellen Lernens zum Erkenntnisgewinn sowie Informationsextraktion aus introspektiven Methoden; und die Optimierung von NLP-Anwendungen für kleinere Daten.

Publikationen, Ressourcen und Vorträge

Artikel in peer-reviewed Journals


Shadrova, A., Linscheid, P., Lukassek, J., Lüdeling, A., & Schneider, S. (2021). A Challenge for Contrastive L1/L2 Corpus Studies: Large Inter- and Intra-Individual Variation Across Morphological, but Not Global Syntactic Categories in Task-Based Corpus Data of a Homogeneous L1 German Group. Frontiers in Psychology, 12, 5267. doi:10.3389/fpsyg.2021.716485

Wendel, L., A. Shadrova & A. Tischbirek (in press): From modeled topics to areas of law: A comparative analysis of types of proceedings in the German Federal Constitutional Court. German Law Journal.

Shadrova, A. (2021): Topic models do not model topics: epistemological remarks and steps towards best practices. Journal of Data Mining and Digital Humanities 2021, https://doi.org/10.46298/jdmdh.7595, Source : oai:HAL:hal-03261599v3

Ighreiz, A., C. Möllers, L. Rolfes, A. Shadrova & A. Tischbirek (2020): Karlsruher Kanones: Selbst- und Fremdkanonisierung der Rechtsprechung des Bundesverfassungsgerichts. Archiv des öffentlichen Rechts Jahrgang 145 (2020) / Heft 4, S. 537-613 (77), https://doi.org/10.1628/aoer-2020-0026

Lüdeling, Anke; Hirschmann, Hagen & Shadrova, Anna (2017) Linguistic Models, Acquisition Theories, and Learner Corpora: Morphological Productivity in SLA Research Exemplified by Complex Verbs in German. Language Learning Special Issue on Language learning research at the intersection of experimental, corpus-based and computational methods: Evidence and interpretation 67 (S1),  96-129.

 

Beiträge auf Einladung und peer-reviewed Proceedings

Shadrova, A. (in press): It may be in the structure, not the combinations: Graph metrics as an alternative to statistical measures in corpus-linguistic research. DhD Graph Proceedings 2019/2020.

Lüdeling, Anke, Hagen Hirschmann, Anna Shadrova & Shujun Wan (2021): Tiefe Analyse von Lernerkorpora. In H. Lobin, A. Witt & A. Wöllstein (Ed.), Deutsch in Europa (pp. 235-284). Berlin, Boston: De Gruyter. https://doi.org/10.1515/9783110731514-013

Thomas, E. M., Cantone, K. F., Davies, S., & Shadrova, A. (2014). Cross-linguistic influence and patterns of acquisition: The emergence of gender and word order in German-Welsh bilinguals. In: E. M. Thomas and I. Mennen (Eds.): Advances in the Study of Bilingualism, p. 41-62. Clevedon: Multilingual Matters.
 

Abschlussarbeiten

Shadrova, Anna (2020): Measuring coselectional constraint in learner corpora: A graph-based approach. Univ.-Dissertation: Humboldt-Universität zu Berlin, http://dx.doi.org/10.18452/21606.

Shadrova, A. (2013): Mehr Chunks! – Entwicklungsperspektiven für die Konstruktionsgrammatik unter Einbeziehung von Phraseologie, Psycholinguistik und L2-Erwerbsforschung. Masterarbeit, Humboldt-Universität zu Berlin, http://dx.doi.org/10.18452/14224.
 

Ressourcen

[Korpus und Annotationsrichtlinien] Shadrova, Anna. (2021). Kobalt: Extension Corpus and Annotation Guidelines for Verb Classification and Dependency Adjustments (1.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.5730224

[Analysedaten] Shadrova, Anna, Linscheid, Pia, Lüdeling, Anke, Lukassek, Julia, & Schneider, Sarah. (2021). Additional Data to "A Challenge for Contrastive L1/L2 Corpus Studies" [Data set]. Zenodo. https://doi.org/10.5281/zenodo.4752308

[Korpus, Skripte und Analysedaten] Shadrova, Anna (2020): Extended Kobalt-DaF corpus, scripts for pre-processing and analysis, extracted lexicosyntactic graphs (JSON), and R-plots from PhD thesis and beyond: https://doi.org/10.5281/zenodo.3584091

[Korpus] Möllers, Christoph, Anna Shadrova & Luisa Wendel (2021): BVerfGE-Korpus 1.0. Mit freundlicher Unterstützung des Mohr-Siebeck-Verlags. https://doi.org/10.5281/zenodo.4551408

[Analysedaten] Ighreiz, Ali, Christoph Möllers, Lous Rolfes, Anna Shadrova & Alexander Tischbirek (2021): Karlsruher Kanones? Netzwerke, Tabellen und Analyseplots. https://doi.org/10.5281/zenodo.4464810

Workshops

Klotz, Martin, Anke Lüdeling & Anna Shadrova (2021): Contrastive Corpus Methodology for Language Modeling and Analysis. DGfS-Kurz AG, 43. DGfS-Jahrestagung:
Modell und Evidenz / Model and Evidence, Universität Freiburg, 23.-26. Februar 2021

Krause, Thomas & Anna Shadrova (2016) Korpus III: Einführung in die Annis-API mit Python. Linguistischer Methodenworkshop 2016, Institut für deutsche Sprache und Linguistik. Humboldt-Universität zu Berlin, 23.02.2016.

Shadrova, Anna & Thomas Krause (2016) Korpus II: Frequenzanalyse, Dependenzen, Metadatensuche mit Annis. Linguistischer Methodenworkshop 2016, Institut für deutsche Sprache und Linguistik. Humboldt-Universität zu Berlin, 23.02.2016.

Vorträge

[Vortrag] Shadrova, Anna, Martin Klotz & Anke Lüdeling (2021): Linguistic Modeling and Analysis. Opening talk for DGfS Kurz-AG Contrastive Corpus Methodology for Language Modeling and Analysis.

[Öffentliche Verteidigung] Shadrova, Anna (2020): Interlanguage-Effekte in L1 und L2: Eine graphbasierte lexikosyntaktische Betrachtung anhand geschriebener Korpusdaten aus Falko und RUEG, HU Berlin, 10.07.2020.

[Vortrag] Shadrova, Anna (2020): No free lunch: Ob und wie Topic Modeling und andere probabilistische Informationsexktraktionsverfahren zum Erkenntnisgewinn genutzt werden können. Korpuslinguistisches Kolloquium, HU Berlin, 08.07.2020.

[Konferenzvortrag] Shadrova, Anna (2020): Graph metrics as an alternative to statistical
measures in linguistic research. Graph Technologies in the Digital Humanities 2020, Wien, 21.02.2020.

[Vortrag] Shadrova, Anna (2020): Korpuslinguistische Modellierung juristischer
Fragen in einem Korpus von BVerfG-Entscheidungen. Korpuslinguistisches Kolloquium, HU Berlin, 22.01.2020.

[Vortrag] Shadrova, Anna (2019): Individuelle Varianz und Textlängeneffekte:
Wie geht Sampling in Lernerkorpora? Korpuslinguistisches Kolloquium, HU Berlin, 05.06.2019.

[Vortrag] Lüdeling, Anke & Anna Shadrova (2020): Forschungsfragen, Modelle, Auswertung. Möglichkeiten und Grenzen der korpusgestützten Textanalyse. Workshop "Methoden quantitativer Textanalyse", Berlin, 21.11.2019.

[Vortrag] Tischbirek, Alexander & Anna Shadrova (2020): Karlsruher Kanones? Selbst- und Fremdkanonisierung der Rechtsprechung des BVerfG. Workshop "Methoden quantitativer Textanalyse", Berlin, 21.11.2019.

[Konferenzvortrag] Shadrova, Anna (2019): U-shaped learning of verb argument
coselection in learners of German. Learner Corpus Research 2019, Warschau, 13.09.2019.

[Vortrag] Shadrova, Anna (2018): Lernerkorpora: Mehrebenenannotation und Zielhypothesen als Such- und Analysewerkzeug. Workshop "Von Lernerdaten zu Lernerkorpora", Schloss Rauischholzhausen, 12.07.2018.

[Vortrag] Shadrova, Anna (2017): Korpuslinguistische Kollokationsanalyse als Trendscout-Analyse zum Förderprogramm „Industrielle Gemeinschaftsforschung – IGF“. Vortrag beim IGF-Arbeitstreffen am BWMI, 04.10.17.

[Vortrag] Shadrova, Anna (2017): Lexikalische Assoziatiosmaße und Idiomatizität: Eine Problemskizze anhand von Lernerdaten aus dem Kobalt-Korpus. Korpuslinguistisches Kolloquium, HU Berlin, 24.05.2017.

[Konferenzvortrag] Shadrova, A. (2015): Learners know their German: Statistical similarities of surface features in German L1 and L2 essays. International Symposium on Bilingualism 10, 24.05.2015.

[Vortrag] Shadrova, Anna & Anke Lüdeling (2015): Individuelle Differenzen in Lernerdaten. INDUS-Netzwerktreffen, Universität Duisburg-Essen.

[Vortrag] Shadrova, Anna (2014): "Kobalt-E: Erste Ergebnisse". Netwerk Kobalt-DaF. Arbeitstreffen in Tübingen, 04.11.14. Folien

 

Lehre

WiSe 17/18

Seminar Kiezdeutsch und Lernerdeutsch
B.A. Germanistische Linguistik/Deutsch Kernfach

Seminar Modelle grammatischer Beschreibung
Modul für Programmstudierende

Übung Methoden der Linguistik
Modul für Programmstudierende

SoSe 17

Übung Deutsche Grammatik
B.A. Germanistische Linguistik/Historische Linguistik/Deutsch

SoSe 16

Einführung in die maschinelle Sprachverarbeitung mit Python

B.A. Deutsch/Germanistische Linguistik/Historische Linguistik

M.A. Linguistik

WiSe 15/16

Grundkurs Linguistik

B.A. Germanistische Linguistik/Historische Linguistik/Deutsch

WiSe 14/15

Grammatische und textbezogene Regularitäten der Internetsprache

B.A. Germanistische Linguistik/Deutsch

SoSe 14

Übung Deutsche Grammatik
B.A. Germanistische Linguistik/Historische Linguistik/Deutsch

WiSe 13/14

Übung Deutsche Grammatik
B.A. Germanistische Linguistik/Historische Linguistik/Deutsch
 

Ehemalige Projekte

Contrastive corpus methodology and language modeling and analysis

Kurz-AG bei der 43. DGfS-Jahrestagung in Freiburg, 24.-26. Februar 2021. Mit Martin Klotz und Anke Lüdeling. Information und Präsentationen: https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/events/kurz-ag-msc

L.L.Con: Leibniz Linguistic Research into Constitutional Law

Von 2018 bis 2021 war ich Wissenschaftliche Mitarbeiterin an der Juristischen Fakultät am Lehrstuhl von Prof. Dr. Christoph Möllers im Leibniz-Projekt zu Eigenschaften und Entwicklungen der Sprache in Urteilen des Bundesverfassungsgerichts seit seinem Entstehen.

Die Arbeiten befassten sich mit dem epistemologisch navollziehbaren Einsatz von Topic Modeling in geistes- und sozialwissenschaftlichen Fragestellungen; der Kanonisierung der Rechtsprechung des Bundesverfassungsgerichts in einer Analyse von Zitatenetzwerken; sowie der Automatisierbarkeit der Extraktion von komplexen Textstrukturaspekten und der Erstellung des eigentlichen Korpus.

Themenauswahl: Datenmodellierung, quantitative Linguistik, Stilometrie, Netzwerkanalyse, Topic Modeling, Informationsextraktion in formalisierter Sprache, Formalisierung als Aspekt von Sprache, linguistische Modellierung komplexer Konzepte

Publikationen:

Wendel, L., A. Shadrova & A. Tischbirek (in press): From modeled topics to areas of law: A comparative analysis of types of proceedings in the German Federal Constitutional Court. German Law Journal.

Shadrova, A. (2021): Topic models do not model topics: epistemological remarks and steps towards best practices. Journal of Data Mining and Digital Humanities 2021, https://doi.org/10.46298/jdmdh.7595, Source : oai:HAL:hal-03261599v3

Ighreiz, A., C. Möllers, L. Rolfes, A. Shadrova & A. Tischbirek (2020): Karlsruher Kanones: Selbst- und Fremdkanonisierung der Rechtsprechung des Bundesverfassungsgerichts. Archiv des öffentlichen Rechts Jahrgang 145 (2020) / Heft 4, S. 537-613 (77), https://doi.org/10.1628/aoer-2020-0026

[Korpus] Möllers, Christoph, Anna Shadrova & Luisa Wendel (2021): BVerfGE-Korpus 1.0. Mit freundlicher Unterstützung des Mohr-Siebeck-Verlags. https://doi.org/10.5281/zenodo.4551408

Dissertation

Meine Dissertation "Measuring coselectional constraint in learner corpora: A graph-based approach" ist erschienen: http://edoc.hu-berlin.de/18452/22356

Darin habe ich die strukturelle Entwicklung von Koselektionsbeschränkungen (~ Kollokation, Idiomatizität, idiom principle) in  Verbargumentstrukturen bei DaF-LernerInnen in verschiedenen Erwerbsstadien untersucht. Grundlage dafür waren Essays chinesischer und belarusischer Deutschlerner*innen aus dem Netzwerk Kobalt-DaF. Es geht um die Frage, ob und wie sich L1-ähnliche Auswahl in Lernertexten auch in kleineren und mittelgroßen Korpora messen und bestimmen lässt und ob es eine strukturelle Entwicklung mit einer Zunahme von Beschränktheit mit zunehmendem Spracherwerb gibt, sowie einen Einbruch in der Beschränktheit auf mittleren Erwerbsstufen, sprich einen U-Kurven-förmigen Erwerbsverlauf. In einer graphbasierten Analyse auf Basis von Louvain-Modularität (Blondel et al. 2008) zeigt sich in der Tat eine Zunahme der Modularität bei beiden Lerner*innengruppen, ein U-Kurven-Verlauf ist allerdings nur bei den belarusischen Lerner*innen sichtbar. Das diskutiere ich aus typologischer, kultureller, und kognitiver Perspektive. Die Arbeit behandelt außerdem die bisher geringe theoretische Einbettung von Koselektion in die gebrauchsbasierte Theorie, stellt die geringe Erklärkraft des sogenannten "phraseologischen Kontinuums" fest, diskutiert die Unadäquatheit lexikalischer Assoziationsmaße für die Bewertung von Koselektionsbeschränkungen in Korpora, und macht Vorschläge für die Einbeziehung von graphbasierten Methoden in lexikalischen und lexikosyntaktischen Fragestellungen.

Betreut von Prof. Dr. Anke Lüdeling and Prof. Dr. Amir Zeldes (Georgetown University, Washington, D.C.). Prädikat summa cum laude. Teilweise finanziert durch ein Stipendium der Hans-Böckler-Stiftung (2014-2018) im Rahmen der Promotionsförderung des Bundesministeriums für Bildung und Forschung (BMBF) und ein Research Track-Stipendium der Humboldt Graduate School (2013).

Themen: Korpuslinguistik, Zweitspracherwerb, exakte Formalisierung gebrauchsbasierter Modelle, methodische Fragen der quantitativen Linguistik bei kleinen und mittelgroßen Korpora (SMISC), insb. graphbasierte Analysemethoden, Validierung

Referenz:
Blondel, Vincent D; Guillaume, Jean-Loup; Lambiotte, Renaud; Lefebvre, Etienne (9 October 2008). "Fast unfolding of communities in large networks". Journal of Statistical Mechanics: Theory and Experiment. 2008 (10): P10008. arXiv:0803.0476.

DALeKo - Dokumentation und Analyse von Lernersprache

Im Rahmen des Projektes Dokumentation und Analyse von Lernersprache, kurz DALeKo, an der Humboldt-Universität Berlin sammelt der Arbeitskreis Fremdsprachendidaktik (Anglistik, Romanistik, Slawistik) für die Erstellung einer Datenbank fremdsprachliche Lernertexte. Zunächst werden in den Kooperationsschulen erhobene Klausuren aus Abiturjahrgängen in den Sprachen Englisch, Französisch, Russisch und Spanisch in die im Aufbau befindliche Korpusdatenbank eingegeben. Russische Texte aus dem schulischen und universitären Kontext sind bereits über Annis³ durchsuchbar. Da die Daten strengen Datenschutzrichtlinien unterliegen, ist eine vorherige Registrierung bei Prof. Anka Bergmann notwendig.

 

INDUS-Netzwerk: Individualisiertes Sprachlernen: Sprachtechnologische Ansätze und ihre Schnittstellen (assoziiert)

Website hier.
Ausschnitt aus der Projektbeschreibung:

Individualisiertes Sprachenlernen (als Gegenstück zu standardisierten Massenkursen) ist durch neuste Entwicklungen der Sprachtechnologie in greifbare Nähe gerückt (...). Es zeigt sich jedoch, dass die Einbettung der Technologien in reale Lernsituationen viele neue Fragen aufwirft, die nur durch eine viele Disziplinen überspannende Forschungsanstrengung beantwortet werden können.

Das INDUS-Netzwerk bringt dazu Akteure aus den Disziplinen Sprachtechnologie, Linguistik, Bildungsforschung, Lernpsychologie, Pädagogische Psychologie, Spracherwerbsforschung und Didaktik des Sprachenlernens zusammen, die sich im Kontext ihrer spezifischen Expertise bereits mit dem Lernen von Sprachen auseinandergesetzt haben (...).