Projects

For over twenty years, EXMARaLDA has been used for work with oral corpora in research and teaching projects all over the world. This page provides an overview of projects working with EXMARaLDA.

The projects of the Special Research Centre on Multilingualism at the University of Hamburg have used EXMARaLDA between 2000 and 2011 to compile a large set of oral corpora dealing with multilingual communication and/or multilingual language acquistion, such as: the corpus Interpreting in Hospitals (DiK), the Hamburg Map Task Corpus (HaMaTaC), the Hamburg Adult Bilingual Language Corpus (HABLA), the Community Interpreting Database Pilot Corpus (ComInDat), the Hamburg Corpus of Polish in Germany (HamCoPoliG). The corpora of the Research Centre are available via the Hamburg Centre for Language Corpora or the Centre for Sustainable Research Data Management at the University of Hamburg.

The GeWiss Corpus of Spoken Academic Language was compiled with EXMARaLDA in a joint project by the Herder Institute at the University of Leipzig, Aston Uiversity (Birmingham) and the University of Wroclaw starting in 2009. The corpus documents German, English and Polish spoken academic language of L1 and L2 speakers of the respective languages in Germany, England, Poland, Italy, Bulgaria and Finland. It is available via a platform at the University of Leipzig, the Database for Spoken German and the ZuMult tools.

Das Research and Teaching Corpus of Spoken German (FOLK) is being built-up at the program are „Oral Corpora“ of the Leibniz Institute for the German language in Mannheim. It is a large, continuously growing interaction corpus of German which attempts to represent the diversity of social interaction. The FOLK project has developped a full workflow based on EXMARaLDA tools which covers not only transcription but also orthographic normalisation, lemmatisation and Part-Of-Speech tagging. FOLK can be accessed via the Database for Spoken German and the ZuMult tools.

The Archive for Spoken German (AGD) at the Leibniz Institute for the German Language in Mannheim is the most important research data centre for corpora of spoken German. The AGD currently hosts around 100 interaction, variation and interview corpora. Many of those corpora were compiled and/or processed with EXMARaLDA, e.g.. the corpus German Today (DH), the corpus German in Namibia (DNAM), the corpous Rabaul Creole German (UNSD), the corpus German Dialects (ZW). The AGD corpora are listed on the archive’s website. Most of them can be accessed via the Datenbase for Spoken German, some of them additionally via the ZuMult tools.

The academy long-term project „Grammatical Descriptions, Corpora, and Language Technology for Indigenous Northern Eurasian Languages“ (INEL) uses EXMARaLDA to compile comprehensive language documentation for Northern Eurasian languages. So far, documentations for Dolga, Selkup, Kamas and Evenki have been published. The INEL corpora are made available via the project website.


EXMARaLDA has travelled far and speaks a lot of languages. For instance, it is being used:


Further projects working with EXMARaLDA are listed in what follows. Please let us know if you want to see your corpus or project included in this list.

  1. AG Ton & Korpus Forschungszentrum Deutsch Sprachatlas Marburg
  2. Berlin Maptask Corpus (BeMaTac) – HU Berlin
  3. Bildung durch Sprache und Schrift (BiSS)
  4. Bildungsprozesse, Kompetenzentwicklung und Selektionsentscheidungen im Vor- und Grundschulalter (BiKS) – Universität Bamberg
  5. Bochumer Korpus der gesprochenen Sprache im Ruhrgebiet (KgSR) – Ruhr-Universität Bochum
  6. Competencies of school teachers and adult educators in teaching German as a second language in linguistically diverse classrooms (COLD) – Deutsches Institut für Erwachsenenbildung (DIE), Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache, Leibniz-Institut für Bildungsforschung und Bildungsinformation (DIPF), Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Universität Zürich und weitere Partner
  7. Corpus of Read and Spontaneous Upper Saxon German Speech for ASR Evaluation (SXU) – TU Chemnitz, HTW Dresden
  8. Corpus of Turkish Youth Language (CoTY) – METU Ankara
  9. Deutsch und Dänisch bei nordschleswigdeutschen Schülern – Universität Kiel
  10. Dialogisches Lesen als Tool für eine wirksame Praxis der Sprachförderung in Kindertagesstätten (DiaLes) – Universität Hamburg
  11. Die Dynamiken des Deutschen im mehrsprachigen Kontext des südlichen Afrika – FU Berlin
  12. Digitaler Alltag im Alter: Neue Technologien und Medien in der sozialen Interaktion älterer Teilnehmer:innen (DigiLife) – Leibniz-Institut für Deutsche Sprache, Universitäten Freiburg, Münster, Oulu, Zürich, WU Wien, Institut für Tschechische Sprache in Prag
  13. Emerging Grammars in Language Contact Situations (RUEG) – HU Berlin
  14. Empirische Linguistik und LautSprachAnalyse (ELLSA) – Universität Hamburg
  15. Entwicklung der mündlichen und schriftlichen Kompetenzen und der Erst-, Zweit- und Fremdsprache bei mehrsprachigen Kindern und Jugendlichen mit türkischem Hintergrund in Frankreich und Deutschland (MULTILIT) – Universität Potsdam, Université Lumière Lyon 2
  16. Fehlerannotiertes Lernerkorpus (FALKO) – HU Berlin
  17. Forschungsinitiative Sprachdiagnostik und Sprachförderung (FiSS) – Universität Hamburg und weitere Partner
  18. Fragesequenzen im Coaching – Leibniz-Institut für Deutsche Sprache, Universität Klagenfurt, ZHAW Zürich
  19. Frühneuzeitliche Fürstinnenkorrespondenzen im mitteldeutschen Raum – Universität Jena, HU Berlin
  20. Gelingende Kommunikation im Alter (Ge-Kom) — Europäische Fachhochschule Brühl
  21. Gesprächstranskripte für die Lehre: Korpusaufbau und -aufbereitung im curricularen Kontext (DGK) – Heinrich-Heine-Universität Düsseldorf
  22. Gestikkorpora in der universitären DAF-Lehrkräfteausbildung – LMU München
  23. Informationsstruktur in komplexen Sätzen – Synchron und diachron – Universität Jena
  24. Interaktives Annotieren von Unterrichtskommunikation – Universität Hamburg
  25. International Comparable Corpus (ICC) – Universitäten Wien, Birmingham, Oslo, Prag, Göteborg, Jyvaskyla, Paderborn, Polnische Akademie der Wissenschaften, Slowakische Akademie der Wissenschaften, Leibniz-Institut für Deutsche Sprache
  26. Jugendsprache im Längsschnitt (JuSpiL) – FU Berlin
  27. Kicktionary – ICSI Berkeley
  28. Kiezdeutsch-Korpus (KidKo) – Universität Potsdam, HU Berlin
  29. Klausurenkorpus (GraphVar) – Universität Bonn
  30. Kommunikatives Repertoire von Migrant*innen – Leibniz-Institut für Deutsche Sprache
  31. Korpus norddeutscher Tischgespräche (KONTI) – Universität Duisburg-Essen
  32. LAST MINUTE: a Multimodal Corpus of Speech-based User-Companion Interactions – Universität Magdeburg
  33. Lexik des gesprochenen Deutsch (LeGeDe) – Leibniz-Institut für Deutsche Sprache
  34. Linguistische Profilierung einer europäischen Wissenschaftsbildung (euroWiss) – Universität Hamburg, TU Chemnitz, Università degli Studi di Bergamo, Università degli Studi die Modena et Reggio Emilia
  35. Linked TV –  Fraunhofer IAIS, Rundfunk Berlin-Brandenburg, Universität St. Gallen und 9 weitere Partner
  36. Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition (LitKey) – Ruhr-Universität Bochum
  37. Mehrsprachigkeit und Sprachentwicklungsstörungen als Einflussfaktoren im Spracherwerb (MILA) – Universität Frankfurt/Main
  38. Mehrsprachigkeitsentwicklung im Zeitverlauf – Universität Hamburg
  39. Mitschreiben in Vorlesungen (Miko) – Universität Leipzig
  40. Multilingualism and Multiculturalism in University Studies (MuMiS) – Universitäten Siegen, Hamburg, Kassel
  41. Multilingual Platform for European Reference Levels: Interlanguage Exploration in Context (MERLIN) – TU Dresden, European Academy Bozen, Universität Tübingen, Karlsuniversität Prag und weitere Partner
  42. Niederdeutsch in Hamburg (NiH) – Universität Hamburg
  43. Norms, Rules, and Morality across Languages (NoRM-aL) – Leibniz-Institut für Deutsche Sprache, Universität Basel, Universität Helsinki, Kazmierz Wielki University Bydgoszcz, University of California at Los Angeles
  44. PolDi – a Polish Diachronic Online Corpus – Universität Regensburg
  45. Pommersch in Brasilien – Universität Freiburg
  46. Postmigrantische Familienkulturen (PoMiKu) – Universität Hamburg, HAW Hamburg
  47. Professionalisierung von Anfang an im Jenaer Modell der Lehrerbildung (PROFJL2) – Universität Jena
  48. Rechtschreibgespräche – Gemeinsames Lernen im Deutschunterricht der Grundschule – Universität Leipzig
  49. Regularität und Irregularität in der Kasusmorphologie deutscher Sprachinselvarietäten (Russland, Brasilien): intralinguale, interlinguale, typologische Konvergenz – Universität Frankfurt/Oder
  50. RRuDi – a Russian Diachronic Online Corpus – Universität Regensburg
  51. Russische und polnische Herkunftssprache als Ressource im Schulunterricht? – Universität Greifswald
  52. Schmerzdarstellung und Krankheitserzählungen – Universität Wien
  53. Schreiben zwischen Sprachen und Kulturen: Ressource und Hemmnis der Integration (LiLac) – TU Dortmund
  54. Segmentation of Oral Corpora (SegCor) – Leibniz-Institut für Deutsche Sprache, Université de Lyon, Université d’Orléans
  55. Sonderforschungsbereich 632 Informationsstruktur – Universität Potsdam
  56. Soziale Interaktion mit Sprachassistenten – Leibniz-Institut für Deutsche Sprache
  57. Soziolinguistik live – Universität Hamburg
  58. Sprachalltag II : Sprachatlas – Digitalisierung – Nachhaltigkeit – Universität Tübingen
  59. Sprachförderung im Mathematikunterricht unter Berücksichtigung der Mehrsprachigkeit (MuM-Multi) – Universität Hamburg, TU Dortmund
  60. SPRachförderung im Übergang KindergarteN – Grundschule Evaluieren (SPRÜNGE) – Universität Frankfurt/Main
  61. Sprachvariation in Norddeutschland (SiN) – Universitäten Hamburg, Bielefeld, Münster, Potsdam, Kiel, Frankfurt/Oder
  62. Sprechen – Schreiben – Visualisieren. Formen, Funktionen und Störungen von Modalitätsinterdependenzen und Konzeptgenesen in professionellen Interaktionssituationen (ModiKo) – RWTH Aachen, Leibniz-Institut für Deutsche Sprache
  63. Texas German Dialect Project (TGDP) – University of Texas, Austin
  64. Translation of Audio Description Scripts (TADS) – Universität Hildesheim, INSPE de Paris
  65. Transmodale Messenger-Chats – Universität Münster
  66. Turn-Taking und Verständnissicherung beim Telefondolmetschen Arabisch-Deutsch – Universität Mainz
  67. Türkisch-Englisch-Deutsch bei Herkunftssprechern (TEDH) – Universität Konstanz
  68. Unserdeutsch – Rabaul Creole German – Universitäten Augsburg, Bern
  69. URUM documentation project – Universität Bielefeld
  70. Verknüpfte Analyse von Mehrsprachigkeiten am Beispiel der Universität Salzburg (VAMUS) – Universitäten Innsbruck und Salzburg
  71. Video corpus of broadcasts of various Let´s Play (LP) channels – Universität Paderborn
  72. Vietnamese learner corpus (VIELKO) – Universität Leipzig
  73. Wahrnehmungsdialektologie – Universität Kiel