Projekte – EXMARaLDA

EXMARaLDA wird seit über 20 Jahren weltweit in Forschungsprojekten und in der universitären Lehre für die Arbeit mit mündlichen Daten eingesetzt. Diese Seite gibt einen Überblick über Projekte, die mit EXMARaLDA arbeiten.

In den Projekten des Sonderforschungsbereichs 538 Mehrsprachigkeit der Universität Hamburg wurden zwischen 2000 und 2011 viele mündliche Korpora mit EXMARaLDA erstellt, die mehrsprachige Kommunikation und/oder mehrsprachigen Spracherwerb zum Gegenstand haben, z.B.: das Korpus Dolmetschen im Krankenhaus (DiK), das Hamburg Map Task Corpus (HaMaTaC), das Hamburg Adult Bilingual Language Corpus (HABLA), das Community Interpreting Database Pilot Corpus (ComInDat), das Hamburg Corpus of Polish in Germany (HamCoPoliG). Die Korpora des SFB 538 sind über das Hamburger Zentrum für Sprachkorpora bzw. das Zentrum für nachhaltiges Forschungsdatenmanagement der Uni Hamburg verfügbar.

Das Korpus Gesprochene Wissenschaftssprache Kontrastiv (GeWiss) wurde ab 2009 in einem gemeinsamen Projekt des Herder-Instituts an der Universität Leipzig mit der Aston University (Birmingham) und der Universität Wroclaw mit Hilfe von EXMARaLDA erstellt. Das Korpus dokumentiert deutsche, englische, polnische gesprochene Wissenschaftssprache von Erst- und Zweitsprechern der betreffenden Sprachen an verschiedenen Universitäten in Deutschland, England, Polen, Italien, Bulgarien und Finnland. Es ist über ein Portal an der Universität Leipzig, die Datenbank für Gesprochenes Deutsch und die ZuMult-Tools zugänglich.

Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) wird im Programmbereich „Mündliche Korpora“ des Leibniz-Instituts für Deutsche Sprache in Mannheim aufgebaut. Es ist ein großes, ständig wachsendes Gesprächskorpus des Deutschen, das die Vielfalt sprachlicher Interaktion in der Gesellschaft abbildet. Für FOLK wurde ein eigener, auf EXMARaLDA-Tools aufbauender Workflow entwickelt, der neben der Transkription auch die orthographische Normalisierung und die Lemmatisierung und das Part-Of-Speech-Tagging der Daten beinhaltet. FOLK ist über die Datenbank für Gesprochenes Deutsch und die ZuMult-Tools zugänglich.

Das Archiv für Gesprochenes Deutsch (AGD) am Leibniz-Institut für Deutsche Sprache in Mannheim ist das wichtigste Datenzentrum für Korpora des gesprochenen Deutsch. Am AGD werden aktuell ca. 100 Gesprächs-, Variations- und Interviewkorpora archiviert. Viele dieser Korpora wurden mit Hilfe von EXMARaLDA erschlossen, z.B. das Korpus Deutsch Heute (DH), das Korpus Deutsch in Namibia (DNAM), das Korpus Unserdeutsch (UNSD), das Korpus Deutsche Mundarten aka Zwirner-Korpus (ZW). Die Korpora des AGD sind auf dessen Website verzeichnet. Sie sind größtenteils über die Datenbank für Gesprochenes Deutsch, teilweise auch über die ZuMult-Tools zugänglich.

Das auf 18 Jahre Laufzeit ausgelegte Akademie-Vorhaben „Grammatiken, Korpora und Sprachtechnologie für indigene nordeurasische Sprachen“ (INEL) erstellt mit EXMARaLDA umfängliche Sprachdokumentationen für nordeurasische Sprachen. Bereits veröffentlicht wurden Dokumentationen zu: Dolganisch, Kamassisch, Selkupisch, Ewenkisch. Die INEL-Korpora werden über die Projekt-Website zugänglich gemacht.

EXMARaLDA ist weit gereist und spricht viele Sprachen. Es kommt z.B. zum Einsatz:

An der METU Ankara und der METU Nordzypern für ein Referenzkorpus des gesprochenen Türkisch und das Corpus of Turkish Youth Language (CoTY)
An der Universität Lissabon für das Referenzkorpus des zeitgenössischen Portugiesisch an der Universität Braga für das Perfil Sociolinguístico da Fala Brancese
An der Universidade Federal de Minas Gerais (Brasilien) für das Projekt Comunicação Intercultural em Interação: expansão e diversificação do Corpus NUCOI
An der Universität Ghent für das European Parliament Interpreting Corpus Ghent (EPICG)
An der Universität Sofia für ein Korpus des gesprochenen Bulgarisch
An der Universität Szeged (Ungarn) für das Deutsch-Ungarische Lernerkorpus (DULKO)
An der Universität Maribor (Slowenien) für das Mezzanine-Projekt
An der University of Austin/Texas für das Texas German Dialect Project (TDGP)
An der Aston University (Birmingham) zur Dokumentation des englischen West Midland Dialects: Aston Corpus of West Midlands English (ACWME)
An der Universität Taru (Estland) für ein Korpus zu Englisch als Lingua Franca
An der Universitat Autónoma de Barcelona für katalanische und spanische Daten im Projekt Traducción e Interpretación en los Procesos penales (TIPp)
An der Universität Basel zur Dokumentation des Spanischen in Äquatorial-Neuguinea
An der Universität Zürich zur Dokumentation des serbischen Torlak-Dialekts und für das Map Task Corpus of Heritage BCMS
An verschiedenen Universitäten in Österreich, die an Projekten des Spezialforschungsbereichs Deutsch in Österreich (DiÖ) beteiligt sind
In der Schweiz und für das Schwyzerdütsch beim ArchiMob-Korpus (Universität Zürich), im Projekt Kompetenzniveaus mündlichen Argumentierens unter Schulkindern (Universität Basel) sowie beim Geparsten und grammatisch annotierten Korpus schweizerdeutscher Spontansprachdaten (Universität Genf)

Weitere Projekte, die mit EXMARaLDA arbeiten, sind in der folgenden Liste aufgeführt. Bitte teilen Sie uns mit, wenn Sie Ihr Projekt oder Korpus gerne auf dieser Liste erwähnt haben möchten.

AG Ton & Korpus – Forschungszentrum Deutsch Sprachatlas Marburg
Berlin Maptask Corpus (BeMaTac) – HU Berlin
Bildung durch Sprache und Schrift (BiSS)
Bildungsprozesse, Kompetenzentwicklung und Selektionsentscheidungen im Vor- und Grundschulalter (BiKS) – Universität Bamberg
Bochumer Korpus der gesprochenen Sprache im Ruhrgebiet (KgSR) – Ruhr-Universität Bochum
Competencies of school teachers and adult educators in teaching German as a second language in linguistically diverse classrooms (COLD) – Deutsches Institut für Erwachsenenbildung (DIE), Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache, Leibniz-Institut für Bildungsforschung und Bildungsinformation (DIPF), Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Universität Zürich und weitere Partner
Corpus of Read and Spontaneous Upper Saxon German Speech for ASR Evaluation (SXU) – TU Chemnitz, HTW Dresden
Corpus of Turkish Youth Language (CoTY) – METU Ankara
Deutsch und Dänisch bei nordschleswigdeutschen Schülern – Universität Kiel
Dialogisches Lesen als Tool für eine wirksame Praxis der Sprachförderung in Kindertagesstätten (DiaLes) – Universität Hamburg
Die Dynamiken des Deutschen im mehrsprachigen Kontext des südlichen Afrika – FU Berlin
Digitaler Alltag im Alter: Neue Technologien und Medien in der sozialen Interaktion älterer Teilnehmer:innen (DigiLife) – Leibniz-Institut für Deutsche Sprache, Universitäten Freiburg, Münster, Oulu, Zürich, WU Wien, Instituts für Tschechische Sprache in Prag
Emerging Grammars in Language Contact Situations (RUEG) – HU Berlin
Empirische Linguistik und LautSprachAnalyse (ELLSA) – Universität Hamburg
Entwicklung der mündlichen und schriftlichen Kompetenzen und der Erst-, Zweit- und Fremdsprache bei mehrsprachigen Kindern und Jugendlichen mit türkischem Hintergrund in Frankreich und Deutschland (MULTILIT) – Universität Potsdam, Université Lumière Lyon 2
Fehlerannotiertes Lernerkorpus (FALKO) – HU Berlin
Forschungsinitiative Sprachdiagnostik und Sprachförderung (FiSS) – Universität Hamburg und weitere Partner
Fragesequenzen im Coaching – Leibniz-Institut für Deutsche Sprache, Universität Klagenfurt, ZHAW Zürich
Frühneuzeitliche Fürstinnenkorrespondenzen im mitteldeutschen Raum – Universität Jena, HU Berlin
Gelingende Kommunikation im Alter (Ge-Kom) — Europäische Fachhochschule Brühl
Gesprächstranskripte für die Lehre: Korpusaufbau und -aufbereitung im curricularen Kontext (DGK) – Heinrich-Heine-Universität Düsseldorf
Gestikkorpora in der universitären DAF-Lehrkräfteausbildung – LMU München
Informationsstruktur in komplexen Sätzen – Synchron und diachron – Universität Jena
Interaktives Annotieren von Unterrichtskommunikation – Universität Hamburg
International Comparable Corpus (ICC) – Universitäten Wien, Birmingham, Oslo, Prag, Göteborg, Jyvaskyla, Paderborn, Polnische Akademie der Wissenschaften, Slowakische Akademie der Wissenschaften, Leibniz-Institut für Deutsche Sprache
Jugendsprache im Längsschnitt (JuSpiL) – FU Berlin
Kicktionary – ICSI Berkeley
Kiezdeutsch-Korpus (KidKo) – Universität Potsdam, HU Berlin
Klausurenkorpus (GraphVar) – Universität Bonn
Kommunikatives Repertoire von Migrant*innen – Leibniz-Institut für Deutsche Sprache
Korpus norddeutscher Tischgespräche (KONTI) – Universität Duisburg-Essen
LAST MINUTE: a Multimodal Corpus of Speech-based User-Companion Interactions – Universität Magdeburg
Lexik des gesprochenen Deutsch (LeGeDe) – Leibniz-Institut für Deutsche Sprache
Linguistische Profilierung einer europäischen Wissenschaftsbildung (euroWiss) – Universität Hamburg, TU Chemnitz, Università degli Studi di Bergamo, Università degli Studi die Modena et Reggio Emilia
Linked TV – Fraunhofer IAIS, Rundfunk Berlin-Brandenburg, Universität St. Gallen und 9 weitere Partner
Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition (LitKey) – Ruhr-Universität Bochum
Mehrsprachigkeit und Sprachentwicklungsstörungen als Einflussfaktoren im Spracherwerb (MILA) – Universität Frankfurt/Main
Mehrsprachigkeitsentwicklung im Zeitverlauf – Universität Hamburg
Mitschreiben in Vorlesungen (Miko) – Universität Leipzig
Multilingualism and Multiculturalism in University Studies (MuMiS) – Universitäten Siegen, Hamburg, Kassel
Multilingual Platform for European Reference Levels: Interlanguage Exploration in Context (MERLIN) – TU Dresden, European Academy Bozen, Universität Tübingen, Karlsuniversität Prag und weitere Partner
Niederdeutsch in Hamburg (NiH) – Universität Hamburg
Norms, Rules, and Morality across Languages (NoRM-aL) – Leibniz-Institut für Deutsche Sprache, Universität Basel, Universität Helsinki, Kazmierz Wielki University Bydgoszcz, University of California at Los Angeles
PolDi – a Polish Diachronic Online Corpus – Universität Regensburg
Pommersch in Brasilien – Universität Freiburg
Postmigrantische Familienkulturen (PoMiKu) – Universität Hamburg, HAW Hamburg
Professionalisierung von Anfang an im Jenaer Modell der Lehrerbildung (PROFJL²) – Universität Jena
Rechtschreibgespräche – Gemeinsames Lernen im Deutschunterricht der Grundschule – Universität Leipzig
Regularität und Irregularität in der Kasusmorphologie deutscher Sprachinselvarietäten (Russland, Brasilien): intralinguale, interlinguale, typologische Konvergenz – Universität Frankfurt/Oder
RRuDi – a Russian Diachronic Online Corpus – Universität Regensburg
Russische und polnische Herkunftssprache als Ressource im Schulunterricht? – Universität Greifswald
Schmerzdarstellung und Krankheitserzählungen – Universität Wien
Schreiben zwischen Sprachen und Kulturen: Ressource und Hemmnis der Integration (LiLac) – TU Dortmund
Segmentation of Oral Corpora (SegCor) – Leibniz-Institut für Deutsche Sprache, Université de Lyon, Université d’Orléans
Sonderforschungsbereich 632 Informationsstruktur – Universität Potsdam
Soziale Interaktion mit Sprachassistenten – Leibniz-Institut für Deutsche Sprache
Soziolinguistik live – Universität Hamburg
Sprachalltag II : Sprachatlas – Digitalisierung – Nachhaltigkeit – Universität Tübingen
Sprachförderung im Mathematikunterricht unter Berücksichtigung der Mehrsprachigkeit (MuM-Multi) – Universität Hamburg, TU Dortmund
SPRachförderung im Übergang KindergarteN – Grundschule Evaluieren (SPRÜNGE) – Universität Frankfurt/Main
Sprachvariation in Norddeutschland (SiN) – Universitäten Hamburg, Bielefeld, Münster, Potsdam, Kiel, Frankfurt/Oder
Sprechen – Schreiben – Visualisieren. Formen, Funktionen und Störungen von Modalitätsinterdependenzen und Konzeptgenesen in professionellen Interaktionssituationen (ModiKo) – RWTH Aachen, Leibniz-Institut für Deutsche Sprache
Texas German Dialect Project (TGDP) – University of Texas, Austin
Translation of Audio Description Scripts (TADS) – Universität Hildesheim, INSPE de Paris
Transmodale Messenger-Chats – Universität Münster
Turn-Taking und Verständnissicherung beim Telefondolmetschen Arabisch-Deutsch – Universität Mainz
Türkisch-Englisch-Deutsch bei Herkunftssprechern (TEDH) – Universität Konstanz
Unserdeutsch – Rabaul Creole German – Universitäten Augsburg, Bern
URUM documentation project – Universität Bielefeld
Verknüpfte Analyse von Mehrsprachigkeiten am Beispiel der Universität Salzburg (VAMUS) – Universitäten Innsbruck und Salzburg
Video corpus of broadcasts of various Let´s Play (LP) channels – Universität Paderborn
Vietnamesisches Lernerkorpus (VIELKO) – Universität Leipzig
Wahrnehmungsdialektologie – Universität Kiel
Seiteneinsteiger:innenkorpus SeiKo – Universität Gießen
Schweizer Lernerkorpus SWIKO – Université de Fribourg