Training Corpus of Spoken Slovenian ROG 1.0

20. Dezember 202420. Dezember 2024 thomas

Anfang dieser Woche hat das Mezzanine-Projekt das Trainingskorpus des gesprochenen Slowenisch, ROG 1.0, veröffentlicht. Das Korpus ist über das CLARIN.SI-Repositorium verfügbar: https://www.clarin.si/repository/xmlui/handle/11356/1992.

ROG 1.0 ist die wichtigste Ressource für die slowenische Sprache, um Technologien zur Verarbeitung von Sprache oder Sprachtranskripten zu trainieren und zu evaluieren, wie z.B. Part-of-Speech-Tagger, Parser, Disfluency-Identifikatoren, Dialogakt-Klassifikatoren usw. Es eignet sich auch für die Bearbeitung von Forschungsfragen zur gesprochenen Sprache.

ROG 1.0 besteht aus zwei Teilen:

ROG-SST besteht aus ausgewählten Gos 2.1-Transkriptionen (http://hdl.handle.net/11356/1863) mit:

manuell zugewiesenen Lemmata und morphosyntaktischen Tags nach dem MULTEXT-East Annotationsschema (https://nl.ijs.si/ME/V6/msd/html/msd-sl.html),
manuellen Annotationen nach dem Annotationsschema Universal Dependencies (d.h. Part-of-Speech-Kategorien, morphologische Merkmale und syntaktische Dependenzstrukturen)
Insgesamt umfasst ROG-SST 76.341 Wörter und 6.108 Sätze.

ROG-Art besteht aus:

allen Annotationsschichten aus ROG-SST
Annotationen zu prosodischen Einheiten
Annotation von Disfluenzen
Annotation von Dialoghandlungen
ROG-Art umfasst 39.001 Wörter und 1.969 Sätze.

ROG-Art wurde mit dem EXMARaLDA Partitur-Editor annotiert und kann als EXMARaLDA-Korpus heruntergeladen werden:

Alle Annotationsspuren und verschiedene Metadaten zu SprecherInnen und Kommunikationen können mit EXAKT durchsucht und analysiert werden: