User story: ExmaraldaR – (Annotierte) Transkriptionen in R verarbeiten

Das R-Paket ExmaraldaR soll eine einfache Verarbeitung von (annotierten) Transkripten R (R Core Team 2020) ermöglichen. R ist eine kostenlose Umgebung für statistische Analysen, Datenaufbereitung und auch Natural Language Processing. Damit bietet es zahlreiche Optionen, die auch für die Untersuchung gesprochener Sprache interessant sind. Mit dem Paket können eine oder mehrere annotierte Transkriptionen (*.exb) eingelesen werden. Annotierte Transkripte ergeben dann ein Tabellenobjekt mit dem weitergearbeitet werden kann (s. Abb. 1). Die Tabelle enthält eine fortlaufende IP-Nummerierung auf Basis der GAT2-Konventionen (Selting et al. 2009), die Sprechersigle, die ID der Spur, den Sprechernamen, den Transkriptionstext, die Metadaten der Sprechertabelle (optional), Zeitstempel des Events und die Annotationen. Die Annotationen werden dabei direkt dem transkribierten Text zugeordnet. Möglich sind unterschiedliche Transkriptionsformate (komplexe Annotationstags, die aufgetrennt werden, oder mehrere Annotationsspuren). Deskriptionsspuren können ebenfalls eingebunden werden. In Zukunft soll es zudem möglich sein, in R oder an

Weiterlesen