We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Interview mit Dr. Jennifer-Carmen Frey zum DiDi-Korpus

00:00

Formale Metadaten

Titel
Interview mit Dr. Jennifer-Carmen Frey zum DiDi-Korpus
Serientitel
Anzahl der Teile
11
Autor
Mitwirkende
Lizenz
CC-Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache
Computeranimation
Besprechung/Interview
Besprechung/Interview
Besprechung/Interview
Besprechung/Interview
Besprechung/InterviewComputeranimation
Transkript: Deutsch(automatisch erzeugt)
Also das DD-Korpus wurde im Rahmen des Projektes DD, Digital Natives, Digital Immigrants, Schreiben
auf sozialen Netzwerken aufgebaut und zwar diente das zur Dokumentation des damals aktuellen Sprachgebrauchs in nicht institutioneller Alltagssprache in sozialen Medien. Exemplarisch hat man sich dabei Facebook ausgesucht als damals vorherrschende Social Networking Plattform. Das
Ziel war wirklich Sprache abseits von normgebundenen Kontexten zu beobachten und dabei auch einen Fokus auf die Südtiroler Sprachlandschaft zu legen. Das heißt wir beobachten im DD-Korpus vor allem Formen der inneren und äußeren Mehrsprachigkeit, wie zum Beispiel einerseits innere Mehrsprachigkeit
der Südtiroler Dialekt, der in der gesprochenen Alltagssprache eine unglaubliche Wichtigkeit auch in Südtirol einnimmt und andererseits auch Einflüsse der unterschiedlichen Landessprachen hier in Südtirol. Wichtig war uns bei der Erstellung des DD-Korpus, dass es sich im
Gegensatz zur damals vorherrschenden korpuslinguistischen Forschung in sozialen Medien auch um Sprache des privaten Sektors handelt, also um authentisches privates Sprachmaterial und dass es nicht nur junge Generationen abbildet, sondern auch ältere
Generationen, also die ganze Population auch das ganze Altersspektrum zeigen soll. Das DD-Korpus umfasst die Facebook-Texte eines ganzen Jahres, also die gesamte Textproduktion
im Jahr 2013 von 136 Südtirolerinnen und Südtirolern, die uns ihre Facebook-Texte zur Verfügung gestellt haben. Das heißt insgesamt umfasst das Korpus ca. 40.000 Facebook-Texte, davon
entfallen ungefähr 11.000 auf Statusmeldungen, ca. 9.000 auf Kommentare und der Rest sind Chatnachrichten, das heißt private Direktnachrichten, wie man sie auf Facebook versenden kann. Der Großteil der Texte ist in Deutsch verfasst, es gibt aber auch andere Sprachen, darunter
einerseits die Landessprachen, italienisch und latinisch, andererseits auch Global Players wie Englisch oder auch ganz andere Sprachen wie Französisch, Portugiesisch, Spanisch, Albanisch, Hebräisch etc. Im Rahmen der deutschen Texte wurden ca. 30% anhand ihrer Abweichungen
von der deutschen Autografie als dialektal eingestuft. Außerdem sind ca. 2600 Texte und weisen die Formen von Mehrsprachigkeit auf, wie z.B. Code Switching, Code Mixing,
aber auch einzelne Einschübe von Ad-hoc-Entlegenungen und normale Lehnwörter. Das Didi-Korpus kann ganz einfach genutzt werden, indem man sich online in die Korpus-Abfrage-Oberfläche
einklickt. Das ist eine Anis-Suchoberfläche, wo man auf unterschiedlichen Annotationslayers die Texte durchsuchen kann, und zwar auch die Annotationen, die wir im Rahmen der Phänomene der Mehrsprachigkeit oder der Sytrolismen oder auch der internetbasierten Kommunikation
annotiert haben. Zum anderen kann man da auch auf eine breite Auswahl von Metadaten zu den Personen, die uns die Daten gespendet haben, zugreifen. Das heißt, es sind Metadaten
wie Alter, Geschlecht, Erstsprache, aber auch Internetnutzungsgewohnheiten. Die Texte können in dieser Suchoberfläche auf der originalen Schreibung gesucht werden. Man kann aber auch nach normalisierten, autografiegerechten Wörtern suchen oder auf der Lämmer-Ebene
oder nach Wortarten zum Beispiel. Zusätzlich kann das Korpus genutzt werden, indem man sich ganz einfach über clarin.eurac.edu auf den Daten-Reporsitorium die Daten in unterschiedlichen Formaten herunterlädt. Das heißt, man kann sich dort zum Beispiel einen Dump sozusagen
von XML, normalen Textdateien oder Anis-Dateien herunterladen und wenn man ein bisschen technisch versierter ist, dann auch selbst programmatorisch mit den Daten arbeiten.
Entsprechend der ursprünglichen Motivation des TD-Projektes eignet sich das TD-Korpus besonders dafür, soziolinguistische Forschungsfragen zu bearbeiten. Besonders interessant sind aufgrund der Südtiroler Sprachlandschaft dort natürlich Fragen der Dialogtologie, aber
auch Sprachkontakt oder Mehrsprachigkeitsforschung und natürlich allgemein Fragen hinsichtlich internetbasierter Kommunikation. Das kann auch ganz einfach auf unterschiedlichen Systemebenen der Linguistik passieren. Das heißt, wir haben lexikalische Merkmale, syntaktische Merkmale,
aber auch ganz pragmatische Dinge können untersucht werden. Natürlich eignet sich das Korpus wie jedes andere Sprachkorpus auch allgemeinere Fragestellungen der Linguistik zu bearbeiten, wenn man denn das möchte.
Das Korpus ist für Studierende wahrscheinlich besonders interessant, weil es sich mit dem Korpus um eine frei verfügbare Ressource handelt, die einen leichten Einstieg in korpuslinguistische Arbeit bietet durch die bestehende Suchoberfläche, die man ganz einfach online abfragen kann. Mit dem Datendownload kann man die Daten aber auch in jedwelige
andere bevorzugte Korpus-Tools hineinladen und durch den Datendownload, wenn man eben technisch versierter ist, auch sie selbst mit korpuslinguistischen oder computerlinguistischen Tools bearbeiten und so herrichten, wie man sie gerne haben möchte. Meiner Meinung nach
ist das Korpus auch eine wirklich einzigartige Ressource, weil es ganz andere Daten bietet als zum Beispiel andere Korporate von sozialen Medien. Dabei soll, wie vorher schon erwähnt, dass es ein breites Spektrum an sozio-demografischen Daten zu den Nutzern gibt und dass es ganz
besondere Merkmale der Mehrsprachigkeit und der dialogdalen Sprachverwendung im Internet bietet.
Vielen Dank für's Zuschauen.