Interview mit Dr. Jennifer-Carmen Frey zum DiDi-Korpus
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Anzahl der Teile | 11 | |
Autor | ||
Mitwirkende | ||
Lizenz | CC-Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben. | |
Identifikatoren | 10.5446/63568 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | ||
Genre | ||
Abstract |
| |
Schlagwörter |
00:00
Computeranimation
00:14
Besprechung/Interview
01:51
Besprechung/Interview
03:27
Besprechung/Interview
05:25
Besprechung/Interview
06:13
Besprechung/InterviewComputeranimation
Transkript: Deutsch(automatisch erzeugt)
00:00
Also das DD-Korpus wurde im Rahmen des Projektes DD, Digital Natives, Digital Immigrants, Schreiben
00:22
auf sozialen Netzwerken aufgebaut und zwar diente das zur Dokumentation des damals aktuellen Sprachgebrauchs in nicht institutioneller Alltagssprache in sozialen Medien. Exemplarisch hat man sich dabei Facebook ausgesucht als damals vorherrschende Social Networking Plattform. Das
00:42
Ziel war wirklich Sprache abseits von normgebundenen Kontexten zu beobachten und dabei auch einen Fokus auf die Südtiroler Sprachlandschaft zu legen. Das heißt wir beobachten im DD-Korpus vor allem Formen der inneren und äußeren Mehrsprachigkeit, wie zum Beispiel einerseits innere Mehrsprachigkeit
01:04
der Südtiroler Dialekt, der in der gesprochenen Alltagssprache eine unglaubliche Wichtigkeit auch in Südtirol einnimmt und andererseits auch Einflüsse der unterschiedlichen Landessprachen hier in Südtirol. Wichtig war uns bei der Erstellung des DD-Korpus, dass es sich im
01:24
Gegensatz zur damals vorherrschenden korpuslinguistischen Forschung in sozialen Medien auch um Sprache des privaten Sektors handelt, also um authentisches privates Sprachmaterial und dass es nicht nur junge Generationen abbildet, sondern auch ältere
01:44
Generationen, also die ganze Population auch das ganze Altersspektrum zeigen soll. Das DD-Korpus umfasst die Facebook-Texte eines ganzen Jahres, also die gesamte Textproduktion
02:04
im Jahr 2013 von 136 Südtirolerinnen und Südtirolern, die uns ihre Facebook-Texte zur Verfügung gestellt haben. Das heißt insgesamt umfasst das Korpus ca. 40.000 Facebook-Texte, davon
02:22
entfallen ungefähr 11.000 auf Statusmeldungen, ca. 9.000 auf Kommentare und der Rest sind Chatnachrichten, das heißt private Direktnachrichten, wie man sie auf Facebook versenden kann. Der Großteil der Texte ist in Deutsch verfasst, es gibt aber auch andere Sprachen, darunter
02:41
einerseits die Landessprachen, italienisch und latinisch, andererseits auch Global Players wie Englisch oder auch ganz andere Sprachen wie Französisch, Portugiesisch, Spanisch, Albanisch, Hebräisch etc. Im Rahmen der deutschen Texte wurden ca. 30% anhand ihrer Abweichungen
03:02
von der deutschen Autografie als dialektal eingestuft. Außerdem sind ca. 2600 Texte und weisen die Formen von Mehrsprachigkeit auf, wie z.B. Code Switching, Code Mixing,
03:20
aber auch einzelne Einschübe von Ad-hoc-Entlegenungen und normale Lehnwörter. Das Didi-Korpus kann ganz einfach genutzt werden, indem man sich online in die Korpus-Abfrage-Oberfläche
03:42
einklickt. Das ist eine Anis-Suchoberfläche, wo man auf unterschiedlichen Annotationslayers die Texte durchsuchen kann, und zwar auch die Annotationen, die wir im Rahmen der Phänomene der Mehrsprachigkeit oder der Sytrolismen oder auch der internetbasierten Kommunikation
04:07
annotiert haben. Zum anderen kann man da auch auf eine breite Auswahl von Metadaten zu den Personen, die uns die Daten gespendet haben, zugreifen. Das heißt, es sind Metadaten
04:20
wie Alter, Geschlecht, Erstsprache, aber auch Internetnutzungsgewohnheiten. Die Texte können in dieser Suchoberfläche auf der originalen Schreibung gesucht werden. Man kann aber auch nach normalisierten, autografiegerechten Wörtern suchen oder auf der Lämmer-Ebene
04:41
oder nach Wortarten zum Beispiel. Zusätzlich kann das Korpus genutzt werden, indem man sich ganz einfach über clarin.eurac.edu auf den Daten-Reporsitorium die Daten in unterschiedlichen Formaten herunterlädt. Das heißt, man kann sich dort zum Beispiel einen Dump sozusagen
05:04
von XML, normalen Textdateien oder Anis-Dateien herunterladen und wenn man ein bisschen technisch versierter ist, dann auch selbst programmatorisch mit den Daten arbeiten.
05:25
Entsprechend der ursprünglichen Motivation des TD-Projektes eignet sich das TD-Korpus besonders dafür, soziolinguistische Forschungsfragen zu bearbeiten. Besonders interessant sind aufgrund der Südtiroler Sprachlandschaft dort natürlich Fragen der Dialogtologie, aber
05:43
auch Sprachkontakt oder Mehrsprachigkeitsforschung und natürlich allgemein Fragen hinsichtlich internetbasierter Kommunikation. Das kann auch ganz einfach auf unterschiedlichen Systemebenen der Linguistik passieren. Das heißt, wir haben lexikalische Merkmale, syntaktische Merkmale,
06:00
aber auch ganz pragmatische Dinge können untersucht werden. Natürlich eignet sich das Korpus wie jedes andere Sprachkorpus auch allgemeinere Fragestellungen der Linguistik zu bearbeiten, wenn man denn das möchte.
06:20
Das Korpus ist für Studierende wahrscheinlich besonders interessant, weil es sich mit dem Korpus um eine frei verfügbare Ressource handelt, die einen leichten Einstieg in korpuslinguistische Arbeit bietet durch die bestehende Suchoberfläche, die man ganz einfach online abfragen kann. Mit dem Datendownload kann man die Daten aber auch in jedwelige
06:42
andere bevorzugte Korpus-Tools hineinladen und durch den Datendownload, wenn man eben technisch versierter ist, auch sie selbst mit korpuslinguistischen oder computerlinguistischen Tools bearbeiten und so herrichten, wie man sie gerne haben möchte. Meiner Meinung nach
07:01
ist das Korpus auch eine wirklich einzigartige Ressource, weil es ganz andere Daten bietet als zum Beispiel andere Korporate von sozialen Medien. Dabei soll, wie vorher schon erwähnt, dass es ein breites Spektrum an sozio-demografischen Daten zu den Nutzern gibt und dass es ganz
07:22
besondere Merkmale der Mehrsprachigkeit und der dialogdalen Sprachverwendung im Internet bietet.
07:43
Vielen Dank für's Zuschauen.