We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Interview mit Prof. Dr. Elisabeth Stark und Simone Ueberwasser, M.A. zum Korpus "What's Up, Switzerland?"

00:00

Formal Metadata

Title
Interview mit Prof. Dr. Elisabeth Stark und Simone Ueberwasser, M.A. zum Korpus "What's Up, Switzerland?"
Title of Series
Number of Parts
11
Author
Contributors
License
CC Attribution - ShareAlike 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
In diesem Video stellen Elisabeth Stark und Simone Ueberwasser das Korpus "What's Up, Switzerland?" vor.
Keywords
Computer animationLecture/ConferenceMeeting/Interview
Meeting/Interview
Meeting/Interview
Meeting/Interview
Meeting/Interview
Computer animation
Transcript: German(auto-generated)
Unser Corpus WhatsApp Switzerland mit schweizerischen WhatsApp-Nachrichten wurde historisch aufgebaut als Nachfolgeprojekt zum
SMS for Science Switzerland Corpus, das heißt, wir hatten schon vorher eine SMS-Sammlung erschaffen. Es hat uns erlaubt, den Vergleich im elektronischen Schreiben, es hat uns erlaubt, fünf Doktorierende insgesamt hier auch mit den Daten
arbeiten zu lassen und vor allem haben wir damit eine Open Source Ressource erstellt für die weitere Forschung am elektronischen Schreiben. Es ist ein sehr großes Corpus, man kann insgesamt sagen, dass wir über 5 Millionen Tokens haben in ganz vielen verschiedenen Sprachen, aber Simon vielleicht möchtest du die Daten noch genauer darstellen?
Danke Elisabeth, der Fokus war vor allem auf die Sprachen, die wir in der Schweiz sprechen, es hat also Schweizerdeutsche im Dialekt Daten drin, es hat aber auch im Standarddeutsch oder im nicht-dialektalen Deutsch, sehr standard ist das nicht. Dann haben wir viele französische Daten, italienische Daten und wir haben Daten in unserer Minoritätensprache romanisch und das ist relativ
speziell, weil es gibt nicht sehr viele Corpus auf romanisch und vor allem mit digitalem Schreiben, das ist schon eine Spezialität. Wir haben das interessiert vielleicht in dem Zusammenhang mit Duisburg-Meyer, wir haben 21 Chats mit
fast 300.000 Tokens im nicht-dialektalen Deutsch, die Daten sind teilweise dialogisch, teilweise sind es mehr als zwei Sprecher drin, also es sind richtig, man kann Dialogforschung machen mit den Daten.
Und wir haben im nicht-dialektalen Deutsch leider nur einen Chat, wo alle Sprecher auch ihre demografischen Daten angegeben haben, in den anderen Sprachen sind das mehr, in den anderen Variitäten auch. Im nicht-dialektalen Deutsch gibt es wirklich nur einen Chat mit, wo man auch sagen kann, die sind so alt, die sind männlich, weiblich und was wieder speziell ist bei uns in der Schweiz, wir haben sehr viel Code-Switching in unseren Daten.
Weil wir heute ein mehrsprachiges Land sind und auch mit Englisch sehr viel Code-Switching, also man sieht da offensichtlich schon Fragestellungen für die Forschung.
Das Corpus ist frei zugänglich, es ist eine Open Source und Open Research Data Ressource, wenn man so will. Es gibt einen Link, der eingeblendet ist, wenn man diesen Link folgt, dann kommt man einerseits auf die Corpus Beschreibung, die sogenannte Dokumentation und auch auf das Corpus selbst.
Die Forschungsfragen, die uns vor allem interessiert haben, waren Fragen der grammatischen Veränderung, es gibt vor allem in der Öffentlichkeit immer noch eine gewisse Angst vor dem elektronischen Schreiben. Eine Skepsis, dass hier die Sprache, die Autografie, die Struktur zerstört würde, das ist auch in der Schweiz so, wir haben deshalb hier einen Akzent gelegt.
Man kann aber natürlich, vorhin wurde darauf hingewiesen, auch das Vokabular untersuchen, was passiert mit Code -Switching, wie viele Anglicismen sind darin, verändert sich etwas, gerade im Verhältnis dann auch zu SMS. Eine sehr interessante Arbeit, die entstanden ist in Leipzig, befasst sich mit der Interaktion zwischen den
Teilnehmenden in den Chats, passen sie sich aneinander an im Verlauf von einem Chat, was den Emoji-Gebrauch angeht, bestimmte Ausdrücke, vielleicht auch wieder die Anglicismen, die Emoji selbst habe ich gerade erwähnt. Wann, wo, wie werden sie verwendet, was sind ihre Funktionen, auch dann wirklich auch ein Fokus auf den Grafischen, wird überhaupt noch Interpuktion beachtet
oder anders verwendet oder revolutioniert, alle diese Fragestellungen kann man mit unserem Corpus beantworten. Ich denke, dass das Corpus für Forschende auf allen Ebenen, egal ob das Studierende sind oder Doktoranden oder sogar Professoren, interessant ist, weil das Arbeiten mit reellen Daten ausgesprochen spannend ist und man kann tolle Forschung machen damit.
Und wir haben viele Studierende, die selber Corpora stellen, die gehen zu ihren Freunden und sagen, darf ich eure WhatsApp haben, darf ich eure Facebook-Chats haben und das ganze Aufbereiten dieser Daten ist dann ein sehr, sehr aufwendiger Prozess.
Unser Corpus bietet Daten von verschiedenen Altersgruppen, wir haben das vorhin gesagt, es bietet sehr, sehr viel und es ist schon da. Man kann sich die ganze Zeit und den ganzen Aufwand der Aufbereitung und der Sammlung sparen. Deswegen denke ich, dass es gerade für Studierende, die unter viel Zeitdruck stehen für ihr Arbeiten, ein sehr interessantes Corpus ist.
Vielen Dank, Simon. Vielleicht noch zur Ergänzung. Es sollen ja auch im Studium die ersten Schritte in die Forschung gemacht werden. Wie wir gesagt haben, ist es ein empirisches Corpus, eine reich annotierte Ressource, eine mehrsprachige Ressource, die zur Verfügung steht, frei zur Verfügung steht und da kann man dann erste Schritte in der Linguistik wichtige empirische Arbeiten machen.
Man kann auch aufgrund der großen Zahl an Tokens dann quantitative Analysen starten, zusammen zum Beispiel mit dem Betreuer an der Masterarbeit, der Bachelorarbeit schon. Das heißt, viel Zeit wird gespart. Wir haben durch die Annotationen einen gewissen Service geliefert. Man muss die Abfrage-Syntax lernen, aber man kann so erste Schritte, eigene Schritte in die Linguistik machen.
Und wenn ich vielleicht nochmal ergänzen darf, Elisabeth, vielen Dank. Das empirische Arbeiten ist auch nicht nur für die Semesterarbeit oder was es dann ist wichtig, sondern es ist auch später für einen Beruf, je nachdem, was man sich machen will, kann das eine ganz tolle Vorbereitung sein, dass man eben mal empirisch gearbeitet hat, dass man mit Statistik sich mal befassen musste usw.
Also ich denke, das ist nicht nur eine Lehre für eine Seminararbeit, sondern eben auch fürs Leben. Vielen Dank für's Zuhören.