Interview mit Prof. Dr. Elisabeth Stark und Simone Ueberwasser, M.A. zum Korpus "What's Up, Switzerland?"
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 11 | |
Author | ||
Contributors | ||
License | CC Attribution - ShareAlike 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/65148 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
00:00
Computer animationLecture/ConferenceMeeting/Interview
00:48
Meeting/Interview
02:36
Meeting/Interview
03:02
Meeting/Interview
04:06
Meeting/Interview
06:09
Computer animation
Transcript: German(auto-generated)
00:16
Unser Corpus WhatsApp Switzerland mit schweizerischen WhatsApp-Nachrichten wurde historisch aufgebaut als Nachfolgeprojekt zum
00:25
SMS for Science Switzerland Corpus, das heißt, wir hatten schon vorher eine SMS-Sammlung erschaffen. Es hat uns erlaubt, den Vergleich im elektronischen Schreiben, es hat uns erlaubt, fünf Doktorierende insgesamt hier auch mit den Daten
00:41
arbeiten zu lassen und vor allem haben wir damit eine Open Source Ressource erstellt für die weitere Forschung am elektronischen Schreiben. Es ist ein sehr großes Corpus, man kann insgesamt sagen, dass wir über 5 Millionen Tokens haben in ganz vielen verschiedenen Sprachen, aber Simon vielleicht möchtest du die Daten noch genauer darstellen?
01:05
Danke Elisabeth, der Fokus war vor allem auf die Sprachen, die wir in der Schweiz sprechen, es hat also Schweizerdeutsche im Dialekt Daten drin, es hat aber auch im Standarddeutsch oder im nicht-dialektalen Deutsch, sehr standard ist das nicht. Dann haben wir viele französische Daten, italienische Daten und wir haben Daten in unserer Minoritätensprache romanisch und das ist relativ
01:29
speziell, weil es gibt nicht sehr viele Corpus auf romanisch und vor allem mit digitalem Schreiben, das ist schon eine Spezialität. Wir haben das interessiert vielleicht in dem Zusammenhang mit Duisburg-Meyer, wir haben 21 Chats mit
01:46
fast 300.000 Tokens im nicht-dialektalen Deutsch, die Daten sind teilweise dialogisch, teilweise sind es mehr als zwei Sprecher drin, also es sind richtig, man kann Dialogforschung machen mit den Daten.
02:02
Und wir haben im nicht-dialektalen Deutsch leider nur einen Chat, wo alle Sprecher auch ihre demografischen Daten angegeben haben, in den anderen Sprachen sind das mehr, in den anderen Variitäten auch. Im nicht-dialektalen Deutsch gibt es wirklich nur einen Chat mit, wo man auch sagen kann, die sind so alt, die sind männlich, weiblich und was wieder speziell ist bei uns in der Schweiz, wir haben sehr viel Code-Switching in unseren Daten.
02:27
Weil wir heute ein mehrsprachiges Land sind und auch mit Englisch sehr viel Code-Switching, also man sieht da offensichtlich schon Fragestellungen für die Forschung.
02:42
Das Corpus ist frei zugänglich, es ist eine Open Source und Open Research Data Ressource, wenn man so will. Es gibt einen Link, der eingeblendet ist, wenn man diesen Link folgt, dann kommt man einerseits auf die Corpus Beschreibung, die sogenannte Dokumentation und auch auf das Corpus selbst.
03:03
Die Forschungsfragen, die uns vor allem interessiert haben, waren Fragen der grammatischen Veränderung, es gibt vor allem in der Öffentlichkeit immer noch eine gewisse Angst vor dem elektronischen Schreiben. Eine Skepsis, dass hier die Sprache, die Autografie, die Struktur zerstört würde, das ist auch in der Schweiz so, wir haben deshalb hier einen Akzent gelegt.
03:23
Man kann aber natürlich, vorhin wurde darauf hingewiesen, auch das Vokabular untersuchen, was passiert mit Code -Switching, wie viele Anglicismen sind darin, verändert sich etwas, gerade im Verhältnis dann auch zu SMS. Eine sehr interessante Arbeit, die entstanden ist in Leipzig, befasst sich mit der Interaktion zwischen den
03:40
Teilnehmenden in den Chats, passen sie sich aneinander an im Verlauf von einem Chat, was den Emoji-Gebrauch angeht, bestimmte Ausdrücke, vielleicht auch wieder die Anglicismen, die Emoji selbst habe ich gerade erwähnt. Wann, wo, wie werden sie verwendet, was sind ihre Funktionen, auch dann wirklich auch ein Fokus auf den Grafischen, wird überhaupt noch Interpuktion beachtet
04:01
oder anders verwendet oder revolutioniert, alle diese Fragestellungen kann man mit unserem Corpus beantworten. Ich denke, dass das Corpus für Forschende auf allen Ebenen, egal ob das Studierende sind oder Doktoranden oder sogar Professoren, interessant ist, weil das Arbeiten mit reellen Daten ausgesprochen spannend ist und man kann tolle Forschung machen damit.
04:27
Und wir haben viele Studierende, die selber Corpora stellen, die gehen zu ihren Freunden und sagen, darf ich eure WhatsApp haben, darf ich eure Facebook-Chats haben und das ganze Aufbereiten dieser Daten ist dann ein sehr, sehr aufwendiger Prozess.
04:41
Unser Corpus bietet Daten von verschiedenen Altersgruppen, wir haben das vorhin gesagt, es bietet sehr, sehr viel und es ist schon da. Man kann sich die ganze Zeit und den ganzen Aufwand der Aufbereitung und der Sammlung sparen. Deswegen denke ich, dass es gerade für Studierende, die unter viel Zeitdruck stehen für ihr Arbeiten, ein sehr interessantes Corpus ist.
05:01
Vielen Dank, Simon. Vielleicht noch zur Ergänzung. Es sollen ja auch im Studium die ersten Schritte in die Forschung gemacht werden. Wie wir gesagt haben, ist es ein empirisches Corpus, eine reich annotierte Ressource, eine mehrsprachige Ressource, die zur Verfügung steht, frei zur Verfügung steht und da kann man dann erste Schritte in der Linguistik wichtige empirische Arbeiten machen.
05:20
Man kann auch aufgrund der großen Zahl an Tokens dann quantitative Analysen starten, zusammen zum Beispiel mit dem Betreuer an der Masterarbeit, der Bachelorarbeit schon. Das heißt, viel Zeit wird gespart. Wir haben durch die Annotationen einen gewissen Service geliefert. Man muss die Abfrage-Syntax lernen, aber man kann so erste Schritte, eigene Schritte in die Linguistik machen.
05:42
Und wenn ich vielleicht nochmal ergänzen darf, Elisabeth, vielen Dank. Das empirische Arbeiten ist auch nicht nur für die Semesterarbeit oder was es dann ist wichtig, sondern es ist auch später für einen Beruf, je nachdem, was man sich machen will, kann das eine ganz tolle Vorbereitung sein, dass man eben mal empirisch gearbeitet hat, dass man mit Statistik sich mal befassen musste usw.
06:03
Also ich denke, das ist nicht nur eine Lehre für eine Seminararbeit, sondern eben auch fürs Leben. Vielen Dank für's Zuhören.