Grundwortschatz Deutsch in computerlinguistischer Perspektive
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Subtitle |
| |
Title of Series | ||
Number of Parts | 22 | |
Author | ||
License | CC Attribution - ShareAlike 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/38523 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2016 |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
3
4
5
9
10
11
12
16
17
18
19
21
22
00:00
Perspective (visual)Mach's principlePerspective (visual)Computational linguisticsDiagramLecture/Conference
01:01
BASICHTTPWeb pageBASICComputer animationLecture/Conference
03:16
BASICFrequencyInformationThomas KuhnKommunikationWorld Wide WebAtomic nucleusPhysical quantityInformationInternetFrequencySet (mathematics)TransmitterSeries (mathematics)Computational linguisticsListe <Informatik>SupremumComputer animationLecture/Conference
08:47
Term (mathematics)makeFrequencyMilitary rankFacebookMultiplicationUser interfaceTypDerived set (mathematics)System identificationZahlDurchschnitt <Mengenlehre>Distribution (mathematics)Military rankNewton's law of universal gravitationNoten <Programm>Machine learningFrequencyRepresentational state transferTemporal logicLeakComputer animationLecture/Conference
16:02
Computer wormComponent-based software engineeringForm (programming)ForestWeightFacebookDistribution (mathematics)Focus (optics)Derived set (mathematics)Spring (hydrology)Online-MedienLecture/ConferenceComputer animation
20:35
World Wide WebFrequencyVector graphicsPerspective (visual)DistanceEuclidean vectorEUKLID <Programm>Lecture/Conference
22:07
BASICMono-FrameworkDistanceAtomic nucleusSet (mathematics)Business reportingVector graphicsHausdorff spaceTable (information)Milan <Programmiersprache>ForestDatabaseKontinuumMilitary rankMaximum (disambiguation)SpeciesObservational studyCurveComputer animation
27:43
DownloadBASICCompilerMoment (mathematics)Computer animation
28:19
BASICDownloadMobile appRoute of administrationComputer animation
28:56
BASICICONMoving averageVideo projectorMilitary rankHacker (term)AbschätzungSocial classFrequencyComputer animation
32:03
Military rankSet (mathematics)Set (mathematics)ARCHIVE <Programm>APIFocus (optics)Motif (narrative)Machine learningPerspective (visual)Video gameFrequencyComputer animationLecture/Conference
38:29
Diagram
Transcript: German(auto-generated)
00:08
Thema meines Vortrags, ihr seht es, Grundwortschatz Deutsch in computerlinguistischer Perspektive. Es geht um Open Access, Lehrmaterial für Deutschlernende. Ich meine, jeder, der schon mal eine Fremdsprache gelernt hat, der sieht sich mehr oder weniger
00:20
mit der Frage konfrontiert, welche Wörter soll man denn zuerst lernen. Also, eigentlich eine ganz triviale Frage. Womit fange ich eigentlich an, bei diesem Riesenberg an Wörtern, die es da so gibt in so einer Fremdsprache, welche Wörter nutzen einem eigentlich am meisten? Und ja, wir nennen diese Wörter, die man so als Erstes lernen soll, die wir, also wir
00:43
als Sprachwissenschaftler, der ich eben bin, wir nennen diese Auswahl aus diesem Gesamtwortschatz einer Sprache, nennen wir Grundwortschatz. Und in meinem Vortrag möchte ich heute linguistische, computerlinguistische Methoden vorstellen, wie man zu so was gelangen kann, wie einem Grundwortschatz.
01:01
Das Ganze möchte ich zunächst mal bekannt machen mit Nyanco. Nyanco ist unser Maskottchen von unserem Projekt. Das liegt daran, dass, also nicht nur daran, aber auch daran, dass Japaner in diesem Projekt beteiligt sind, japanische Kolleginnen und Kollegen. Und die mögen Katzen furchtbar gerne, so wie natürlich auch die ganze Netzgemeinde.
01:21
Also haben wir ein Maskottchen Nyanco. Unser Projekt wurde finanziert von der Japanese Society for the Promotion of Science, der ich natürlich extrem dankbar bin für diese Förderung, muss man an dieser Stelle auch mal sagen. Beteiligt sind noch zwei Kollegen aus Japan, Okamura Saburo und Willi Lange. Und die Webseite des Projekts ist basic-german.com.
01:47
Bevor es losgeht mit dem Vortrag, bevor ich euch was erzähle, möchte ich, dass ihr mir erst mal was sagt oder gebt. Und zwar, einige von euch sind ja sicherlich online. Und schaut doch mal bitte auf der Seite basic-german.com slash umfrage html vorbei.
02:05
Dort findet ihr so eine kleine, wirklich kleine Frage. Welches Wort sollte man eher lernen? Da gibt es eine Auswahl bequem oder gemütlich, betrügen oder täuschen, Ritter oder Soldat, Vergangenheit oder Gegenwart, hacken oder spalten,
02:23
Hund oder Katze. Und da könntet ihr euch mal entscheiden. Und wir kommen dann später auf die Ergebnisse zurück, die ihr vielleicht schon mehr oder weniger live nach Erfolg der Eingabe sehen könntet. Kriegt ihr was angezeigt?
02:41
Ja? Ah, gut. Okay. Ihr merkt vielleicht, wenn ihr euch damit beschäftigt, welches Wort man jetzt hier auswählen soll, dass das so ohne Kontext doch etwas schwierig möglich ist. Also irgendwie fehlen einem ja so ein bisschen die Kriterien zu sagen, ach ja, bequem ist wichtiger als gemütlich oder betrügen ist wichtiger als täuschen.
03:05
Man kann natürlich sagen, okay, Soldat ist irgendwie das modernere Wort, Ritter ist irgendwie so ein älteres Wort. Vielleicht ist das dann irgendwie auch nicht mehr so wichtig. Es gibt in der Sprachwissenschaft unterschiedliche Methoden, mit der man versuchen kann, zu bestimmen, was eigentlich sozusagen der Kernwortschatz ist.
03:21
Und alle drei Methoden werden in einem Vorwort von einem Grundwortschatz thematisiert, den ich euch jetzt gleich zeigen will, nämlich Langenscheidts Basic German Vocabulary. Die schreiben Folgendes. Langenscheidts Basic Vocabulary selects the most important words for a student to learn and use. Super.
03:40
Also die wichtigsten Wörter, klar. The Basic Vocabulary is based on evaluation of numerous lists of Basic German Vocabulary published in Germany, Austria, Switzerland and other countries. All the important sources of information on word frequency in written and spoken German were considered. The choice of words was not based only on frequency.
04:01
Factors such as how familiar and useful a word is in everyday conversation were also considered. Langenscheidts experience in producing dictionaries and teaching materials also helped. Also ihr seht schon, da sind eine ganze Reihe an Kriterien genannt, also erstmal most important words,
04:20
die sich auf unterschiedlichen Listen fanden, also in anderen Grundwortschätzen schon gefunden haben. Und dann all the important sources of information on word frequency, Frequenz wurde also benutzt. Wie häufig kommt ein Wort vor? Und dann kamen noch so Factors such as how familiar
04:42
and useful a word is in everyday conversation. Also wie nützlich ist eigentlich ein Wort in der Alltagskonversation? Und schließlich noch, wir haben außerdem noch unseren großen Erfahrungsschatz im Machen von Wörterbüchern einfließen lassen und sind auf diese Weise dazu gekommen. Das sind eigentlich Ansätze, die immer wieder,
05:02
oder es enthält eigentlich alle Ansätze dieser Text, die man so anwenden kann. Die Frage ist eben nur, wurden die denn auch, oder wann wurde denn welcher Ansatz verwendet? Das klingt so ein bisschen wie, naja, wo wir gedacht haben, das ist wichtig, da haben wir dann irgendwie den Alltagskonversationsansatz gewählt und bei den anderen
05:21
haben wir den Frequenzansatz gewählt. Und wo wir dachten, ach nee, das kann jetzt echt nicht sein, haben wir unsere eigene Erfahrung einschließen lassen. Und also es ist nichts falsch daran, diese Kriterien zum Ansatz zu bringen. Wenn man es wissenschaftlich machen will, so wie wir es uns vorgenommen haben, dann ist es natürlich besser sozusagen einen Weg methodisch sauber zu verfolgen. Ich will jetzt nochmal ein bisschen auseinandernehmen
05:43
die einzelnen Ansätze. Es gibt also den kommunikativ pragmatischen Ansatz. Pragmatisch heißt irgendwie, welche Anwendungsfelder gibt es eigentlich davon im Alltag? Also hier die Frage, welches lexikalische Material benötigt ein Sprecher, ein Schreiber, um in einer bestimmten Situation über ein bestimmtes
06:02
Thema, in einer bestimmten Rolle, mit einer bestimmten kommunikativen Intention, also mit einer kommunikativen Absicht und in einem bestimmten Modus, also scherzend oder eben ernsthaft oder irgendwie wahrheitsbezogen, erfolgreich zu kommunizieren. Also das heißt, man hat hier die Idee, wir gehen von Kommunikationssituationen aus
06:21
und wir überlegen uns, was sind eigentlich wichtige Kommunikationssituationen und dann denken wir uns den Wortschatz, den man in diesen Situationen braucht. Also typischerweise beim Einkaufen, im öffentlichen Personennahverkehr, auf Reisen oder sowas. Das ist natürlich erstmal ein sehr plausibler
06:42
Ansatz, denn natürlich irgendwie, wo begegnen wir Wörtern in der Sprache, im konkreten kommunikativen Umgang mit anderen Leuten? Allerdings ist es halt auch schwer zu sagen, was sind denn eigentlich die wichtigen Alltagssituationen, mit denen man es jeden Tag zu tun hat? Die sind vielleicht für jemanden wie mich ganz anders als für jemanden wie,
07:01
ich weiß nicht, jemand, der in einer Werbeagentur arbeitet beispielsweise. Ein zweiter Ansatz, den man verfolgen kann, der auch auftauchte, in diesem langen Scheitwörterbuch, war der frequenzorientierte Ansatz. Also man sagt einfach, wie wahrscheinlich ist es denn, dass eine bestimmte Person auf ein Wort trifft?
07:22
Und was macht man? Man nimmt große Corpora, große Textmengen, die irgendwo im Internet rumfliegen zum Beispiel und sagt, okay, wir können untersuchen, wie häufig ist dort ein Lexem, also ein Wort, und wenn es oft vorkommt, dann ist die Wahrscheinlichkeit auch groß, dass eine Person, die eine Fremdsprache lernt und mit anderen Menschen in dieser
07:40
Fremdsprache kommunizieren will, auf dieses Wort treffen wird. Also das ist der frequenzorientierte Ansatz. Und dann gibt es als dritten Ansatz noch den lexikografischen Ansatz, wo man versucht, auf der Basis schon bestehender Wörterbücher lexikalische Schnittmengen zu bilden, um so etwas wie ein Kern oder ein Kernwortschatz ein Zentrum auszumachen.
08:01
Und das ist also jetzt hier der dritte Ansatz, den man da so feststellen kann. Und auch Langenscheid hat auch auf diese Ideen zurückgegriffen. In unserem Forschungsprojekt haben wir, naja, klar, wir sind Corpus und Computerlinguisten, wir haben uns entschieden,
08:20
datengeleitet vorzugehen. Also wir wollten tatsächlich mit Frequenzen arbeiten, weil uns dieser Ansatz am einfachsten zu objektivieren schien, oder die Ergebnisse am leichtesten zu verallgemeinern. Das heißt nicht, dass dieser Ansatz der einzig seligmachende ist, sondern das ist nur eine Möglichkeit, sich der Sache anzunähern, aber einer,
08:42
die es ermöglicht, methodisch sehr konsistent dabei zu argumentieren. Vielleicht noch ganz kurz zum Unterschied zwischen Corpus-based und Corpus-driven, also data-driven, data-based. Die Idee bei database ist, man hat eine Hypothese und man versucht diese Hypothese ja, zu bewähren oder zu falsifizieren,
09:00
indem man eben in Daten guckt und, naja, also man hat eine bestimmte Hypothese und man sucht Daten, die dazu passen oder eben, die diese Hypothese widerlegen. Bei Corpus-driven ist es anders. Corpus-driven versucht sozusagen alle Muster, die in einer großen Textmenge vorhanden sind, zunächst mal zu berechnen und dann zu schauen, welche Muster sind denn hochsignifikant, um sich dann von den
09:21
Ergebnissen selbst steuern zu lassen. Also wir haben nicht irgendwie gesagt, okay, wir haben 5.000 Kandidaten von Wörtern, von denen denken wir, die sind vielleicht ganz wichtig und aus diesen 5.000 berechnen wir mal was und testen, ob die wirklich so wichtig sind. Nein, wir haben wirklich sozusagen das gesamte Corpus genommen und haben alle zwei, etwa zwei Millionen Wörter, die darin vorkamen,
09:41
daraufhin untersucht, ob sie gegebenenfalls geeignet sind, in den Grundwortschatz zu kommen. Grundwortschatz, um das nochmal zu präzisieren, also wir sprechen einerseits von Kernwortschatz, das ist das, was wir hier ausrechnen, frequenzorientiert. Ein Grundwortschatz ist dann eben eine spezifische Auswahl für
10:00
Lernende. Okay, was heißt Frequenzorientierung? Man kann ja nun einfach sagen, okay, wir zählen einfach Wörter. Die häufigsten, die nehmen wir. Das hat man lange gemacht, aber wir haben gedacht, man kann dieses Kriterium ja doch durchaus noch differenzierter betrachten. Wir könnten zum Beispiel sagen, dass neben der Häufigkeit auch die
10:22
Stabilität eines Wortes wichtig ist. Also ich hab vielleicht einen Corpus, das um fast 20 Jahre. In diesem Corpus war dieses Wort vielleicht in einem Jahr ein Modewort und ist deswegen sehr häufig vorgekommen. Das kann also durchaus sein. Aber solche Wörter wollen wir eigentlich nicht haben. Wir wollen Wörter, die stabil vorkommen.
10:42
Und schließlich, das Deutsche ist ja nun eine Sprache, dass in der Wortbildung durchaus ein großes Potenzial hat. Wir setzen Wörter zusammen. Also ihr kennt den Donaudampfschiff, Arztkapitänsgesellschaft und so weiter. Aber es gibt eben auch viele Ableitungen. Hunger, hungrig und so weiter. Das heißt,
11:01
wir kennen verschiedene Wortbildungsmittel und uns interessiert natürlich auch, oder für einen Lerner kann es interessant sein, Wörter zu kennen, mit denen man viele andere Wörter machen kann. Viele neue Wörter machen. Auch das ist ein Frequenzphänomen. Und wir haben uns bemüht, Frequenzorientierung eben in diese drei Dimensionen zu differenzieren. In Häufigkeit, Stabilität
11:21
und Produktivität. Häufigkeit ist zunächst mal wirklich ein ganz triviales Phänomen. Wir haben einfach gesagt, wie häufig kommt ein Phänomen, also ein Lexem vor, in 100.000 Wörtern im Durchschnitt. Und man kann das auch als Häufigkeitsklasse bestimmen. Das ist dann
11:41
umgekehrt proportional zu seinem Rang. Also ein Wort, das in etwa so eine Distribution aufweist. Also wir sehen hier jedes dieser Dokumentenzeichen ist ein Text. Und jeder rote Punkt hier ist ein Auftreten des Wortes. So eine Distribution ist zwar interessant, so eine Distribution ist aber für uns
12:01
interessanter. Weil ein Wort kommt in vielen Texten häufiger vor als davor. Also ganz trivial. Zum Aspekt der Stabilität. Wir zählen einerseits natürlich zum Kernwort Schatz Lexeme, die über einen längeren Zeitraum hin gleichmäßig häufig
12:21
auftreten. Also keine Modewörter sind. Aber auch solche Phänomene, und das ist auch Stabilität in gewisser Weise, die eben nicht besonders Themenaffin sind, sondern die stabil über alle Themen verteilt sind. Also eine Distribution wie diese hier, wo man in wenigen Dokumenten
12:41
ein häufiges Auftreten eines Lexemes hat, ist natürlich für uns nicht so interessant wie so eine Verteilung. So eine Verteilung ist für uns schön, weil wir haben eine thematische Stabilität, oder auch eben sozusagen eine Nicht-Themen-Fixierung. Während wir in diesem Phänomen hier offenbar haben wie ein Fachwort Schatz.
13:01
Und Fachwort Schatz ist natürlich auch, kann mitunter sehr nützlich sein, je nachdem, wo ein Lerner eine Lernerin hin will. Aber sozusagen für den Grundwort Schatz als sozusagen wirklich der Kernbestand ist sowas natürlich interessanter, weil die Wahrscheinlichkeit größer ist, dass man auf dieses Wort trifft als auf das andere, weil es in
13:21
mehr Dokumenten vorkommt. Zuletzt den Aspekt der Produktivität. Also wie gesagt, wir zählen zum Kernwort Schatz Lexeme, die zunächst mal viele unterschiedliche Ableitungen oder Zusammensetzungen haben. Allein die rohe Zahl. Und dann
13:41
nochmal zählen wir natürlich, wie häufig sind diese Ableitungen. Wie häufig sind beispielsweise Kompositer mit Lüge in einem bestimmten Korpus umzumessen. Wie produktiv ist eigentlich Lüge oder beispielsweise das Wort Presse. Besonders wichtig sind dabei natürlich
14:02
lexikalische Morphemen, also Wortbestandteile, die als Zweitglied in einem Kompositum vorkommen, also in einem zusammengesetzten Wort. Also irgendwie Sportpresse, Tagespresse, Wahrheitspresse. Da ist immer Presse gemeint und Presse ist das entscheidende Wort für die Bedeutung. Das andere modifiziert diese
14:21
Bedeutung, das spezialisiert diese Bedeutung. Insofern sind Wörter, die im Zweitglied bei einem Kompositum vorkommen, für uns besonders interessant oder solche Wörter, die eben sehr häufig Zweitglied sind. Hier nochmal ein Beispiel, eben weil wir schon gerade dabei sind zum Thema Produktivität. Wir sind Kompositer mit
14:41
dem Wort Lüge. Oh, ich bin im falschen Fenster, habe ich navigiert. Auf der Pegida-Fan-Seite visualisiert mal und da sieht man eben, dass Lügen sowohl Zweitglied als auch Erstglied sein kann. Also wir sehen zum Beispiel Lebenslüge als eine mögliche Zusammensetzung.
15:01
Wir haben aber natürlich auch Lügenpresse manipuliert, Lügenmärchen, Lügenmedien, Lügenbarometer und so weiter. Und ihr seht, dass die Anzahl der Wörter, wo Lüge das Erstglied ist, doch deutlich häufiger, deutlich mehr sind als dort, wo Lüge Zweitglied ist.
15:20
Und also sowas haben wir eben auch ausgezählt und ausgewertet. Hier nochmal die Kriterien im Überblick. Also wir haben irgendwie die Dimension Häufigkeit, Stabilität und Produktivität. Häufigkeit haben wir einfach an der Frequenz gemessen. Stabilität haben wir sowohl temporal über mehrere Jahre, bleibt
15:41
an Lexem stabil über Jahre. Oder thematisch, also das heißt, ist ein Lexem themenaffin oder nicht. Das haben wir berechnet. Wir haben die Produktivität gemessen an ganz unterschiedlichen Kriterien hier. Die will ich jetzt nicht alle ins letzte Detail ausführen. Kann man zur Not nachgucken.
16:03
Womit haben wir gearbeitet? Also wir haben zunächst mal selber Corpora zusammengestellt, also große Textmengen. Und zwar haben wir uns gedacht, wir arbeiten mit zwei kommunikativen Grundkonstellationen. Einerseits Zeitungstexte. Das ist so das Klassische. Auch sozusagen die klassische Idee. Leute lernen eine Sprache, um
16:21
beispielsweise mit ihr sich Textuniversen zu erschließen, um Literatur lesen zu können. So eine Art Bildungssprache. Und die findet man vielleicht noch am ehesten eben in überregionalen Zeitungen oder Online-Medien. Und die andere Seite ist natürlich persönlich adressierend und konzeptionell mündlich. Also sozusagen
16:42
Interaktionssprache. Corpora, also richtig große Corpora für gesprochene Sprache gibt es leider viel zu wenige. Deswegen haben wir auf, ja, wird man gleich sehen, eben auf voren Corpora zurückgegriffen, weil die eben natürlich diesen interaktiven Aspekt haben. Da werden Personen zum Teil
17:00
wenigstens persönlich adressiert. Und es ist natürlich eindeutig konzeptionell mündlich. Man sieht das dann auch in den Ergebnissen eigentlich. Wir wollten natürlich noch wissen, das Corpus musste mehrere Jahre abdecken. Wir wollten ja temporale Stabilität messen. Wir wollten thematische Variationen in unserem Corpus haben. Und das Corpus musste groß
17:20
sein, damit wir irgendwie tatsächlich Stabilität und Produktivität irgendwie auch tatsächlich valide messen konnten. Wir haben insgesamt ein Corpus von etwa, ich weiß gar nicht, fast 800 Millionen Wörtern gebildet. Als Quellen dienten uns im Bereich der Internetforen Seniorentreff.de, weil
17:40
naja, wir denken immer, die meisten Foren werden von jüngeren Leuten gespielt. Das stimmt wahrscheinlich nicht, aber wir haben uns bewusst dafür entschieden, auch ein Forum zu nehmen, an dem ältere Menschen aktiv sind. Wir haben das Brigitte Forum genommen und wir haben Politikforen.net genommen. Ja,
18:01
haben wir gemacht. Ich will jetzt nicht viel sagen. Entscheidend ist nur bei dieser Auswahl der Foren, dass diese Foren einfach praktisch alle Themen abdecken. Auch wenn das Politikforen politikforen.net heißt, deckt es ein weites Spektrum ab. Seniorentreff.de ist ein universelles Forum, in dem sich über alles unterhalten wird, von Politik
18:21
bis zum Haushund und Brigitte, klar, also die ganze, kann man schon fast sagen, die ganze Welt. Und diese Foren sind riesengroß. Man muss sich das nochmal klar machen. Wir denken über Facebook und das ist alles wahnsinnig wichtig, aber es gibt so unendlich viele Foren zu so unendlich vielen Themen, die so unendlich groß sind.
18:41
Auch das dürfen wir immer nicht vergessen. Bei dem Zeitungskorporat haben wir auf Spiegel Online 2000 bis 2012 zurückgegriffen, den Druckenspiegel von 1990 bis 2011, die Zeit von 1995 bis 2011 und den Fokus von 1993 bis 2012. Die Korporate sind unterschiedlich
19:01
groß etwas, aber das macht nichts, weil wir haben sie gleich gewichtet dann später. Wir haben ja, wie sind wir jetzt rangekommen an die Composita und Ableitung? Wir haben dazu zurückgegriffen auf Morfisto. Das ist ein Analysetool, mit dem man eben
19:21
Wörter in ihre Bestandteile zerlegen kann und das sieht dann etwa so aus. Für Kinderarzt kriegt man alle möglichen Interpretationen für das, was man da, für das, was man da an Wortmaterial findet. Wirklich alle möglichen Interpretationen
19:40
und man musste dann halt, also es war, wir haben dann tatsächlich eben nur die einfachsten Dinge genommen. Wir haben uns eben wirklich nur dafür interessiert, was sind eigentlich sozusagen die wortwärtigen Bestandteile in diesen Composita und haben die dann da eben rausgeholt und haben die ausgezählt. Was wir also gemacht haben ist, wir haben das Korpus zunächst Lämmatisiert, so heißt das,
20:01
wir haben die flektierten Formen, also wie er geht, haben wir zurückgeführt auf die Grundform gehen. Wir haben diese Wörter morphologisch gepaarst, also das heißt wir haben sie in ihre Bestandteile zerlegt, wir haben die lexikalischen Morpheme rausgeholt. Bei Kindergärtnerin wäre es eben Kinder, also Kind und
20:21
Garten und natürlich Kindergarten auch und wir haben danach die Distribution dieser lexikalischen Morpheme, aber auch alle Einzellexeme berechnet. Jetzt mal ein Beispiel dafür, was bringt eigentlich so eine Produktivitätsuntersuchung? Wir haben hier zwei Wörter, die kommen
20:41
oder die haben etwa gleich viele Composita. Also nämlich Futter und Frucht. Sind jetzt, naja, entfernt verwandte Lexeme und man sieht hier, okay, wir haben hier mal im Jahr 2002 einen Peak für Futter, aber ansonsten sind
21:00
die Anzahl der Composita, die man bildet, also wie Fruchtzucker oder Futterkrippe oder sowas, sind etwa gleich. Wenn wir aber anschauen, wie häufig sind die jeweiligen Composita, dann sehen wir, dass die bei Frucht sehr viel häufiger sind als bei Futter, nämlich mindestens doppelsehäufig und
21:20
aus so einer Perspektive kann man dann eben, wenn man sowas im Modell einfügt, kann man dann eben sagen, okay, Frucht scheint ja doch ein wichtiges Wort zu sein als Futter. Das brauchen wir nicht. Was wir dann genommen haben, ist, wir haben diese Werte, diese sieben insgesamt Werte,
21:41
also wir haben sie normalisiert und so weiter und haben sie dann in einen oder als Vektoren aufgefasst und haben die euklidische Vektordistanz berechnet, um zu sehen, welche, ja, welche Wörter haben denn sozusagen von unserem Idealvektor der maximal produktiv, maximal stabil, maximal
22:01
frequent, haben denn da den geringsten Abstand? Und das Ergebnis von dieser datengeleiteten Analyse sieht dann also in etwa so aus, nicht in etwa, sondern ziemlich genauso. Es gibt also so ein paar Wörter, die haben eine relativ geringe Vektordistanz zu diesem Idealvektor
22:21
mit maximaler Häufigkeit und maximaler Stabilität und maximaler Produktivität und wir sehen hier eine Kurve, die immer flacher wird und dann fast stetig zu steigen scheint. Wenn wir dann so in Bereiche kommen, wo wir so 60.000 Wörter
22:40
haben, das ist völlig unrealistisch für Lernende, so einen Wortschatz zu erwerben. Also normalerweise geht man davon aus, dass so in einem bis zwei Studienjahren zwischen 2.000 und 4.000 Wörtern maximal aufgenommen werden können. Also da muss man schon sehr intensiv Wortschatz studieren. Insofern, wir reden eher von diesem Bereich
23:00
hier, also in dem wir uns bewegen, wenn wir über den Grundwortschatz reden. Die Frage ist, gibt es überhaupt so etwas wie einen Kernwortschatz? Das ist mal die erste Frage, die man sich stellen kann. Wir tun immer so, als gäbe es sowas. Als könnte man das berechnen und dann können wir sagen, ok, daraus machen wir jetzt einen Grundwortschatz und das
23:20
haben dann die Leute zu lernen und dann lernen sie viel besser Deutsch und können viel schneller mit anderen Menschen in Kontakt geraten, ohne sich großartig misszuverstehen und so weiter. Wenn man diese Daten anguckt, muss man sagen, nein, es gibt keinen Kernwortschatz. Sondern es gibt ein Kontinuum, das wir dezisionistisch und natürlich
23:42
irgendwie lehrpraktisch abschneiden müssen. Also wir müssen irgendwo einfach einen Cut setzen und sagen, mehr schafft ihr eh nicht. Begnügt euch mal mit dem. Das erstmal, so könnte man sagen, ist eines der Ergebnisse hier raus. Zerstreut uns ein bisschen unsere Hoffnung, die wir hatten. Wir hatten gedacht, vielleicht gibt es ja doch irgendeinen Kriterium, wo man sagen
24:02
kann, ja, hier gibt es irgendwie einen Wechsel, einen Richtungswechsel in der Kurve oder sonst irgendwas, aber nein, es gibt einfach nichts. Das ist schon mal sehr bedauerlich. Man kann so ein bisschen sich vortasten, wenn man zum Beispiel die Differenzen in den Stabilitätswerten ansieht.
24:21
Das heißt, ab wann werden denn Lexeme weniger stabil, ab welchem Rang etwa. Und da sehen wir, dass die Stabilität maximal, also die Unterschiede in der Stabilität zwischen einem Wort und einem Wort davor im Rang ist etwa bei 25.000
24:41
am kleinsten und danach werden die Abstände wieder größer. Das heißt, die Wörter werden instabiler im Laufe. Diese Wörter hier werden wieder instabiler, während wir hier eine Verfestigung haben. Das heißt, wir könnten sagen so, vielleicht gibt es so was wie einen Kernwortschatz bei 25.000 Wörtern. Aber dann ist es auch kein Kernwortschatz mehr, sondern da ist es schon irgendwie so Fruchtfleisch,
25:00
ganz viel drumrum. Was wir auch gemacht haben, ist, wir haben Schnittmengen gebildet. Das heißt, wir haben berechnet, wie viele Wörter der ersten 5.000 Wörter zum Beispiel sind denn im Foren-Korpus, für das Foren-Korpus-Kernwortschatz und andererseits für das Print- und Online-Medien-Korpus,
25:21
also Zeitungskorpus. Und wir haben geguckt, welche von denen sind denn gemeinsam. Was ist die Schnittmenge dieser jeweiligen Korpora? Und wenn man das macht, kommt man wiederum zu einem ganz ähnlichen Ergebnis. Je kleiner man das macht, desto kleiner ist die Schnittmenge. Das steigt dann irgendwann zu einem Maximum von 70% und diese 70%
25:41
Schnittmenge ist wiederum bei etwa 25.000 Wörtern. Danach geht es wieder aus, dann wird die Schnittmenge wieder kleiner. Das heißt, man könnte wiederum vermuten, dass der Wortschatz sich stärker diversifiziert. Aber wie gesagt, das sind nur so nette Ergebnisse, die man mal zuhause aus Spaß rechnet.
26:00
Wir haben es jetzt wenigstens mal für uns geklärt, dass es eben keinen Kernwortschatz gibt, sondern dass es so leichte Ansätze dazu gibt, dass der Wortschatz sich stärker diversifiziert. Über 25.000, aber das ist nicht wirklich ein Ergebnis, mit dem wir viel anfangen können. Also ihr habt schon gesehen, es gibt also große Unterschiede
26:21
zwischen Foren und Zeitungen. Darauf gehe ich jetzt nicht mehr ein wegen dem Zeitmangel. Wir haben diesen Wortschatz natürlich nicht nur berechnet, sondern auch beschrieben. Und das ist eben auf basic-german.com zu finden. Dort findet sich einerseits eine Datenbank,
26:44
die gesamte Datenbank, das heißt, für die unterschiedlichen Arten von Grundwortschätzen, die wir berechnet haben, die ersten 10.000 Wörter. Wie gesagt, schon zu viel eigentlich, aber wir dachten, das macht schon Sinn, irgendwie die ersten
27:01
10.000 Wörter hinzustellen. Wir haben auch noch ein Grundwortschatz für Kinder berechnet, also das heißt, aus etwa 1000 Kinderbüchern die gleichen Methoden angewendet, um zu schauen, was sind da eigentlich die frequentesten und stabilsten und produktivsten Wörter. Und man kann sich natürlich auch eine Tabelle mit allen Werten anzeigen
27:22
lassen. So ist denn jetzt... Ja, also das kann man auch. Alle Werte. Das ist dann eine etwas breitere Tabelle. Aber das ist auch ganz interessant zu sehen, wo sind denn eigentlich Unterschiede zwischen den Corpora? Das ist also zunächst mal möglich.
27:44
Der lädt noch ein bisschen. Wir haben den Wortschatz natürlich auch beschrieben. Das heißt, wir haben irgendwie zum Beispiel eine ausführliche Beschreibung gemacht, das sind Beispielsätze, englische Übersetzungen. Weil es auch ein Projekt mit japanischen Kollegen waren, haben wir natürlich auch
28:02
darauf Wert gelegt, dass es japanische Beispielsätze und japanische Übersetzungen gibt. Also wenn jemand von euch Japaner oder Japanerin ist, werdet ihr hier noch glücklicher als mit dem Englischen. Weil da auch die Beispielsätze übersetzt sind. Und... Moment, so... Und es gibt auch, man kann auch mit Flashkarten lernen.
28:22
Aber das sind nur so natürlich Anwendungen, die halt nicht sehr zugeschnitten auf bestimmte Userinnen und User sind, sondern die halt einfach, die wir generiert haben, weil es so Standard Dinge sind. Aber es besteht natürlich die Möglichkeit und die Hoffnung auch, dass dieser Wortschatz auch von anderen benutzt wird. Wir haben ihn unter einer Creative Commons
28:43
Lizenz veröffentlicht. Und ja, es wäre schön, wenn ihr oder wenn sich bei euch jemand findet, der irgendwie sagt, ja, ich mache sowieso gerade eine App oder sowas und mit diesem Wortschatz dann arbeiten könnte, der fast vollständig, zumindest was die ersten 2000 Wörter sind, fast vollständig geschrieben und mit Beispielsätzen
29:02
versehen ist. Jetzt zu den Ergebnissen eurer Befragung. Okay, ihr habt euch entschieden für gemütliches, wichtiger als bequem. Kann mir jemand sagen warum?
29:23
Ja, weil es kulturell wichtig ist für Deutschland. Das ist natürlich etwas, was man überhaupt nicht korpuslinguistisch ohne weiteres messen kann. Jedenfalls nicht mit unserem Ansatz. Betrügen ist weniger wichtig als täuschen. Das ist sogar das Ergebnis ziemlich eindeutig. Woran liegt das?
29:44
Ist in dem Fall eine Frequenzabschätzung. Oh, Ritter. Alles klar, ihr findet Ritter ist wichtiger als Soldat. Ich nehme an, da spielen auch gewisse ethische Gedanken eine Rolle. Die Gegenwart denkt ihr ist wichtiger als die Vergangenheit,
30:00
als das Wort Vergangenheit. Da bin ich jetzt ein bisschen enttäuscht. Bei Wortpaar 5 hätte ich jetzt schon gedacht, dass ihr alle hacken sagt und nicht spalten. Und Katze ist klar. Damit habe ich gerechnet, dass ihr sagt, Katze ist wichtiger als Hund. Ich wollte zum Abgleich nochmal die Daten von uns zeigen,
30:20
die ihr jetzt leider nicht so seht, weil das der Beamer nicht licht stark genug ist, glaube ich. Es ist hier so, dass Bequem tatsächlich knapp vorgemütlich liegt, weil es frequenter ist. Betrügen liegt auch deutlich hinter Täuschen übrigens. Also Täuschen ist tatsächlich frequenter,
30:41
auch weil es natürlich auch jemand täuscht sich und so weiter. Es ist auch produktiver als Betrügen. Wir haben Vergangenheit und Gegenwart. Hier seht ihr den Rang und hier die Häufigkeitsklasse. Da sieht man also, und vielleicht kann ich so ein bisschen anleuchten. Also Gegenwart ist deutlich seltener als Vergangenheit.
31:03
Interessanterweise. Deutlich seltener. Gegenwart kommt vielleicht knapp noch so in den Grundwortschatz rein. Vergangenheit aber ganz sicher. Bei Soldat, ach so bei Hacken ist es so. Ihr habt recht gehabt, Spalten kommt häufiger vor als Hacken. Der Soldat ist natürlich
31:21
sehr viel häufiger als der Ritter. Das wundert mich jetzt schon. Darin sind aber vor allem die Printmedien schuld, die sehr viel über Soldaten schreiben. Und da muss ich euch leider auch, ich war auch enttäuscht, der Hund ist sehr viel häufiger als die Katze. Also Katze ist eher jetzt nicht, also ist Rang 2409. Das ist schon an der Grenze
31:41
zum engeren Grundwortschatz. Wir müssen was tun, sagt auch unsere liebe Katze Njanko. Und ich bedanke mich für eure Aufmerksamkeit. Und jetzt stehe ich für Fragen zur Verfügung.
32:12
Keiner.
32:21
Hallo, erstmal vielen Dank für den Vortrag. Was mich persönlich interessiert, wie habt ihr die Wörter aus den Printmedien rausgekriegt? Also gerade, ihr habt ja einen relativ langen Zeitraum, den ihr dort untersucht habt. Und da hat sich ja keiner hingesetzt und die Texte abgetippt? Nein, die
32:40
Archive steht online. Also das ist bei einigen Printmedien, also Spiegelzeit. Zeit bietet sogar eine API. Also da sind gute Bedingungen. Auch Fokus ist glaube ich wirklich komplett immer noch online. Also das gibt wirklich, Scrape ist eine gute Möglichkeit an solche Daten ranzukommen. Und
33:02
ist sehr erfreulich, dass diese Möglichkeiten bestehen, ohne dass man ja groß irgendwie Forschungsgeld dafür ausgeben müsste, sondern dass die Zeitungen aber auch selbst daran interessiert sind. Und wir sind natürlich jetzt auch immer zitiert und sind alle verlinkt auf der Seite. Das heißt, wenn man irgendwie einen Beispielsatz von der Zeit
33:21
kriegt, kriegen die auch einen Klick von uns. Wenn man dann den ganzen Artikel lesen will. Also ich hoffe, das ist für beide Seiten eine produktive Sache. Ja, das ist ja jetzt alles sehr Schriftsprachen zentriert. Warum eigentlich? Ich meine, wenn ich eine Sprache lernen will, dann will ich doch möglicherweise
33:40
irgendwie in der Bäckerei ein Brot kaufen oder so. Und dann sind ja ganz andere Leute gefragt, als Soldat oder Spalten. Ja, das ist eine gute Frage. Also ich glaube, erstens, dass natürlich irgendwie so die Motive der Lernerinnen und Lerner schon natürlich eine ganz andere, also sehr
34:01
unterschiedlich sein können. Also die Kollegen aus Japan haben immer gesagt, nein, wir brauchen dieses ganze Zeug nicht. Weil also irgendwie die Wahrscheinlichkeit, dass man aus Japan für lange Zeit hier lebt oder sowas oder ist ohnehin nicht so groß. Und also auch, dass es durchaus Länder gibt, in denen eine literale
34:21
Kompetenz mindestens genauso wichtig ist, wie eine verbale, ist tatsächlich auch noch, also man muss das ein bisschen global sehen. Ich denke, in Europa ist völlig klar, wir können überall hinreisen, mehr oder weniger jederzeit und machen auch gerne Sprachferien und so weiter. Das ist für Leute, die von weiter weg kommen, die vielleicht auch kein Visum sehen können oder sowas, natürlich erstmal schwieriger
34:41
und im Internetzeitalter kann man sich ja auch, muss man gar nicht irgendwo hinfahren, um was zu, ja, um miteinander in Kontakt zu treten. Und das andere ist, wir haben natürlich versucht, also wir hätten es natürlich gerne hätten wir mit corpora- gesprochener Sprache gearbeitet, aber die gibt es, wie gesagt, nicht in befriedigender Menge und deswegen
35:01
haben wir eben auf Internetforen zurückgegriffen, als immerhin prototypisch interaktionsorientierter Wortschatz und wie gesagt, die Ergebnisse zeigen auch wirklich, also wir haben viel mehr Kommunikationsverben, wir haben natürlich irgendwie die spezifischen Pronomina, die besonders häufig in der gesprochenen Sprache und so weiter vorkommen. Also das bringt schon was, also und das ist natürlich schon, also ist ohnehin der erste Wortschatz,
35:22
der solche Daten überhaupt benutzt und aber wünschenswert sind natürlich, ja, reiche, gesättigte Datenschätze mit mit gesprochen Sprachendaten, das wäre natürlich toll, aber haben wir nicht, nicht so groß, nicht
35:41
300 Millionen, ja. Und also, man kommt dann halt sehr schnell, also wenn man die nimmt, die da sind, da kommt man sehr schnell in eine Beliebigkeit ab, ich würde es sogar sagen, ab Rang 600. Wird sehr variantenreich und die Belegfrequenz, also die überhaupt nötig ist, damit ein Wort
36:01
da auftaucht, das ist zu beliebig. Also das ist sehr schwierig. Wir haben ja noch nicht mal hier die Differenzierung Deutschland, Österreich, Schweiz drin, was man ja auch noch machen könnte und so. Also das ist schon schwierig. Also wir brauchen wirklich große Corpora, um sowas zu machen, dann befriedigend und valide. Habt ihr eure Ergebnisse
36:21
mal mit dem angebotenen Grund Wortschatz von, was war das, Langenscheid, glaube ich, verglichen? Ja, haben wir sogar gemacht. Wir haben sogar als so eine Teilstudie sieben Wortschätze verglichen und haben mal geguckt, wie groß sind eigentlich die Schnittmengen und es ist echt irre. Also es ist wirklich sehr, sehr, sehr wenige Wörter
36:41
tauchen in allen sieben Grundwortschätzen auf. Und das ist wirklich was natürlich sehr bemerkenswertes, wo man auch sagen muss, wir brauchen da mehr solide Forschung im Sinne von stärker methodengeleitetes Forschen, um zu sagen, okay, wir haben jetzt hier mal einen Kernwortschatz berechnet. Diejenigen, die einen Grundwortschatz machen wollen, jetzt auch aus einer anderen Perspektive,
37:01
aus einer kommunikativ-pragmatischen Perspektive, die können das als eine Entscheidungshilfe gebrauchen und sagen, ja gut, täuschen kommt ja wirklich viel häufiger vor als betrügen. Also nehmen wir jetzt täuschen bei uns rein für diese Situation. Also unser Ansatz macht jetzt überhaupt nichts obsolet und macht nichts unnötig, sondern soll vielleicht einfach eine Hilfe sein, ein bisschen mehr methodische
37:22
Genauigkeit und ein bisschen in die ganze Diskussion zu bringen und Entscheidungshilfen zu geben und eine Hilfestellung zu geben. Also man kann ihn natürlich auch als Grundwortschatz benutzen, aber bitte nicht die Studierenden von 1 bis 100 lernen lassen und dann am nächsten Tag von 100 bis 150, das wäre total unsinnig.
37:41
Also so lernt auch keiner. Aber die Schnittmengen sind klein. Weitere Fragen? Nein? Nein? Hat jemand Lust, was dafür zu entwickeln,
38:00
vielleicht? Sonst hoffen wir auf das Video später. Vielleicht meldet sich da jemand. Also, auch für kommerzielle Anwendungen könnt ihr euch gerne bei mir melden. Wir können uns sicher ohne Probleme auf eine kostenfreie Lizenz einigen. Wir wollten es jetzt nur nicht komplett kostenlos ins Netz stellen, damit nicht die ganz Bösen sich die Sachen greifen, aber
38:20
grundsätzlich für kleine machen wir das sehr gerne. Dankeschön.