We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Dichteschätzung

00:00

Formal Metadata

Title
Dichteschätzung
Title of Series
Part Number
4
Number of Parts
28
Author
License
CC Attribution - NonCommercial - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Aufgabe der Statistik ist es, Rückschlüsse aus Beobachtungen zu ziehen, die unter dem Einfluss des Zufalls enstanden sind. Diese Vorlesung gibt eine umfassende Einführung in die zugehörige mathematische Theorie. Behandelt werden u.a.: Hauptsatz der Mathematischen Statistik, Dichteschätzung, nichtparametrische Regressionsschätzung, Punktschätzverfahren, statistische Tests, Bereichsschätzverfahren.
Mathematical statisticsPerturbation theoryEstimationMassCalculationRandom variablePredictionAbsolute valueStatisticsNumber theoryDichteschätzungWell-formed formulaComputer animationLecture/Conference
Set (mathematics)Sample (statistics)Zufällige MengeRandom variablePredictionPunktmengeAbsolute valuePer milMassSupremumSigma-algebraPopulation densityPhysical quantityEstimatorLecture/Conference
Population densityProbability distributionSocial classEstimationEstimatorAbsolute valueSupremumReal numberMeasurable functionSampling (statistics)Set (mathematics)MassProbability theoryRandom variableZahlNegative numberMeasurable functionLecture/ConferencePanel painting
DichteschätzungFactorizationMeasurable functionAbsolute valuePopulation densityMassEstimatorFunction (mathematics)Well-formed formulaMaximum (disambiguation)SupremumMeasurable functionSampling (statistics)EstimationNumberTotal S.A.ModulformPropositional formulaLecture/ConferencePanel painting
Population densityNormal distributionInterface (chemistry)Lecture/Conference
Maximum (disambiguation)Content (media)Interface (chemistry)Sign (mathematics)AreaLecture/Conference
Interface (chemistry)FluxNegative numberSet (mathematics)SummationAreaAbsolute valueMaximum (disambiguation)SupremumPopulation densityAbschätzungParameter (computer programming)SurfaceStructural systemINTEGRALSocial classPlane (geometry)Maxima and minimaPanel painting
RadiusPopulation densityEstimatorEstimationZusammenhang <Mathematik>StochasticMassTheoryLecture/Conference
EstimatorAbsolute valueINTEGRALSupremumMassVolumeNumberDirection (geometry)Dimension 1Continuous functionMaßtheorieQuotientTheoryLecture/Conference
Population densityMassFactorizationEstimationSummationZusammenhang <Mathematik>RadiusVolumeNumberKernschätzungRandom variableSample (statistics)Expected valueFunction (mathematics)Arithmetic meanEstimatorMittelungsverfahrenNorm <Mathematik>Lecture/Conference
Atomic nucleusArithmetic meanContinuous functionRadiusContinuous functionPopulation densityLogical constantEstimationSquareEstimatorGlattheit <Mathematik>Parameter (computer programming)KernfunktionPositive FunktionKernschätzungAbsolute valueSummationSampling (statistics)Sample (statistics)Normal distributionPerimeterTerm (mathematics)FünfzigMetreMassLecture/Conference
Probability distributionPerimeterSampling (statistics)FactorizationRandom variablePopulation densityZahlSample (statistics)EstimatorDichteschätzungKernschätzungLecture/Conference
DichteschätzungSupremumEstimatorPopulation densityMassEstimationLecture/Conference
Atomic nucleusLecture/ConferenceComputer animation
Transcript: German(auto-generated)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung zur mathematischen Statistik. Ich möchte mit zwei Vorbemerkungen starten. Sie haben wahrscheinlich mitbekommen, dass Sie am Montag eine Wette verloren haben.
Und ich müsste jetzt hier eigentlich eine Prüfungsfrage präsentieren. Mir ist dann aber aufgefallen, beziehungsweise mir wurde ja mitgeteilt, dass ich natürlich für diesen Beweis in der Vorlesung anderthalb Stunden gebraucht habe und Sie in der Klausur eine Stunde Zeit haben. Was natürlich irgendwie so ein bisschen komisch ist. Das heißt eigentlich hätte ich jetzt die Prüfungsfrage so formulieren müssen,
dass ich einen Teil vom Beweis rausgreife sinnvollerweise. Und ich habe dann gesagt, okay, lass mal vielleicht. Das Ziel war ja eigentlich erreicht, Sie haben ja aufgepasst. Ich kann Sie schlecht nach einer Frage stellen, wo ich selber anderthalb Stunden für brauche. Und den Beweis konnte man schlecht in Bestandteile zerlegen.
Also da nur einen einzelnen Teil rausgreifen. Die Teile waren nicht gleichberechtigt, wäre eigentlich nicht sinnvoll. Okay, zweite Vorbemerkung. Ich hatte mir letzte Woche mal die Aufzeichnung oder es war diese Woche mal die Aufzeichnung angeguckt. Und also einerseits hat es so ein bisschen gewirkt, als hätte ich neuerdings neurologische Störungen, weil ich so leichte Zuckungen hatte auf dem Bild.
Aber ich nehme an, das war eine Kompremierungstechnik oder zumindest an meinem Rechner. Das zweite, was ich aber krass fand, war irgendwie die Aufnahmequalität war deutlich verbessert. Also das besonders Krasse fand ich irgendwie, dass man auf einmal die Wiederholungsfolien gesehen hat.
Die hat man früher nie gesehen bei den Aufnahmen, das fand ich gut, muss ich sagen. Ich habe mir dann überlegt, dieser technologische Fortschritt, wenn man den konsequent so weiter macht, dann wäre eigentlich der nächste Schritt, der nächste logische Schritt wäre, man tauscht einfach meine schlechten Witze gegen gute aus. Brauche ich so einen Witzfilter? Aber kommt vielleicht noch.
Aber so lange müssen Sie noch mit den schlechten Witzen vorliebnehmen. Okay, Wiederholung mache ich diesmal keine, weil wir direkt neu anfangen und zwar letztes Mal auch nur ein Beweis. Kommen wir zur Kapitel 3, Dichteschätzung. Und ich fange an mit dem Abschnitt zur Motivation.
Wir machen weiter mit dem gleichen Setting wie bisher. Ich habe also unabhängig identisch verteilte RD-wertige Zufallsvariablen X1, X2 und so weiter. Und ich betrachte die empirische Verteilung µn zu X1 bis Xn.
Also X1, X2 und so weiter unabhängig identisch verteilt RD-wertige Zufallsvariablen µn gleich empirische Verteilung zu X1 bis Xn.
Dann wissen wir, nachdem was wir in der ersten Vorlesung schon hatten und dann letzte Vorlesung abschließend bewiesen hatten, nach Clivenco-Cantelli gilt, dieses µn von so halboffenen Intervallen von Minus und Endlich bis X konvergiert gleichmäßig bezüglich X gegen µ von Minus und Endlich bis X und µ sei die Verteilung von X.
Also ich schreibe hier vielleicht noch dazu µ gleich PX1.
Also nach Clivenco-Cantelli wissen wir, so Bremen über alle X aus R, von µn, Betrag von µn von Minus und Endlich bis X und Minus µ von Minus und Endlich bis X konvergiert gegen Null.
Konvergiert gegen Null mit Wahrscheinlichkeit 1. Sie sehen sofort, das impliziert auch, dass µn vom Intervall von A bis B gegen µ vom Intervall von A bis B konvergiert,
wenn das Intervall bei A offen und bei B abgeschlossen ist, weil sie es einfach als Differenz von zweier so Ausdrücke mit µn und µ darstellen können, gleichmäßig bezüglich A und B. Sie werden dann nächste Übungen sehen.
Sie können auch leicht die Entenzerlegungskoeffizienzen von allgemeinen Intervallen abschätzen, nicht nur links halboffen, rechts abgeschlossen. Das wäre im Prinzip egal oder wären Sie mir weiß in den Übungen. Daran können Sie es eigentlich erkennen. Das heißt, ich könnte hier auch beliebige Intervalle hinschreiben.
Und dann sehen Sie, was das Ganze eigentlich impliziert ist, dass ich eine sehr gute Vorhersage oder gute Vorhersage von der Wahrscheinlichkeit von Intervallen habe. Weil bezüglich den Wahrscheinlichkeiten von Intervallen konvergiert dieses empirische Maß gleichmäßig gegen die wahre Verteilung.
Also gute Vorhersage der Wahrscheinlichkeit von Intervallen.
Jetzt können Sie versuchen, das zu verallgemeinern und sagen, ja, ich möchte vielleicht in der Statistik nicht nur Wahrscheinlichkeiten von Intervallen vorhersagen, sondern vielleicht auch von allgemeineren Mengen. Dann haben Sie die Frage, die Frage, wie habe ich es hier formuliert?
Auch gute Vorhersage beliebig messbarer Mengen.
Was würden Sie sagen? Also wenn ich mich jetzt dafür interessiere, ich möchte nicht, dass das Supremum über x aus r von diesen halboffenen Intervallen
mit mu n von diesen halboffenen Intervallen minus mu von diesen halboffenen Intervallen gegen 0 konvergiert, sondern ich schreibe das Supremum b. Ja, ich sollte hier auch rd schreiben, weil ich hatte ja rd-wertige Zufallsvariablen. Und entsprechend schreibe ich dann b aus bd,
Supremum über b aus der borelischen Sigma-Algebra im r oden d. Und interessiere mich für mu n von b minus mu von b Betrag. Konvergiert das auch noch gegen 0, fast sicher.
Kopf schütteln. Begründung. Sie nehmen Einpunktmengen, weil die Einpunktmengen haben eben das Problem,
dass wenn Sie hier eine Dichte bezüglich dem Lebesque-Borelmaß haben, dann wäre mu von dieser Einpunktmenge alles gleich 0. Aber mu n von dieser Einpunktmenge wäre maximal 1 durch n. Und 0 minus 1 durch n ist 1 durch n. Geht auch noch gegen 0.
Wenn wir das Supremum über jetzt beliebige Mengen herausgreifen, dann können wir genau die Punkte herausgreifen, wo das mu n Masse hat. Das heißt, wir nehmen genau die x1 bis xn. Die Antwort wäre im Allgemeinen nein.
Denn gilt mu von einer Einpunktmenge gleich 0.
Oder mu von x gleich 0 für alle x aus Rd.
Was zum Beispiel erfüllt ist, falls mu eine Dichte hat. Und ich meine, mit Dichte eigentlich immer Dichte bezüglich des Lebesque-Borelmaßes.
So gilt.
Wenn ich mir das Supremum über b aus bd von mu n von b minus mu von b angucke, dann ist das Supremum eben größer, als wenn ich da jetzt eine beliebige Menge einsetze.
Und auch wenn ich da eine zufällige Menge einsetze. Und als zufällige Menge setze ich nun gerade die Menge der Datenpunkte an. Das heißt, das hier wäre größer als mu n von x1 bis xn.
Minus mu von x1 bis xn. Das mu n von x1 bis xn ist trivialerweise 1. Weil dieses mu n zählt ja, wie viele der xi sind in der Menge drin.
Und halt dann diese Anzahl durch n. Das sind alle drin. Und dieses mu von x1 bis xn ist, wenn die Einpunktmengen alle Masse Null haben, hat auch diese endliche Vereinigung von Einpunktmengen Masse Null. Also ist gleich Null. Das heißt, das Ganze ist größer als Null. Konvergiert nicht gegen Null.
Großer als eins. Dankeschön. Oder ist sogar gleich eins. Und konvergiert nicht gegen Null.
Okay, jetzt wäre aber die Frage. Naja, aber dieses Ziel wäre eigentlich trotzdem ganz schön. Also es wäre eigentlich trotzdem ganz schön, wenn ich beliebige Mengen die Wahrscheinlichkeit von beliebigen Mengen vorhersagen könnte. Und zwar so, dass dieser Fehler dabei gleichmäßig bezüglich den Mengen gegen Null konvergiert.
Also wäre die Frage. Naja, für die empirische Verteilung klappt es nicht. Aber vielleicht kann ich den Schätzer ja ein bisschen cleverer machen. Abändern und schaffst dann, dass das gegen Null konvergiert. Und das ist jetzt ein tiefer gehendes Resultat, was ich hier nicht beweisen möchte.
Man kann allgemein zeigen, das geht nicht. Also ganz egal, wie Sie einen Schätzer Mühe im Dach konstruieren, basierend auf N-Werten von so einer Stichprobe, gibt es also einen Schätzer Mühe im Dach. Ganz egal, wie Sie den konstruieren, da finden Sie immer eine Verteilung so,
dass wenn Sie zu der Verteilung so eine Folge von unabhängig identisch verteilten RD-wertigen Zufallsvariablen basten, die dann sukzessive da einsetzen, dann konvergiert dieses Supremum eben nicht gegen Null. Also man kann allgemein zeigen,
es gibt keinen Schätzer Mühe im Dach,
vielleicht Mühe im Dach von Punktkomma x1 bis xn, seine Funktion von BD nach R,
mit Supremum B aus BD, Betrag von Mühe im Dach von B minus Mühe von B
soll gegen Null gehen, für alle Verteilungen Mühe auf RD, BD.
Also gemeint ist hier, ganz egal, wie viel Mühe Sie sich geben, so einen Schätzer zu konstruieren, wobei diese Konstruktionsregel eben so ist. Die Konstruktionsregel beschreibt Ihnen, ich gebe N Punkte, das seien meine beobachteten Punkte, wie sieht dann meine Schätzung Mühe im Dach aus, die jeder einzelnen Menge auf BD eine reelle Zahl zuordnet,
also nicht unbedingt eine echte Wahrscheinlichkeit zwischen Null und eins. Wir lassen auch zu, dass wir unter Umständen die Wahrscheinlichkeiten durch Werte größer oder kleiner Null schätzen. Ganz egal, wie Sie das machen. Ich finde, wenn Sie mir den Schätzer geben,
weiß ich, es gibt eine Verteilung, also ein Maß auf RD, BD. Wenn ich bezüglich diesem Maß eine unabhängig identisch verteilte Zufallsvariabeln erzeuge, x1, x2 und so weiter, und dann diese ersten N, diese unabhängigen, identisch verteilten Zufallsvariabeln in Mühe im Dach einsetze,
bekomme ich eine konkrete Schätzung. Das Supremum über alle B aus BD vom Betrag von Mühe im Dach von B minus Mühe von B ausrechne, ist jetzt eine zufällige Zahl, zufällig, weil sie abhängt von den x1 bis xn und auch noch vom Stichprobenumfang N. Wenn ich dann den Stichprobenumfang gegen N gehen lasse, dann konvergiert das nicht gegen N,
mit Wahrscheinlichkeit 1. Das ist eines von diesen negativen Resultaten. Negative Resultate sind immer nicht so leicht zu zeigen, oder immer ein bisschen technisch. Okay, ich mache es in der Vorlesung nicht. Ich habe Ihnen im Skript einen Literaturverweis reingeschrieben.
Aber was wir jetzt in der Vorlesung zeigen werden, und das werden wir zumindest für Konvergenz nach Wahrscheinlichkeit sogar echt zeigen, also nicht nur ein bisschen schwächer als konvergenz-fast-sicher, ist, dass wenn ich die Klasse der betrachteten Verteilungen einschränke,
das heißt, wenn ich voraussetze, dass Mühe eine Dichte bezüglich des Lebesque-Borelmaßes hat, dann kann ich für diese Klasse von Verteilungen Schätzungen hinschreiben, die diese Eigenschaft haben, wir werden es nur nach Wahrscheinlichkeit zeigen, für alle solche Verteilungen.
Also das wird es aber. Aber es gibt Schätzer Mühen-Dach, so wie vorhin, mit Supremum B aus Bd Mühen-Dach minus Mühe von B gegen Null fast sicher, für alle Verteilungen Mühe auf Rd Bd,
die eine Dichte bezüglich des Lebesque-Borelmaßes besitzen.
Ich mache jetzt diesmal R+, ich könnte auch Intervall von 0 bis 1 hinschreiben, also ich würde in der Tat Wahrscheinlichkeiten durch Wahrscheinlichkeiten
schätzen, mit diesem Supremum
konstigiert gegen Null, für alle Verteilungen Mühe auf Rd Bd, die eine Dichte bezüglich des Lebesque-Borelmaßes besitzen.
Was es heißt, dass eine Dichte existiert, ist Ihnen allen klar. Das heißt, es existiert eine Funktion
F von messbare Funktion
mit der Eigenschaft für alle B aus Bd. Das Mühe von B können Sie schreiben, indem Sie F über die Menge B integrieren bezüglich des Lebesque-Borelmaßes.
Die Konstruktion
solcher Schätzer kann mittelbar erfolgen, indem wir zunächst einmal die Dichte hier schätzen, dieses F schätzen, und dann, sobald wir eine geschätzte Dichte haben, definieren wir unser Mühen-Dach einfach als Integral über die geschätzte Dichte.
Der entscheidende Trick dabei ist das sogenannte Lema von Cheffet, was ich hier als Lema 3.1 formuliere. Also vielleicht sollte ich noch dazuschreiben. Konstruktion solcher Schätzer mittelbar über Dichteschätzung möglich,
denn es gilt das sogenannte Lema 3.1, Lema von Cheffet.
Das besagt Folgendes, sind Fg zwei Dichten auf Rd, Bd. Das heißt, die Funktionen sind nicht negativ, Integral ist gleich eins.
Dann kann ich dieses Supremo über B aus Bd vom Integral über Bfdx minus Integral über Bgdx umschreiben, bis auf den Faktor ein halb als den sogenannten L1-Fehler, Integral über Betrag von F von x
minus g von x dx. Okay. Ich schreibe es ausführlich hin.
Da sind Fg Dichten auf Rd, Bd. Das heißt,
F und g sind nicht negativ messbare Funktionen auf Rd, Bd. Mit der Eigenschaft, dass sie zu eins integrieren.
So gilt.
Und die Aussage kommt hier. Sogenannte L1-Fehler
kann ich umschreiben, zunächst mal mit zwei Hilfsformeln als zweimal
als zweimal das Integral über den Positivteil von F von x minus g von x. Das heißt, das Maximum von F von x minus g von x und Null. Die Formulierung ist gerade komplett symmetrisch. Sie können F und g vertauschen. Deswegen ist klar,
ich kann auch hier vertauschen. Das heißt, das da ist wiederum gleich zweimal dem Integral über Rd g von x minus F von x plus dx. Und die entscheidende Aussage ist nun
letzteres oder alle drei Ausdrücke kann ich umschreiben, als zweimal Supremum B aus Bd. Betrag von Integral über B von x dx
minus Integral über Bg von x dx. Also entscheidende Aussage ist von hier.
Das ist der L1-Abstand zwischen F und g nach hier. Das ist bis auf den Faktor 2 eigentlich die Fehlerordnung, die uns interessiert. Für den Abstand von einem geschätzten Maß zu einem wahren Maß. Wir nehmen an, das sei die richtige Dichte. Das sei unsere geschätzte Dichte. Wenn jetzt unsere Dichte die Eigenschaft hat, dass der
L1-Fehler bei der Dichteschätzung gegen Null geht, mit wachsendem Stichprobenumfang, dann geht auch dieser Abstand hier, der sogenannte Total Variation Distance, zwischen dem Maß, was wir schätzen wollen, dem geschätzten Maß gegen Null. Fragen soweit?
Dann kommt die Stelle, wo ich froh bin, dass mein Skript keine Bilder enthält, weil jetzt male ich ein Bildchen zum Beweis
und Sie sehen ihn nicht im Skript. Das ist eine von den Beweisen, die man eigentlich am Bild machen kann. Den genauen Beweis dürfen Sie dann in Übungen noch ausarbeiten. Aber eigentlich geht das Ganze am Bild.
Also wir haben hier mal X. Dann male ich mal zwei Dichten hin. Und meine Dichten sind alle so gausche Glockenkurven. Das heißt, wir haben hier so eine gausche Glockenkurve. Das sei
mein F und X. Und dann habe ich, glaube ich, auch noch Farben. Gar nicht mal so wenig. Dann kann ich mein G mit einer anderen Farbe machen. Das sei vielleicht hier.
Das sei mein G von X.
Und das erste, was mich jetzt interessiert, ist, wir überlegen uns mal, wo finden wir in dieser Skizze das Integral über F von X minus G von X plus Tx.
Also können Sie das als mir sagen, welche Fläche ich da strafieren muss, damit ich das Integral über F von X minus G von X plus Tx bekomme. Und ich sollte vielleicht noch dazu schreiben, hier unten, wobei eben dieses Y plus, das ist das
Maximum von Y null. Das heißt,
es wäre Y für Y größer gleich null. Und null für Y kleiner null. Okay. Was würden Sie sagen, wo in der Skizze sehe ich, oder welche Fläche muss ich strafieren, damit ich gerade als Flächeninhalt das Integral
über F von X minus G von X plus Tx bekomme? Die Fläche zwischen F und G, und zwar da, wo F größer als G ist.
Richtig. Das heißt, wenn ich mir überlege, was ist F von X minus G von X plus? Das ist halt an der Stelle X der Abstand zwischen F und G, wenn der Abstand positiv, wenn F größer als G ist. Wenn ich das aufintegriere, bekomme ich genau
das da. Dann muss ich Sie nicht mehr fragen, wo finden wir das Integral über G von X minus F von X plus?
Weil das ist dann eben die Fläche zwischen F und G, wo jetzt G größer als F ist.
Jetzt, was mich eigentlich interessiert, wenn wir mal mit der ersten Formel anfangen, ist der L1-Abstand zwischen F und G. Wo finden
Sie den? Das ist die Summe der beiden Flächen, weil da tun Sie
eben immer den Abstand zwischen F und G auf integrieren, ganz egal, ob F größer als G ist oder G größer als F. Das heißt, das da ist die blaue Fläche. Flüss die rote Fläche. Und dann
sehen Sie die ersten beiden Behauptungen sind eigentlich, das wäre gleich zweimal der blauen Fläche, wäre gleich zweimal der roten Fläche. Das heißt, damit wir das sehen, das würde gelten, das gilt genau dann, wenn die blaue Fläche gleich der roten Fläche wäre. Das heißt, die erste Frage ist,
warum ist hier, wenn die Zeichnung wirklich richtig wäre, warum müsste dann die blaue Fläche genauso groß sein wie die rote Fläche? Also woran sehen Sie das? Das sind
Dichten, die sind aufintegriert eins, genau richtig. Das heißt, ich kann jetzt folgendes Argument machen, wenn ich das blaue plus das weiße mache, dann komme ich
auf eins, weil F eine Dichte ist und ist auch das gleiche wie das rote plus das weiße, weil jetzt,
weil auch G eine Dichte ist. Und dann sehen Sie, das impliziert rot gleich blau und das impliziert das in unseren ersten Behauptungen,
nämlich das, was uns eigentlich interessiert, der L1-Abstand zwischen F und G, dass es gleich zweimal dem blauen und gleich zweimal dem roten ist.
Okay, jetzt haben wir die ersten beiden Gleichheiten gezeigt, es fehlt noch die dritte. Gucken Sie sich mal das an,
was da steht. Was da steht, eigentlich, also lassen Sie mal das Supremum weg, lassen Sie den Ertrag weg. Was dann steht, ist das Integral über B f von x minus d x minus Integral über B g von x d x. Können Sie zusammenfassen, Integral über B f von x minus g von x. Das heißt, Sie haben hier unten irgendwo eine Menge.
Ich nenne Sie mal B und Sie integrieren dann f von x minus g von x über diese Menge.
Und ich möchte dann zeigen, wenn ich jetzt einen Betrag nehme und das Supremum über alle Mengen,
dann kommt das gleiche raus wie zweimal die rote Fläche, und dann kommt das gleiche raus wie die rote Fläche, bzw. Wenn ich den Betrag nehme und das Supremum darüber, dann ist es das Maximum, nee, es ist dann gleich der rote Fläche und gleich der
blaue Fläche. Das ist noch zu zeigen. Haben Sie dafür eine Idee? Also Sie integrieren jetzt zum Beispiel über diese Menge
f von x minus g von x. Und dann die Behauptung wäre, dass es betragsmäßig kleinergleich der blauen Fläche, was ja gleich der roten Fläche ist.
Der Trick ist, lassen Sie mal den Betrag weg und checken Sie es einfach mal nur nach oben ab. Sehen Sie, wie das Integral über B f von x minus
g von x dx nach oben abschätzen können. Vorschläge?
Sie zerlegen es in den Positivteil von f von x g von x und den Positivteil von g von x minus f von x. Wir können es uns auch anders vorstellen. Wir integrieren mal hier auf,
von hier bis hier, solange es f von x minus g von x größergleich null. Ab hier wird ein f von x minus g von x kleinergleich null. Das heißt, wenn ich den zweiten Teil weglasse, dann ist die Fläche trivialerweise kleinergleich als dieser Teil der blauen Fläche. Und dieser Teil der blauen Fläche wiederum ist trivialerweise
kleinergleich die ganzen blauen Fläche. Das heißt, ich sehe sofort, dass da ist kleinergleich der blauen Fläche. Weil wenn Sie außerhalb der blauen Fläche integrieren, dann kommt etwas Negatives dazu. Das kann ich weglassen.
Und wenn ich nicht die ganze blaue Fläche integriere, dann ist es auch kleiner als wenn ich die ganze blaue Fläche nehme. Umgekehrt sehe ich auch eine Abschätzung nach unten. f von x minus g von x ist jetzt größergleich. Von hier ab
ist f von x minus g von x negativ. Da bekomme ich also etwas Negatives. Von hier ist es positiv. Wenn ich das Positive weglasse, dann bekomme ich nur diesen negativen Flächeninhalt hier. Dieser negative Flächeninhalt hier ist sicher kleinergleich als minus eins mal die gesamte rote Fläche. Das heißt, das hier
ist größergleich als minus eins mal die rote Fläche. Und das haben Sie für jede beliebige Menge B aus Bd. Und damit sehen Sie, der Betrag
von dem Ding ist natürlich immer kleinergleich als Maximum der blauen und der roten Fläche, die ja beide gleich sind. Also kleinergleich der roten Fläche und kleinergleich der blauen Fläche. Jetzt wäre nur noch die Frage, hier steht aber nicht
irgendwie das da oben ist größergleich dem, sondern hier steht eine Gleichheit. Woher kommt die Gleichheit?
Integral von oben über die
positiven Teile tauchen auf, wenn ich das B richtig wähle. Wenn ich das B einfach ab hier nach links wähle, dann bekomme ich gerade die gesamte blaue Fläche. Wenn ich das B über hier nach rechts wähle, bekomme ich minus die gesamte rote Fläche. Das heißt, diese beiden Dinger hier können angenommen werden. Bei diesen kleinergleich
und größergleich oder kleinergleich Beziehungen kann die Gleichheit angenommen werden.
Und damit ist der Beweis am Bild fertig. Allgemeinen Beweis machen Sie dann am Montag in den Übungen. Und Sie können sich vorstellen, ja, man macht jetzt eben das Ganze, was man hier am Bild gemacht hat, macht man eben formal. Im Prinzip mit den gleichen Argumenten. Aber Bild finde ich eigentlich relativ hübsch.
Ja, würde ich dann ganz gerne weitermachen. All das Ganze motiviert jetzt, dass wir uns mit der Schätzung von Dichten beschäftigen. Und zwar mit der Schätzung von Dichten in dem Sinne oder mit dem Ziel, dass der L1-Fehler, also
der L1-Abstand zwischen geschätzter Dichte und wahrer Dichte gegen Null konvergieren soll. Zum Beispiel fast sicher, oder wir werden es im Einfachen nur nach Wahrscheinlichkeit zeigen. Da geht der Beweis ein bisschen einfacher.
Das Ganze ist eine Sichtweise der Dichteschätzung, die eigentlich in der Literatur nicht die weitverbreiteste ist, die am meisten verbreiteste wäre, irgendeinen quadratischen Fehler zu nehmen. Weil die quadratischen Fehler meistens viel einfacher sind. Oder auch ein Supremumsnorm- Abstand zwischen der geschätzten Dichte und der wahren Dichte zu verwenden.
In dem Sinne, dass man die geschätzte Dichte hinterher interpretieren möchte. Also man möchte irgendwelche Eigenschaften der geschätzten Dichte sehen. Zum Beispiel, wo tut diese geschätzte Dichte besonders viel Masse hin? Oder wo ist da ein Hochpunkt? Den sogenannten Mode der Dichte schätzen.
Aber wenn Sie sich überlegen, was ist besonders an einer Dichte? Das Besondere an einer Dichte ist der Zusammenhang zu den Wahrscheinlichkeiten. Und dann bietet sich es an, dass man die Dichte so schätzt, dass die zugehörigen Wahrscheinlichkeiten gut die wahren Wahrscheinlichkeiten approximieren. Und das ist die Sichtweise, die ich hier auch präsentiere
in der Vorlesung. Kommen wir zur Abschnitt 3.2. Ich glaube, Sie wissen, Sie haben eigentlich alle die Einführung Stochastik bei mir gehört, oder? Mehr oder weniger? Nicht alle, aber Großteil? Auch nicht? Ja, gut. Ich mache es jetzt nochmal.
Wir haben es in der Einführung Stochastik eigentlich ganz am Anfang schon gemacht, den sogenannten Kern-Dichte-Schätzer. Ich motiviere mich jetzt hier nochmal.
Zur Motivation des Kern- Dichte-Schätzers dient unser erstes Lema, das Dichtetheorien von Lebesque.
Lema 3.2, Dichtetheorien von Lebesque. Ist f von
Rd nach Rb eine Dichte? Also nicht negativ integriert zu 1. So gilt für Lebesque fast alle x aus Rd. Wenn Sie f über eine kleine Kugel um x integrieren und durch das Lebesque-Maß dieser Kugel teilen und dann den Radius dieser Kugel gegen 0 gehen lassen, dann
kommt da der Funktionswert von f an der Stelle x raus. Für Lebesque fast aber nicht für alle x, sondern für Lebesque fast alle x. Ist f von Rd
bd nach Rb eine Dichte? So gilt für ich schreibe jetzt lambda fast alle,
für Lebesque fast alle x aus Rd. Ich betrachte den Niemes von R gegen 0. Vom Integral über eine Kugel mit Mittelpunkt x und Radius
R, die bezeichne ich mit Sr von x, teile durch das Lebesque-Maß der Kugel. Und
für Lebesque fast alle x aus Rd kommt da der Funktionswert von f an der Stelle x raus. Wobei eben wie gesagt, lambda ist das Lebesque-Maß. Und
Sr von x ist Ball um x mit Radius R. Oder eigentlich Kugel um x mit Radius R. Wobei es egal ist, ob Sie
die Kugel abgeschlossen oder offen machen. Kommt das gleich heraus. Okay, Sie sehen vielleicht sofort, wenn f stetig ist, ist die Aussage trivial.
Und das möchte ich hier schnell begründen. Und den allgemeinen Fall machen Sie dann in den Übungen. Es gibt die zweite Übung. Ich muss zugeben, es wird ein bisschen schwieriger, aber es ist eigentlich ganz nett. Und bei der Gelegenheit beweisen wir gleich nicht das Dichtetheorien von Lebesque,
wie es hier steht, sondern wir beweisen dann das verallgemeinerte Lebesque-Dichtetheorien. Da wird also hier wird ja beides mal bezüglich, hier ist das Lebesque-Mas, hier auch. Also hier wird bezüglich Lebesque-Mas integriert. Hier wird das Volumen der Kugel bezüglich dem Lebesque-Mas berechnet. Und hier taucht ein Lebesque fast überall auf.
Und wenn Sie jetzt dieses Maß hier an diesen drei Stellen durch ein allgemeines Maß µ ersetzen, dann gilt die Aussage nach wie vor. Das heißt, wenn ich bezüglich einem allgemeinen Maß f und u µ du integriere über sr von x, dann hier unten µ von sr von x schreibe, dann konvergiert es für µ fast alle x immer noch gegen f und x.
Und das werden Sie in Übungen zeigen. Okay, ich mache hier den Beweis im Spezialfall, dass f stetig ist.
Und so eine Stetigkeit an der Stelle x ist. Ja, Sie gucken sich ja einfach die Differenz von dem Pozienten links und f und x rechts an.
Da können Sie das f und x auch schreiben als Integral über die Kugel sr von x von f und x du, was gerade f und x mal das Volumen von der Kugel gibt, geteilt durch das Volumen von der Kugel. Und dann kann ich die beiden Integrale zusammenfassen und sehe, das ist das Gleiche wie
f und u minus f und x du sr von x durch der Backmaß von sr von x.
Und dann sehen Sie, dann kann ich den Betrag in das Integral reinziehen, ist dann kleinergleich als das Integral über den Betrag des Integranten und kann den Integranten
durch das Supremum abschätzen. Dann bekomme ich im Zähler Supremum über u aus sr von x mal den Integral über 1 d x. Das gibt gerade das Lebesmaß
von sr von x. Teile noch durch das Lebesmaß von sr von x. Und Sie können das Lebesmaß von sr von x kürzen. Sie sehen, da kommt eben gerade dieses Supremum raus.
Und wenn jetzt f stetig ist an der Stelle x, dann geht es natürlich gegen 0 für r gegen 0.
Fragen soweit?
Also, wie gesagt, Sie sehen, das ist einfach. Im Allgemeinen ist es nicht einfach. Brauchen Sie Richtung Maßtheorie.
Also, ich habe dann ich glaube, vier Aufgaben draus gemacht mit Hinweis. Die vierte Aufgabe ist der entsprechende Beweis. Und in jeder Aufgabe waren es drei Aufgaben. Ich weiß es nicht mehr genau. Und in jeder Aufgabe brauchen Sie die Aufgabe davor. Die erste Aufgabe war ein deterministisches Überdeckungslämmer, was
trivial ist eigentlich, aber ein bisschen schwer zu sehen. Und dann kommen die eigentlichen Tricks. Also, Sie werden es auch nur für das Eindimensionale in den Übungen zeigen. Ich hätte es auch hochdimensional machen können, aber dabei wäre dann das Überdeckungslämmer nicht mehr trivial gewesen. Und nach wie vor schwierig zu sehen. Also, so gesehen,
haben wir es eindimensional gemacht. Oder habe ich es als allgemeiner Beweis für D gleich eins in zweiten Übungen.
Also, platt bekommen Sie am Montag in den Übungen ausgeteilt. Oder Mittwoch, je nachdem, wann Sie sind. Und in der Woche darauf machen Sie es dann. Ja, damit habe ich nur eine Möglichkeit, einen Schätzer für f und x zu motivieren,
indem ich nämlich zunächst einmal f und x durch das abroximiere. Wir betrachten mal ein kleines r. Für r klein gilt also,
f und x kann ich jetzt abroximieren durch das Integral über sr von x f von u dU durch das Lebesmaß von
sr von x. Und wenn ich jetzt voraussetze, dass f Dichte eines Maßes mu ist,
dann ist dieses Integral sr von x f von u dU nichts anderes als mu von sr von x. Das heißt, hier steht jetzt mu von sr von x.
Und wenn ich mir jetzt Zufallsvariablen x1 bis xn nehme, die unabhängig identisch verteilt sind, mit Verteilung mu, wir machen mal unendlich viele gleich, unabhängig identisch verteilt,
x1, x2 und so weiter, mit px1 gleich mu. Dann steht, also den Nenner kenne ich ja schon, Lebesmaß von sr von x. Der Zähler ist unbekannt, weil ja mu auch unbekannt ist. Stattdessen bekomme ich jetzt Zufallsvariablen x1 bis xn
oder eine Stichprobe von mu gegeben. Dieses mu, ja gut, wir könnten jetzt einfach mu n nehmen. Nehmen wir einfach mu n. Also entweder ich deute mu als Erwartungswert von der Indikatorfunktion und schätze die durch ein Stichprobenmittel. Oder ich sage direkt, ich schätze dieses mu durch das zugehörige
empirische Maß, mu n. Empirische Maß wäre 1 durch n i gleich 1 bis n i sr von x von xi geteilt durch das Lebesmaß von sr von x.
Und das ganze schreibe ich jetzt noch ein bisschen um. Also erstmal dieses Lebesmaß von sr von x. Ja, da können Sie
den Radius, also Sie können das Volumen einer Kugel mit Radius r in Zusammenhang bringen mit dem Volumen einer Kugel mit Radius 1. Nämlich einfach r hoch d mal Volumen einer Kugel mit Radius 1. Und dann ist es egal um welchen Punkt die Kugel geht. Das heißt, ich kann direkt sagen,
also mit lambda von sr von x gleich r hoch d mal lambda von s1 von 0.
Und dann kann ich noch diese Indikatorfunktion umschreiben. Diese Indikatorfunktion von sr von x von xi, die ist gleich 1. Genau dann, wenn xi in der Kugel von sr
von x ist. Also xi in sr von x. Das heißt, dass die Norm von xi minus x ja, jetzt muss ich mich entscheiden. Nämlich eine offene oder abgeschlossene Kugel. Und was wollte ich hier?
Ja, ich wollte mich nicht entscheiden. Sondern ich wollte hinschreiben, das ist das gleiche wie x minus
xi durch r ist in s1 von 0. Also wenn x minus xi durch r in s1 von 0 ist, dann ist auch xi minus x durch r in s1 von 0.
Also wenn Sie es mit minus 1 multiplizieren. Und das heißt jetzt, die Norm von dem Ding wäre kleiner gleich oder kleiner 1, je nachdem, wie ich die Kugel hier definiere, wäre das gleiche, wie das die Norm von xi minus x eben kleiner oder kleiner gleich r ist. Und dann sehen Sie, dann ist das das gleiche
wie das die Indikatorfunktion von s1 von 0 von x minus xi durch r gleich 1 ist. Und damit haben Sie f von x umgeschrieben. Oder diese Schätzung.
Nämlich wir haben dann f von x ist ungefähr gleich ja, ich setze die neue Indikatorfunktion ein. Ich habe noch diesen Faktor Lebesmaß von s1 von 0. Den ziehe ich einfach
hier davor, damit da insgesamt eine Dichte steht. Warum werden Sie nachher gleich sehen? Dann komme ich auf 1 durch n mal r hoch d mal Summe i gleich 1 bis n 1 durch lambda von s1 von 0. Mal Indikatorfunktion
von s1 von 0 mal x minus xi durch r. Und was ich jetzt da habe, ich habe eine im Prinzip steht da eine Dichte. Diese Dichte ist
ein z wird abgebildet auf 1 durch Lebesmaß von s1 von 0 mal Indikatorfunktion von s1 von 0 an der Stelle z. Das ist die Dichte. Diese Dichte werde ich sukzessive aus an den Stellen x minus x1 durch r x minus x2 durch r und so weiter. Und summe das auf und teile noch durch 1 durch n mal
r hoch d. Ich kann jetzt das r hoch d noch hier hinfassen. Dann sehen Sie was ich hier eigentlich gemacht habe. Ich habe die ursprüngliche Dichte eigentlich verschoben. Nämlich so, dass sie um xi zentriert ist. Also da wo bisher die 0 war.
Also, da wo bisher der Wert Null als Argument rauskommt, der kommt jetzt raus, wenn ich XI einsetze und dann habe ich noch reeskaliert. Wenn ich hier reeskaliere, reeskaliere ich auch noch mit dem Faktor 1 durch R hoch D, damit das ganze Ding eine Dichte bleibt. Dann habe ich kleine Dichten, die um die einzelnen Datenpunkte zentriert sind und über die habe ich ein arithmetisches Mittel gebildet.
Erschätzung meiner Dichte. Das heißt, ich habe diese Massenverteilung, die ich ursprünglich hatte, bei der empirischen Verteilung, wo ich jeweils Wasser eins durch N an die einzelnen Datenpunkte hingegeben habe, die habe ich jetzt hier verschmiert.
Ich habe diese Masse jeweils so ein bisschen um die einzelnen Datenpunkte verteilt, gleichmäßig. Das Ganze ist dann der sogenannte Kerndichteschätzer.
Der geht zurück auf Rosenblatt und Parsen in den Ende 50er, Anfang 60er Jahren.
Rosenblatt 1956, Parsen 1962, FN von X.
Ich mache jetzt zwei Notationsänderungen. Statt R nehme ich eine sogenannte Bandbreite und für die Bandbreite, die werde ich in Abhängigkeit vom Stichprobenumfang wählen, nehme ich den Buchstaben HN.
Also eins durch N mal HN hoch D. Summe I gleich eins bis N und statt der Dichte schreibe ich allgemein K, eine Kernfunktion.
K von X minus XI durch HN mit Kernfunktion K von RD nach R.
Von der fordere ich, dass sie integrierbar ist und zu eins aufintegriert.
Und oft würde man die Dichte dann konkret auch oder diesen Kern konkret sogar als Dichte wählen, also auch noch nicht negativ.
Das hätte den Vorteil, dann wäre das Ganze was, dieser ganze Kerndichteschätzer wäre dann ebenfalls eine Dichte. Das heißt, ich würde eine Dichte durch eine Dichte schätzen. Und das zweite ist die sogenannte Bandbreite HM größer Null.
Das ist ein Parameter von dem ganzen Ding, der die Glattheit kontrolliert.
Haben Sie Fragen soweit? Keine? Dann kommen wir noch zu Beispielen für K.
Das erste wäre das von gerade eben.
Also K wäre eins durch das Lebesmaß von der Kugel mit Radius eins um Null mal der Indikatorfunktion von der Kugel mit Radius eins um Null.
Das ist der sogenannte Naivekern.
Zweites Beispiel K von U wäre eine Konstante mal eins minus Norm U zum Quadrat und davon den Positivanteil. Wobei die Konstante eben so ist, dass diese positive Funktion oder nicht negative Funktion insgesamt zu eins integriert. Das ist dann der sogenannte Epanechnikow-Kern.
Auf den Epanechnikow-Kern kommen Sie, wenn Sie den sogenannten L2-Fehler betrachten statt sowie wir den L1-Fehler. Also wir betrachten ja das Integral von geschätzter Dichte minus wahrer Dichte.
Davon betragte X integriert über ganz RD. Das ist der L1-Fehler, L2-Fehler wäre das ganze Integral mit Betrag zum Quadrat. Wenn Sie dann eine gewisse Glattheit der Dichte voraussetzen, können Sie eine Konvergenzrate herleiten, wie schnell das ganze Ding gegen Null konvergiert.
Dann können Sie die Bandbreite zugehörig optimal wählen und noch weitere Einschränkungen an die Verteilung brauchen Sie gar nicht. Und anschließend können Sie sich überlegen, damit da für festes etwas möglichst kleines rauskommt, kann ich vielleicht noch den Kern irgendwie optimieren.
Und dann kommt irgendwann der Epanechnikow-Kern raus. Ansonsten können Sie ihn motivieren von hier nach hier, indem Sie sagen, ja, dieser Kern hat Unstetigkeit Stellen. Das ist ja eine Indikatorfunktion. Damit hat die ganze Schätzung als arithmetisches Mittel von solchen Indikatorfunktionen natürlich auch die gleichen Unstetigkeit Stellen oder genauso Unstetigkeit Stellen.
Das heißt, diese Schätzung ist nicht glatt. Während hier haben Sie eine stetige Funktion und wenn Sie dann eine stetige Funktion raus einsetzen und Sie bilden so ein arithmetisches Mittel drüber, dann bleibt die Funktion stetig. Das heißt, Ihre Schätzung wird auch stetig sein und sieht dann unter Umständen schöner aus. Zumindest wenn Sie erwarten, dass die wahre Dichte stetig ist.
Wenn Sie jetzt etwas noch glatteres einsetzen und das noch glattere ist das dritte, das wäre mehr oder weniger die Dichte von der Standard-Normalverteilung. Dann kriegen Sie eben noch glattere Bilderchen raus oder noch schönere Bilderchen raus. Das wäre K von U gleich. Also wir nehmen die d-dimensionale Standard-Normalverteilung.
Das heißt 1 durch 2P hoch D halbe mal E hoch Minus um U zum Quadrat halbe.
Das ist der sogenannte Gausskern. Und wie gesagt, die beiden letzten Kerne führen eben auf glattere Schätzungen. Was wir dann eben schon in der Einführung in die Straßli gemacht haben, für diejenigen Leute,
die da bei mir waren, da haben Sie gesehen, dieser ganze kerndichte Schätzer lässt sich eigentlich beuten, indem Sie um jeden dieser einzelnen Datenpunkte eine kleine Dichte drum herum legen, dieses HN kontrolliert, wie stark die Dichte zentriert ist und das Ganze dann noch einmal mitteln.
Gut, Fragen soweit.
Dann kann ich den eigentlichen Satz hinschreiben, den wir hier eigentlich zeigen werden. Es gibt Abschnitt 3.3, ein Konsistenzresultat.
Es gibt Satz 3.3. Da zeigen wir die schwache universelle Konsistenz des Kerndichteschätzers.
Ich gehe aus mit unabhängig identisch verteilten RD-wertigen Zufallsvariabeln mit Dichte f.
Mit Dichte f bezüglich des Lebes-Borelmaßes sein x1, x2 und so weiter.
Ich gucke mir dann den Kerndichteschätzer an, also fN von x sei, ja das müsste jetzt hier da oben stehen, also 1 durch N mal hN hoch D durch hN.
Ich nenne den naiven Kern, Bandbreite sei hN, ich schreihe ihn vielleicht noch dazu und Bandbreite hN.
Und die eigentliche Aussage ist dann, wenn die Bandbreite zwei Bedingungen erfüllt. Erstens, für wachsenden Stichprobenumfang muss sie gegen Null konvergieren. Zweitens, sie darf andererseits auch nicht zu schnell gegen Null konvergieren.
Es muss zumindest noch gelten, dass N mal h, also Stichprobenumfang, mal die Bandbreite hoch D gegen Null konvergiert. Also aus hN gegen Null folgt, dass der L1-Fehler von fN gegen
Null konvergiert, nach Wahrscheinlichkeit, wenn der Stichprobenumfang gegen Null geht, für jede Dichte f.
Die Aussage ist die folgende, sie geben eine beliebige Dichte f vor, dann konstruieren sie sich zu dieser Dichte unabhängig identisch verteilte Zufallsvariablen x1, x2 und so weiter.
Konstruieren zu diesen Zufallsvariablen den Kern-Dichteschätzer, mit der Bandbreite, die diese Bedingung hier erfüllt, hN gegen Null und N mal hN hoch D gegen N. Sie berechnen dann den L1-Abstand zwischen dem Dichteschätzer und der wahren Dichte, die
sie vorgegeben haben, bekommen eine zufällige Zahl, die vom Stichprobenumfang abhängt, oder eigentlich sogar von der ganzen Stichprobe, und für Stichprobenumfang gegen unendlich konvergiert das Ding nach Wahrscheinlichkeit gegen Null. Ich habe gegen unendlich gesagt und ich meine auch gegen unendlich, weil es wäre natürlich
wenig Sinn, wenn schon hN gegen Null geht, dann würde das erst recht gegen Null gehen. Sie haben vollständig recht, Dankeschön. Also die erste Bedingung besagt, dass die Bandbreite gegen Null gehen soll, die
zweite Bedingung besagt, dass die Bandbreite eben nicht zu schnell gegen Null gehen soll. Ja, es ist erstaunlich, wie viele Fehler ich mache, kaum wetten wir nicht.
Sonst Fragen soweit? Ach so, vielleicht noch zur Bezeichnung des Satzes.
Warum steht da schwache universelle Konsistenz des Kern-Dichteschätzers drüber? Ok, Kern-Dichteschätzer ist klar, darum geht es ja. Konsistenz ist eine Aussage, dass ein Fehler gegen Null konvergiert. Universelle Konsistenz bezieht sich darauf, dass das für mehr oder weniger alle Verteilungen ist. Das ist hier also diese jede Dichte.
Und das Schwach bezieht sich darauf, dass ich hier nur eine Konvergenz nach Wahrscheinlichkeit habe, nicht die stärkere Konvergenzart Konvergenz fast sicher. De facto könnte ich den gleichen Satz mit den gleichen Voraussetzungen auch für fast sichere Konvergenz zeigen. Nur dann würde ich eben wahrscheinlich drei Vorlesungen für brauchen und so brauche
ich eine halbe Vorlesung für ungefähr, um das zu beweisen oder nicht mal ganz. Ok, ich kann gerade noch, wir haben noch fünf Minuten, auch wenn Sie so schon am Gehen sind. Ich kann gerade noch ein Korrelar formulieren.
Es gibt Korrelar 3.4. Das besagt, unter den Voraussetzungen von Satz 3.3 gilt, gilt für,
und ich führe jetzt einen von der Dichteschätzung abgeleiteten Schätzer der Wahrscheinlichkeiten an. Das ist mein Mühe in Dach.
Und dann konvergiert eben das Supremum über B aus BD gegen Null nach Wahrscheinlichkeit, falls
mu die Verteilung ist mit Dichte F oder falls mu das Maß ist mit Dichte F.
Und F ist eben wieder die beliebige Dichte. Das heißt, jetzt habe ich für jede beliebige Dichte, wenn Sie das zugehörige Maß nicht angucken, kann ich die Wahrscheinlichkeiten uniform vorhersagen.
Und der Beweis geht ganz schnell, weil Sie können dieses Supremum hier nach dem Lemma von Cheffet umschreiben als ein Halbmal in den 1-Abstand.
Und nach unserem Satz 3.3, den wir uns das nächste Mal zeigen werden, konvergiert das Ganze nach Wahrscheinlichkeit gegen Null.
Ok, Fragen noch soweit? Keine Fragen? Dann bin ich für heute fertig und wir sehen uns am Montag.