Satz von Stone
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Part Number | 6 | |
Number of Parts | 28 | |
Author | ||
License | CC Attribution - NonCommercial - ShareAlike 3.0 Germany: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/19657 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
1
2
3
4
5
6
7
8
9
10
12
13
14
15
16
19
21
22
23
24
00:00
Nichtparametrische RegressionZusammenhang <Mathematik>Linear regressionLecture/Conference
01:33
Expected valueSquareRegressionsfunktionEstimatorRandom variableRegressionsschätzungPredictionConditional expectationMeasurable functionMeasurable functionDurchschnitt <Mengenlehre>EstimationLinear regressionFunction (mathematics)Computer animation
03:42
Free groupPopulation densitySquarePropositional formulaRandom variableExpected valueSample (statistics)RadiusEstimatorSummationMeasurable functionKernschätzungHerleitungPopulation densitySampling (statistics)InfinityConditional expectationLecture/ConferenceMeeting/Interview
06:15
RegressionsfunktionLine (geometry)Linear regressionPopulation densityParameter (computer programming)StochasticLineare FunktionPolymorphism (materials science)Entire functionWeightEstimatorKernschätzungEstimatorReal numberRecursive languageFunction (mathematics)Atomic nucleusMetreLecture/Conference
14:12
PerimeterEstimatorRadiusLinear regressionSample (statistics)Parameter (computer programming)WeightEstimationNumberFunction (mathematics)Sampling (statistics)Expected valueSquareEinheitskugelDurchschnitt <Mengenlehre>Local ringPopulation densitySummationMittelungsverfahrenAverageRegressionsfunktionKernfunktionKernschätzungAtomic nucleusEstimatorProbability distributionPhysical quantityLecture/Conference
22:10
WeightSummationKernschätzungAtomic nucleusLecture/ConferencePanel painting
23:28
Sampling (statistics)WeightExpected valueLogical constantAbsolute valueSummationBounded setEstimatorMeasurable functionEnde <Graphentheorie>RegressionsfunktionConditional expectationPerimeterLocal ringSample (statistics)EstimationDurchschnitt <Mengenlehre>Lecture/Conference
30:18
SummationPerimeterAbsolute valueWeightSample (statistics)RegressionsfunktionConditional expectationExpected valueAverageProbability distributionEnde <Graphentheorie>EstimatorSampling (statistics)Negative predictive valueTheoryFunction (mathematics)Physical quantitySquareLinear regressionLecture/Conference
36:32
SummationNumberWeightEstimatorAtomic nucleusAbsolute valueStudent's t-testSquareEnde <Graphentheorie>Lecture/ConferencePanel painting
43:45
Expected valueSample (statistics)INTEGRALSummationSquareFactorizationGradientFunction (mathematics)EstimatorBinomische FormelParameter (computer programming)AbschätzungInequality (mathematics)Quadratic functionMassReal numberIteriertes IntegralTerm (mathematics)Convex setLecture/Conference
53:57
Expected valueWeightIntegrierbarkeitSquareRegressionsfunktionINTEGRALMoment (mathematics)SummationAbsolute valueRandom variableConditional expectationInequality (mathematics)MassLecture/Conference
01:03:09
SquareExpected valueSequenceProbability theoryZahlLecture/Conference
01:04:59
Expected valueQuadratic functionWeightParameter (computer programming)SquareSummationLecture/Conference
01:09:15
SquareAbschätzungParameter (computer programming)WeightAbsolute valueLecture/Conference
01:10:19
SquareSupremumExpected valueTerm (mathematics)WeightAbsolute valueSummationFactorizationLecture/Conference
01:14:41
Well-formed formulaNorm <Mathematik>SquareSummationAdditionAbsolute valueExpected valueSummierbarkeitSupremumTerm (mathematics)Lecture/Conference
01:19:10
ZahlAbschätzungSupremumInequality (mathematics)Term (mathematics)ApproximationSupremumLecture/Conference
01:21:49
Lecture/ConferenceMeeting/Interview
Transcript: German(auto-generated)
00:08
Ja, ich begrüße Sie mal recht herzlich zur heutigen Vorlesung. Bei mir ist schon 25, bei der EU noch nicht ganz oder so, na gut, zu grob. Herr Jones hat mich darauf hingewiesen, dass, na ja, Sie wissen, man kann sich bei den Tukan irgendwie zu einer Vorlesung anmelden.
00:27
Und andererseits kann man zu einer Übungsgruppe hingehen. Und im Prinzip wäre es ganz geschickt, wenn da ein gewisser Zusammenhang bestehen würde. Das heißt, die melden sich bei Tukan zu einer Übungsgruppe an und gehen dann auch zu der Übungsgruppe hin. Aber ich gebe zu, es ist nicht zwingend notwendig.
00:42
Man kann sich natürlich auch nicht bei Tukan anmelden und zur Übungsgruppe hingehen. Beziehungsweise man kann sich bei Tukan anmelden und zur Übungsgruppe nicht hingehen, was gerade ein größerer Anteil anscheinend macht. Aber es wird eben irgendwie organisatorisch ein bisschen problematisch oder schwierig. Deswegen wäre es ganz günstig, wenn Sie noch nicht bei Tukan angemeldet sind, melden Sie sich einfach an.
01:02
Okay. Und ansonsten, Sie brauchen die Anmeldung irgendwann, weil die Prüfungsanmeldung läuft über Tukan. Das heißt, wir können bei Ihnen keine Noten eingeben, wenn Sie am Schluss nicht angemeldet sind. Aber ich nehme an, die Leute, die da sind, haben sich sowieso angemeldet, so gesehen. Okay, dann Wiederholung vom letzten Mal.
01:25
Ich habe im zweiten Teil der Stunde angefangen mit der nichtparametrischen Regression. Ausgangspunkt ist da folgendes Lemma. Wenn Sie eine RD-Kreuz-R-wertige Zufallsvariable XY haben, wo Y quadratisch integrierbar ist und Sie setzen M von X gleich dem bedingten Erwartungswert von Y gegeben Groß X gleich Klein X.
01:45
Das heißt, M von X ist der durchschnittliche Wert, den Y annimmt, wenn Groß X den Wert Klein X annimmt. Dann minimiert dieses M den Erwartungswert von M von X minus Y zum Quadrat. Das heißt, den mittleren quadratischen Fehler bei Vorhersage von Y durch eine Funktion von X bezüglich allen messbaren Funktionen.
02:08
Und diese ganze Beziehung folgte aus folgender Beziehung. Für eine beliebige messbare Funktion konnten Sie schreiben, Erwartungswert von F von X minus Y zum Quadrat ist gleich Erwartungswert von M von X minus Y zum Quadrat plus dem sogenannten L2-Fehler integral von F von X minus M von X zum Quadrat Px dx.
02:28
Aus dem Beweis haben Sie dann folgende Folgerungen. Der mittlere quadratische Vorhersagefehler von Y durch F von X,
02:43
das heißt, hier muss der Erwartungswert von F von X minus Y zum Quadrat stehen. Der ist nahe am Minimalwert, genau dann, wenn das Integral von F von X minus M von X zum Quadrat Px dx klein ist. Bei der Regressionsschätzung haben Sie jetzt Daten gegeben, die Sie als unabhängig identisch verteilte Zufallsvariablen auffassen,
03:03
X1, Y1 bis Xn, Yn unabhängig identisch wie X, Y verteilt. Gesucht ist in Abhängigkeit von diesen Daten eine Schätzfunktion Mn, Funktion von Rd nach R, von der Regressionsfunktion, sogenannten Regressionsfunktion M, also bedingten Erwartungswert von Y gegeben Groß X gleich fester Wert,
03:24
ist der Funktionswert von M, deren L2-Fehler integral von Mn von X minus M von X zum Quadrat integriert bezüglich der Verteilung von X möglichst klein ist. Das heißt, deren mittlere quadratische Vorhersagefehler bei Vorhersage von Y durch Mn von X
03:40
möglichst nahe am Minimalwert ist. Ich habe wieder neue Prüfungsfragen und ich habe Ihnen auch diesmal einen Toucan direkt schon hochgeladen.
04:05
Also wir fahren schon bis Frage 7. Frage Nummer 8. Motivieren und definieren Sie den Kerndichteschätzer von Rosenblatt und Parsen. Welche Bedingungen sollte die Bandbreite mit wachsendem Stichprobenumfang erfüllen? Frage 9. Formulieren Sie eine Konsistenzaussage für den erwarteten L1-Fehler des Kerndichteschätzers.
04:25
Ja, wir haben es mit Konsistenzaussage nach Wahrscheinlichkeit gemacht, aber im Beweis eben die Konsistenzaussage für den erwarteten L2-Fehler gezeigt. Beweisen Sie anschließend, bei Vorliegen des naiven Kerns gilt unter geeigneten Bedingungen an die Bandbreite,
04:42
dass der Erwartungswert von Fn, Hn von X minus F von X zum Quadrat gegen Null konvergiert. Fülle weg fast alle X und alle Dichten F. Also hier muss eben Hm gegen Null konvergieren und N mal H noch D gegen endlich. Und dann sollen Sie daraus das Resultat für den L1-Fehler herleiten. Das war der Beweis vom letzten Mal, Beginn der Stunde.
05:04
Und da ist da noch ein Hinweis dabei, dass Sie dieses Fn, Hn von X eben umschreiben können als Mu n von der Kugel mit dem Radius Hn um X geteilt durch Lambda von der entsprechenden Kugel.
05:27
Also der Wegmaß durch der Kugel. Und dann Frage Nummer 10 ist das von gerade eben. Sei X, Y eine RD-Kreuz R-wertige Zufallsvariante mit Erwartungswert von Y Quadrat Kleiner und Endlich. Und sei M von X bedingte Erwartungswert von Y gegeben Groß X gleich Klein X.
05:42
Zeigen Sie für messbares F von RD nach R mit Erwartungswert von F von X zum Quadrat Kleiner und Endlich gilt dieser Erwartungswert von F von X minus Y zum Quadrat. Lässt Sie schreiben als Summe des Erwartungswerts von M von X minus Y zum Quadrat plus dem sogenannten L2-Fehler von F. Und folgern Sie daraus dieses M minimiert den Erwartungswert von F von X minus Y zum Quadrat
06:04
bezüglich allen messbaren Funktionen. Heute kommt jetzt gleich die Definition des Kernschätzers von Naderaya-Watson. Und dann kommt der sogenannte Satz von Stone. Das gibt dann die nächste Prüfungsfrage-Erklärchen. Aber beim nächsten Mal dann nochmal.
06:25
Okay, haben Sie Fragen soweit?
06:53
Ja, das Tafellicht tut heute nicht. Aber meine Sekretärin ruft den Hausmeister an und beschwert sich. Vielleicht tut es dann wenigstens nächstes Mal wieder oder so.
07:03
Aber ich hoffe, Sie sehen trotzdem was. Dann machen wir weiter. Also ich habe Ihnen die Problemstellung bei der Regressionschätzung vorgestellt. Der klassische Ansatz ist die sogenannte parametrische Regression, wo Sie die Bauart als bekannt voraussetzen und annehmen,
07:26
dass sie nur von endlich vielen Parametern abhängt und diese schätzen. Beispielweise lineare Regression.
07:43
Also klassischer Ansatz, parametrische Regression.
08:04
Die zentrale Annahme ist, die Bauart der Regressionsfunktion ist bekannt und hängt nur von endlich vielen Parametern, also unbekannten reellen Zahlen ab.
08:55
Und dann schätzen wir eben diese Parameter. Also um dann diese ganze Funktion schätzen möchte,
09:02
was ja eigentlich ein endlich-dimensionales Gebilde ist, genügt es eben, diese endlich vielen Parameterwerte zu schätzen und dann diese Schätzwerte in diese Bauart einzusetzen und damit seine Schätzfunktion zu konstruieren.
09:23
Und das kennen Sie alle schon aus der Einführung in die Stochastik oder könnten Sie alle schon aus der Einführung in die Stochastik kennen das Standardverfahren hier bei der linearen Regression, wo Sie davon ausgehen, dass die Regressionsfunktion eine lineare Funktion ist. Also im Eindimensionalen, das wäre einfach eine Gerade.
09:41
Und Sie passen von dieser Gerade eben die Steigung und den Y-Achsenabschnitt an die beobachteten Daten an. Also Beispiel lineare Regression.
10:03
Und im Folgenden mache ich aber was anderes. All das untersuchen wir nicht. Wir untersuchen stattdessen modernere Verfahren, die sogenannte nicht-parametrische Regression. Und ja, im Prinzip könnte man sagen, wenn das Ding nicht-parametrische Regression heißt, dann ist es eben einfach nicht die parametrische Regression.
10:23
Und ich würde es aber so sagen, es gibt eben keine Annahme, dass die Bauart der Regressionsfunktion oder dass die Regressionsfunktion durch endlich viele Parameter beschreibbar ist. Genau diese Annahme fehlt. Also im Folgenden nicht-parametrische Regression.
11:05
Und da ist eben die Regressionsfunktion nicht durch endlich viele Parameter beschreibbar.
11:57
Wir untersuchen jetzt einen der bekanntesten
12:04
nicht-parametrischen Regressionschätzer, nämlich den sogenannten Kernschätzer von Naderaya und Watzn.
12:47
Stammt so aus dem Jahr ungefähr 1960. M von X lässt Sie schreiben. Ja, es gibt verschiedene Motivationen.
13:02
Eine Motivation wäre, Sie nehmen die, Sie wollen ja die Regressionsfunktion schätzen, M von X. Sie schreiben die Regressionsfunktion M von X als M von X mal F von X, Dichte bezüglich X durch F von X. Und Sie schätzen dann separat das Produkt M von X mal F von X und F von X.
13:21
Wie Sie F von X schätzen, wissen Sie schon. Dann nehmen Sie den Kern-Dichteschätzer. Und für das Produkt M von X mal F von X nehmen Sie eine Modifikation des Kern-Dichteschätzers. Aber möchte ich hier eigentlich gar nicht so motivieren, weil wir eigentlich gar keine Dichte als bekannt voraussetzen möchten. Eine andere Möglichkeit ist zu sagen, ja,
13:43
dieses M von X beschreibt den durchschnittlichen Wert von Y. Wir geben Groß X gleich Klein X. Und den schätzen wir eben, indem wir alle unsere Datenpunkte angucken. Alle die nehmen, wo das Groß X nahe an dem Klein X ist.
14:02
Die Stelle, die uns interessiert. Und davon die zugehörigen Y-Werte mitteln. Und dann führen wir noch Gewichte ein, die immer kleiner werden. Wenn je weiter das Klein X von Groß X entfernt ist. Und drücken das mit so einem Kern aus. Dann kommen wir auf folgende Formel.
14:21
I gleich 1 bis N. YI mal eine Kernfunktion von X minus XI durch eine Bandbreite HN. Und jetzt noch geteilt durch die Summe der Gewichte. Y gleich 1 bis N. K von X minus XJ durch HN.
14:45
Und im Spezialfall, dass die Gewichte alle 0 sein, setzen sie 0 durch 0 als 0 an. Mit sogenannten Kern.
15:09
K ist eine Funktion von RD nach R. Die eben um den Nullpunkt große Werte annimmt. Weiter weg kleine Werte.
15:22
Zum Beispiel K könnte man als Indikatorfunktion zur Kugel um den Nullpunkt mit Radius 1 nehmen. Also wir nehmen einfach den naiven Kern. Jetzt hier ohne Reskalierung wie beim Kerndichteschätzer. Weil wir würden ja die Reskalierung im Zähler und im Nenner machen. Würde sich genauso rauskotzen, spielt also keine Rolle.
15:41
Ob ich da irgendwie hier eine Dichte nehme oder keine Dichte. Und der sogenannten Bandbreite HN größer 0.
16:02
Wenn Sie es jetzt genau mit dem naiven Kern machen, dann wären die Gewichte, alle Gewichte entweder 1 oder 0. 1 wären Sie, wenn X minus XI durch HN in dieser Einheitskugel drin liegt. Das heißt, wenn der Abstand von XI zu X
16:21
kleiner gleich als HN wäre in der euklidischen Norm. Dann wären Sie 1, anders wären Sie 0. Und dann sehen Sie, dann hätten Sie hier gerade ein Mittel aller der Y-Werte, wo das XI eben nahe bei X ist. Und was nahe heißt, steuern Sie folgungs mit dem HN mit dem zweiten Parameter.
16:43
Also Deutung, Schätzwert ist Mittelwert aller der YI für die XI nahe bei X ist. Deutung, also für K gleich, sollte ich vielleicht noch dazuschreiben,
17:00
für K gleich IS 1 0 ist Schätzwert Mittelwert aller der YI für die XI nahe bei X ist.
17:37
Und das macht Sinn, wenn Sie eben den Funktionswert der Regressionsfunktion an der Stelle X schätzen wollen,
17:44
was ja gerade der durchschnittliche Wert von Y ist, gegeben groß X gleich klein X.
18:02
Okay, haben Sie Fragen soweit? Keine Fragen.
18:30
Kommen wir zum Abschnitt 4 Punkt 2. Da werde ich das eigentliche Theoretische, oder was wir im Folgenden machen werden. Ich möchte zeigen, wenn ich den naiven Kern nehme,
18:44
wenn HN gegen 0 konvergiert und N mal HN hoch D konvergiert gegen endlich. Also gleiche Bedingungen wie beim Kerndichteschätzung. Das heißt, die Folge der Bandbreiten konvergiert einerseits oder wird asymptotisch immer kleiner, also geht asymptotisch gegen 0, aber geht eben nicht zu schnell gegen 0.
19:01
Dann möchte ich zeigen, konvergierte L2-Fehler von dem Ding gegen 0, und zwar der erwartete L2-Fehler werden wir zeigen, konvergiert gegen 0, für Stichprobenumfang gegen endlich, für alle Verteilungen von XY. Also ganz egal, was die zugrunde liegende Verteilung ist. Wenn Sie eine beliebige Verteilung nehmen, wo der Erwartungswert von Y² klein und endlich ist,
19:24
Sie erzeugen dann davon Stichproben vom Umfang N, N plus 1 usw. M ist die zugehörige Regressionsfunktion zu dieser Verteilung. Sie nehmen diesen Regressionsschätzer, dann konvergiert der L2-Fehler das Integral von MN von X minus M von X zum Quadrat,
19:41
integriert bezüglich der Verteilung von X nach Wahrscheinlichkeit gegen 0, bzw. es gilt sogar der Erwartungswert davon, konvergiert gegen 0. Das Ganze gilt unter ein bisschen schärferen Bedingungen an die Bandbreite, soweit ich weiß, sogar fast sicher, aber das ist ein viel, viel schwierigeres Resultat, das zu zeigen.
20:01
Wir zeigen es hier, dass der erwartete L2-Fehler gegen 0 geht. Schöne Sache daran ist, das ist eben ein Resultat zur universellen Konsistenz, weil es ist gültig für jede Verteilung und damit ganz egal, in welcher Situation Sie es anwenden, da liegt ja auch eine Verteilung vor, Sie können eigentlich sicher sein, auch die Verteilung, auch für die gilt es, weil es für alle Verteilungen gilt,
20:23
zumindest wenn der Stichprobenumfang gegen und endlich geht. Und das Ganze beweisen wir über einen Hilfsatz aus dem Jahr 1977, den sogenannten Satz von Stone.
20:46
Das Ganze geht jetzt nicht, dieser Satz von Stone geht nicht über den Kernschätzer, sondern geht über allgemeinere Schätzer, nämlich sogenannte lokale Durchschnittsschätzer, wo Sie die X-Werte der Stichprobe nehmen, um irgendwelche Gewichte zu definieren
21:03
und damit die Y-Werte mitteln. Also Kernschätzer ist Beispiel fürs lokalen Durchschnittsschätzer.
21:37
Mn von X ist Summe i gleich 1 bis n, ein Gewicht mal Yn i.
21:49
Für das Gewicht schreibe ich Wn i von X. Und dieses Gewicht hängt also von, also ich nehme für jeden Datenpunkt ein anderes Gewicht. Es hängt ab von dem Punkt, an dem ich schätzen möchte, aber es hängt auch noch ab,
22:04
dass es hier unterdrückt, von den allen X-Werten der Stichprobe, aber eben nicht von den Y-Werten.
22:28
Mit Wn i von X, ein von den X-Werten der gegebenen Daten abhängendes, oder von den X-Werten der gegebenen Daten abhängende Gewichte.
23:05
Wenn Sie sich überlegen, was sind die Gewichte beim Kernschätzer? Na ja, das sehen Sie im Prinzip fast. Da nehme ich einfach dieses K von X minus X, die durch Hn teile durch die Summe aller Gewichte.
23:27
Also beim Kernschätzer.
24:25
Und für diese Art von lokalen Durchschnittsschätzern gibt es jetzt einen allgemeinen Satz. Es gibt den Satz 4.2.
24:47
Gut, danke schön.
25:01
Na, der hat irgendwie nicht geglaubt, dass wir auch wissen, wo das Licht angeht, aber okay. Okay, Satz 4.2 stammt von Charles Stone aus dem Jahr 1977. Ich sollte diesem Mn von X noch eine Nummer geben. Das ist die Formel 4.2 an der Stelle.
25:36
Im Satz 4.2 nehme ich jetzt an, ich habe so einen lokalen Durchschnittsschätzer, der 4.2 erfüllt.
25:42
Sei Mn ein lokaler Durchschnittsschätzer, definiert durch 4.2.
26:19
Für jede beliebige Verteilung von X kommen jetzt Bedingungen an die Gewichte.
26:23
Für jede beliebige Verteilung von X gelte.
26:43
Und zwar brauche ich jetzt fünf Bedingungen. Die erste Bedingung ist eine technische, die man nicht ohne weiterer sieht, was es bedeutet. Existiert eine Konstante C aus R plus. Sodass für alle messbaren Funktionen F von RD nach R plus und für alle Stichprobenumfänge soll Folgendes gelten.
27:17
Ich gucke mir den Schätzer an, wenn ich yi ersetze durch F von Xi.
27:22
Also wir gucken uns, ich lasse hier noch ein bisschen Platz. Summe i gleich 1 bis n, w n i, und zwar jetzt von Groß x mal F von Xi an. Ich möchte letzten Endes haben, dass das ganze Ding, oder wir werden nachher in Beweis dann auch sehen,
27:42
dass die Behauptung eigentlich äquivalent ist, dass das ganze Ding in L2 gegen, naja gegen die Regressionsfunktion konvergiert. Aber wenn die Y gerade so ein F von X ist, dann ist natürlich der durchschnittliche Wert oder die Regressionsfunktion ist gerade das F. Wenn Sie sich überlegen, was ist der bedingte Erwartungswert von F von X gegeben Groß x gleich Klein x, naja das ist F von Klein x.
28:06
Das heißt, wenn ich das als Datenpunkte Y nehme, ist dieses F gerade mein M. Ich möchte also haben, dass das ganze Ding in L2 gegen F konvergiert und eine Mindestforderung ist dann, dass auch oder eine Folgerung daraus ist,
28:24
dass der Erwartungswert davon auch gegen den entsprechenden Erwartungswert von F konvergiert. Und ich fordere hier, dass der Erwartungswert schon mal kleiner gleich sein soll als eine Konstante von F von X. Konstante mal Erwartungswert von F von X.
28:42
Das heißt, die erste Bedingung ist, existiert eine Konstante, sodass für alle messbaren Funktionen, für alle Stichprobenumfänge der erwartete Wert von meinem Schätzer, wenn ich YI durch F und XI ersetze, kleiner gleich als dieser konstanten Malerwartungswert von F und X ist. Und letzten Endes möchte ich sogar haben, dass das ganze Ding in L2 gegen F von X konvergiert.
29:05
Deswegen ist das also wohl keine zu starke Bedingung. Erste Bedingung. Zweite Bedingung. Das ist anschaulich eine Beschränktheit der Gewichte.
29:21
Es existiert ein d größer gleich 1, sodass für alle n gilt. Die Wahrscheinlichkeit, dass die Summe von den Beträgen der Gewichte kleiner gleich d ist,
29:46
das soll gleich 1 sein. Also anschaulich ist es sowas wie Beschränktheit der Gewichte.
30:13
Dann meine dritte Bedingung an die Gewichte wird sein,
30:22
wenn man sich überlegt, was mache ich, ich schätze so einen Mittelwert von Y gegeben, groß X gleich klein X, an einer Stelle X, dann sollte dieses Gewicht WNI von X also asymptotisch eigentlich ziemlich klein werden, wenn das XI einen festen Abstand von X hat.
30:42
Und sowas haben wir bei drittens drin. Für alle a größer 0, der Erwartungswert von Summe i gleich 1 bis n,
31:04
Betrag von WNI von X, mal Indikatorfunktion, dass Norm von XI minus X größer als a ist,
31:24
der geht gegen 0 für n gegen endlich. Und das heißt sowas wie, dass es sich asymptotisch lokal entscheiden,
31:40
also asymptotisch gehen Datenpunkte, wo das XI Wert einen Abstand größer a von X hat, eben nicht mehr in die Entscheidung ein.
32:05
Die vierte Bedingung, ich schreibe es mal hier noch hin, besagt, dass ich letzten Endes die Daten eigentlich so gewichten soll,
32:28
dass die Summe der Gewichte gleich 1 ist, zumindest asymptotisch. Das heißt, ich werde hier fordern, Summe i gleich 1 bis n, WNI von Groß X konvergiert nach Wahrscheinlichkeit gegen 1.
32:57
Und die fünfte Bedingung stellt sicher,
33:00
dass kein einziges, kein einzelnes Gewicht einen zu großen Einfluss hat. Ich fordere, dass der Erwartungswert von Summe i gleich 1 bis n, Gewicht zum Quadrat, gegen 0 konvergiert.
33:33
Also einzelnes Gewicht hat keinen zu großen Einfluss.
34:07
Und die Aussage ist dann, dann gilt, der erwartete L2-Fehler von meinem Schätzer
34:29
konvergiert für Stichprobenumfang endlich gegen 0, für alle Verteilungen von X, Y klein und endlich.
35:03
Und man spricht dann von der sogenannten universellen Konsistenz. Also Konsistenz heißt immer, dass so ein Fehler gegen 0 konvergiert, asymptotisch universell heißt, es gilt für alle Verteilungen.
35:43
Und es ist jetzt eine ähnliche Aussage wie bei unserem vorigen Theorem zu dichten. Das heißt wieder, wenn Sie sich eine beliebige Verteilung von X, Y nehmen und wo der Erwartungswert von Y Quadrat, Kleine und Endlich ist. Und bezüglich dieser Verteilung bestimmen Sie dann M als Regressionsfunktion.
36:01
Also M ist der bedingte Erwartungswert von Y gegeben groß X gleich klein. M von X ist der bedingte Erwartungswert von Y gegeben groß X gleich klein X. Für diese Verteilung. X, wo Sie hier integrieren, ist auch das X von dieser Verteilung. Und bezüglich dieser Verteilung erzeugen Sie sich jetzt unabhängig identisch verteilte Stichproben und stecken eine Stichprobe vom Umfang N in dieses MN von X,
36:24
was in 4,2 definiert war. Und 4,2 stand hier auch mal irgendwo, ja da unten. Was hier definiert ist. Mit den WNI von X sind die WNI von X, X1 bis XN.
36:41
Und Sie berechnen dann den erwarteten L2-Fehler von Ihrem Schätzer für festes N und lassen dann noch N gegen endlich gehen, dann geht der Wert gegen Null. Ganz egal, was die ursprüngliche Verteilung war. Aber natürlich von der ursprünglichen Verteilung, die bestimmt das M und die bestimmt auch die Daten, die da reingehen.
37:06
Fragen soweit? Die Frage Punkt 2 ganz oben, wir haben da stehen die Summe der Beträge der WI kleiner gleich Null.
37:23
Wäre keinen Sinn, das soll kleiner gleich D heißen. Es handelt sich hierbei nicht um die Null größer gleich 1, die existieren soll, sondern um das D größer gleich 1. Und genau dieses D taucht auch hier wieder auf.
37:43
Okay? Und vielleicht sollte ich hier auch die 1 noch ein bisschen größer malen. Okay, noch Fragen?
38:14
Also was wir jetzt machen ist zweierlei. Erstens, ich beweise diesen Satz. Das wird jetzt die letzte, ja ungefähr eine Zeitstunde brauchen.
38:25
Also ich werde mir heute nicht mehr ganz schaffen, sondern Stunde 15 ungefähr. Und zweitens, wir zeigen dann, dass diese Gewichte diese 5 Bedingungen erfüllen. Das wird ungefähr zweieinhalb Stunden dauern. Das ist wirklich der härtere Teil.
38:44
Eine beliebte Prüfungsfrage von mir bei mündlichen Prüfungen, wenn ich auf Stone zu sprechen komme, erklärt erst jemand Stone, dann sagt er mir, was die Gewichte bei dem Kantschätzer ist, und dann fordere ich ihn auf, eine von diesen 5 Bedingungen von Stone zu zeigen.
39:02
Und welche Bedingungen würden Sie wählen? Also Sie haben einen Kantschätzer mit naiven Kern, Sie haben die Gewichte, und Sie sollen eine dieser 5 Bedingungen zeigen. Also welche würden Sie wählen, wenn sie nicht masochistisch veranlagt wären?
39:23
Also Sie haben das Ziel, diese Prüfung mit möglichst wenig Aufwand erfolgreich abzulegen. Also ich kann vielleicht dazusagen, ich hatte noch keinen, der die Bedingungen 1 gewählt hat.
39:41
Herr Weinbender, Sie würden die 4. wählen? Okay. Ja, Herr Weinbender, Sie sind noch masochistisch veranlagt. Ja, ich habe einen Teil der Studenten, die wählen die 4. Das ist schon richtig, die haben so eine gewisse Ader, nicht den einfachsten Weg einzuschlagen, zwingend.
40:01
Was ist das Problem mit der 4.? Das sieht ganz einfach aus. Summe der Gewichte ist gleich 1. Das Problem mit der 4. ist diese blöde Kondension 0 durch 0 ist 0. Das heißt, Sie müssen bei der 4. irgendwie ausschließen. Also die 4. läuft letzten Endes, wenn Sie sich angucken, wie groß ist die Wahrscheinlichkeit, dass die Summe der Gewichte minus 1 betragsmäßig größer als epsilon ist.
40:23
Das ist das Gleiche wie die Wahrscheinlichkeit, wenn epsilon klein ist, dass die Summe der Gewichte gleich 0 ist. Das heißt, Sie müssen die Wahrscheinlichkeit ausrechnen, dass die Summe der Gewichte gleich 0 ist. Das ist nicht die erste Bedingung, aber da brauchen Sie eine Weile. Okay, das war die zweitleichteste. Was wurden Sie alternativ wählen?
40:57
Okay, Herr Weinbender, nächster Versuch.
41:02
Sie glauben, ja, ja, Sie haben Recht. Das war die drittleichteste und das ist die zweitleichteste. Sie haben perfekt Recht, Herr Weinbender. Warum ist die dritte leichter? Wenn Sie den naiven Kern haben und dieses xi minus x ist größer als a,
41:21
dann kann dieses K von x minus xi durch hn nur dann ungleich 0 sein, wenn das hn muss größer als a sein. Aber hn geht gegen 0 für n gegen n. Deswegen ist die dritte eigentlich in der Tat leichter. Okay, Sie fragen jetzt nicht mehr, Herr Weinbender,
41:45
obwohl Sie langsam konvergieren. Die Frage ist, die fünfte oder die zweite? Was ist einfacher? Die fünfte?
42:01
Doch nicht. Ja, die fünfte, die Summe der Gewichte zum Quadrat? Nein, nein. Also es war die zweite. Wenn Sie sich überlegen, die Summe der Gewichte zum Quadrat, die Summe der Gewichte, was kommt denn hier raus? Die Gewichte beim naiven Kern, die sind alle größer als 0.
42:20
Das heißt, die Summe der Gewichte ist die Summe hier durch die Summe hier. Das ist Zähler und Nenner, wenn es das Gleiche ist, das ist immer 1, außer Zähler und Nenner ist es gleich 0, dann ist es 0. Aber auf alle Fälle kleiner als 1. Das heißt, die zweite ist geschenkt. Die zweite ist geschenkt, die erste macht echt viel Arbeit.
42:43
Die dritte war relativ leicht. Und die vierte und fünfte, ja, die fünfte ist ein bisschen schwieriger als die vierte, machen aber beide ein bisschen Arbeit. Okay, aber machen wir heute nicht. Sondern heute machen wir an das, was ich eigentlich fragen würde,
43:02
wenn ich Ihnen eine schriftliche Klausur geben würde, nämlich den Beweis vom Satz von Stone. Andererseits ist es klar, wenn ich Ihnen gesagt habe, dass ich das fragen würde, würde ich es vielleicht nicht mehr fragen. Wenn ich Ihnen aber gesagt habe, dass ich es nicht mehr fragen würde, würde ich es vielleicht wieder fragen. Und das geht natürlich eine Weile so hin und her.
43:20
Aber das wäre eine gute, guter Kandidat für eine Prüfungsfrage in der schriftlichen Aufgabe. Wobei nicht den ganzen Beweis, sondern das ist ein Beweis, werden Sie gleich sehen, der zerfällt in mehrere einzelnen Teile. Und dann könnte ich eben einen Teil fragen, wo Sie nach einer halben Stunde fertig sind.
43:40
Okay, aber vorher machen wir fünf Minuten Pause zum Tafelwischen und dann fangen wir mit dem Beweis an. Kommen wir zum Beweis vom Satz 42. Wir gucken uns den Ausdruck an, der uns interessiert.
44:02
Erwartete L2-Fehler.
44:32
Dieses Mn von x hängt jetzt auch noch von der gesamten Stichprobe ab, von x1, y1 bis xn, yn. Das heißt, dieser Erwartungswert kann ich eigentlich umschreiben
44:42
als ein Integral bezüglich der Verteilung von x1, y1 bis xn, yn. Dann kann ich Phobini anwenden und dieses Integral umschreiben oder dieses iterierte Integral umschreiben
45:02
als ein Integral bezüglich dem Produktmaß. Und aufgrund der Unabhängigkeit der Daten wäre das dann gerade ein Integral bezüglich der gemeinsamen Verteilung von x, x1, y1 bis xn, yn. Und dann kann ich das ganze Ding wieder als Erwartungswert umschreiben und komme mit Phobini hier auf
45:34
den Erwartungswert von Mn von x minus M von x zum Quadrat. Also im Prinzip geht es einfacher, wenn Sie von unten nach oben schließen.
45:41
Sie schreiben das untere um als Integral und es ist eben ein Integral, wo Sie einerseits bezüglich x integrieren, einerseits bezüglich den Rest integrieren und den Rest schreiben Sie wieder als Erwartungswert. Okay, jetzt setze ich die Voraussetzung
46:03
an den Schätzer an, das war 4, 2. Also ich setze die Form des Schätzers ein. Und der Schätzer war ja eine Summe i gleich 1 bis n Wni von x mal yi.
46:29
Und dann muss ich eigentlich noch M von xi abziehen. Zum Quadrat, bin fertig. Und das ganze schreibe ich jetzt ein bisschen um. In dem ich hier erstmal statt yi, yi minus M von xi schreibe.
46:45
Dann addiere ich als nächstes dazu die gleiche Summe nochmal mit Wni von x
47:01
mal M von xi minus M von x. All das ganze kürzt sich jetzt hier weg. Und dann kommt noch M von x mal die Summe i gleich 1 bis n Wn,i von x minus 1 dazu.
47:23
Und das ganze zum Quadrat. Und wenn Sie das jetzt genau angucken, dann sehen Sie, also das hier kürzt sich mit dem weg und das hier kürzt sich mit dem weg. Und dann bleibt eben nur noch die Summe i gleich 1 bis n Wn,i von x mal yi
47:42
minus M von x. Davon das Quadrat übrig. Und das war die richtige Form. Okay, also Sie haben ein paar Mal die Null eingefügt. Weil, wenn Sie das wieder auseinander ziehen,
48:03
dann steht eben der ursprüngliche Schätzer da. Minus Summe i gleich 1 bis n Wn,i von x mal M von xi. Wenn Sie das auseinander ziehen, dann kommt hier aber ein Plus. Summe i gleich 1 bis n Wn,i von x mal M von xi hebt sich mit dem oberen weg. Dann bleibt noch ein Minus übrig. Das M von x hängt gar nicht von der Summe ab.
48:21
M von x mal die Summe i gleich 1 bis n Wn,i von x. Das hebt sich wieder mit dem da unten weg. Plus M von x mal die Summe der Wn,i. Also auch die heben sich weg. Und es bleibt nur noch das Minus M von x übrig. Okay, soweit. Jetzt habe ich
48:51
einen Erwartungswert von einem Quadrat. Und drin steht eine Summe von drei Termen. Ich nutze jetzt als nächstes aus elementare Ungleichungen.
49:01
Wenn Sie a plus b plus c zum Quadrat haben, dann ist das kleiner gleich als 3a Quadrat plus 3b Quadrat plus 3c Quadrat.
49:21
Für a, b, c aus reellen Zahlen. Das könnten Sie zum Beispiel beweisen, indem Sie links ausmultiplizieren. Dann alles auf die rechte Seite bringen. Und sehen, da stehen irgendwelche binomischen Formeln da. Das wäre so die einfache Version, die ein bisschen fortgeschrittener Version wäre. Sie teilen die Beziehung durch 9.
49:42
Die 9 ziehen Sie hier in das Quadrat als ein Drittel rein. Dann steht hier ein Drittel a plus ein Drittel b plus ein Drittel c zum Quadrat. Und rechts steht ein Drittel a Quadrat plus ein Drittel b Quadrat plus ein Drittel c Quadrat. Das heißt, Sie nehmen die Quadratfunktion auf eine Konvexkombination
50:02
der Argumente. Und bekommen rechts die entsprechende Konvexkombination der Quadratfunktion der Argumente. Und wenn Sie jetzt wissen, dass die Quadratfunktion Konvex ist und sich an die Jensenische Ungleichung erinnern, dann sehen Sie, das war die Ungleichung von Jensen. Alternative, wenn Sie durch 9 teilen. Andere Alternative, wie gesagt,
50:22
Sie multiplizieren einfach aus. Wenn Sie ausmultiplizieren, sehen Sie, haben Sie eigentlich a Quadrat plus b Quadrat plus c Quadrat stehen. Dann kommen 2 mal a b, 2 mal a c, 2 mal b c auf der linken Seite noch dazu. Und wenn Sie ausnutzen, dass 2 a b kleiner gleich als a Quadrat plus b Quadrat ist, aufgrund von
50:42
der binomischen Formel, und es mit allen drei Termen entsprechend machen, kommen Sie auf die 3 a Quadrat plus 3 b Quadrat plus 3 c Quadrat. Okay. Also das mach ich jetzt hier. Damit bekomme ich ein Faktor 3 und kann jeweils die einzelnen Quadrate hinschreiben. Und dann ziehe ich den Erwartungswert gleich noch auseinander. Dann komme ich auf kleiner gleich
51:03
3 mal Erwartungswert von
51:26
3 mal dem ersten Quadrat plus 3 mal das zweite Quadrat plus 3 mal das dritte Quadrat.
51:59
Erwartungswert zum dritten Quadrat.
52:11
Das ist m von x mal. Und für die 3 Terme
52:35
führ ich jetzt Bezeichnungen ein. Den ersten ohne den Faktor 3 nenne ich i n.
52:42
Den zweiten ohne Faktor 3 nenne ich j n. Den dritten ohne Faktor 3 nenne ich l n. Und in den nächsten 3 Beweisschritten zeigen wir jetzt alle 3 Terme konvergieren gegen 0. Also i n geht gegen 0, j n geht gegen 0, l n geht gegen 0.
53:05
Und dazu verwenden wir eben die 5 Bedingungen, 5 Voraussetzungen aus dem Satz 4.2. Und eine typische Prüfungsfrage jetzt
53:21
bei der Sache wäre, für eine schriftliche Prüfung zeigen Sie, der erwartete, also beweisen Sie den Satz von Stone. Der Satz ist vorgegeben. Und dann ein Hinweis zeigen Sie zuerst diese Abschätzung erwarteter als 2 Fehler. Kleiner gleich als die 3 Terme. Und dann gehen Sie davon aus, dass
53:44
2 davon schon gegen 0 geht und zeigen Sie, der dritte konvergiert gegen 0. Irgendso was. Oder zeigen Sie 2 von diesen 3 konvergiert gegen 0 und gehen Sie davon aus, dass der dritte gegen 0 geht. Und dann schaffen Sie das auch in einer Stunde oder in einer halben Stunde. Je nachdem, wie lange ich Ihnen dafür Zeit gebe.
54:02
Also je nachdem kann ich Ihnen 2 Bedingungen verlangen oder eine. Sie schaffen es auch in einer Viertelstunde, wenn ich Ihnen noch weniger Zeit gebe. Aber es ist ja eine Matheklausur nicht irgendwie ein Rettlauf mit der Zeiten. Darum geht es ja nicht.
54:21
Oder ein Schnellschreibwettbewerb ist es auch nicht. Ok, Fragen soweit? Ok, die Frage bei Fobini.
54:41
Fobini wenden Sie ja irgendwie für 2 Integrale an. Wo steht das zweite Integral? Das zweite Integral ist der Erwartungswert. Das ist ein Integral bezüglich... Ja, bei Fobini kann ich eine Integrationsreihenfolge vertauschen. Oder ich kann sagen, das Integral bezüglich dem Produktmaß ist gleich bei den
55:02
interierten Integralen. Und das mache ich gerade. Das ist das Integral bezüglich dem Produktmaß. Also hier habe ich ein Integral außenbezüglich der Verteilung von x1, y1 bis xn, yn. Innenintegral bezüglich der Verteilung von x.
55:20
Und hier habe ich ein Integral bezüglich dem Produktmaß von der Verteilung von x1, y1 bis xn, yn und x, was gerade die gemeinsame Verteilung von x1, y1 bis xn, yn und x ist aufgrund der Unabhängigkeit. Ok? Noch Fragen?
55:50
Gut, dann fangen wir an. Am einfachsten geht Ln.
56:02
Also als erstes zeigen wir Ln gegen 0, 4n gegen endlich. Wir wissen
56:21
nach Voraussetzung 4, dass die Summe der Gewichte nach Wahrscheinlichkeit gegen 1 konvergiert. Das heißt die Summe der Gewichte minus 1 konvergiert nach Wahrscheinlichkeit gegen 0. Und wenn ich das mit einer festen Zufallsvariable multipliziere, dann
56:42
konvergiert es nach wie vor gegen 0. Weil Sie können sagen M von x konvergiert nach Wahrscheinlichkeit gegen M von x. Das hier konvergiert gegen 0. Das Produkt konvergiert dann gegen das Produkt von den beiden. Was M von x mal 0 ist, also 0. Also nach 4 gilt,
57:04
oder wir schreiben es vielleicht aus für Löcher hin, Summe i gleich 1 bis n, Wn i von x minus 1 konvergiert nach Wahrscheinlichkeit gegen 0. Was eben entsprechend M von x mal
57:24
diese Summe konvergiert auch gegen 0, mal M von x, was 0 ist, nach Wahrscheinlichkeit.
57:42
Das heißt wir wissen, das da konvergiert gegen 0. Und genauso kann ich auch sagen, wenn die Zufallsvariable nach Wahrscheinlichkeit gegen 0 konvergiert, konvergiert auch ihr Quadrat nach Wahrscheinlichkeit gegen 0.
58:02
Nehmen Sie mal einen Moment an, wir hätten fast sichere Konvergenz. Dann könnte ich daraus mit dem Satz von der majorisierten Konvergenz schließen, dass auch der Erwartungswert gegen 0 geht, wenn ich eine Majorante hätte. Haben Sie einen Vorschlag für eine Majorante?
58:24
Also habe ich hier eine integrierbare Majorante?
58:50
Die Gewichte können wir nach 2, also den ganzen Betrag hier könnte ich abschätzen durch d plus 1 nach 2 mit Wahrscheinlichkeit 1.
59:05
x ist integrierbar. Also wir müssten jetzt noch M von x abschätzen oder M von x zum Quadrat. Müsste integrierbar sein. Und dazu einen Vorschlag?
59:23
Regressionsfunktion ausgewertet an x ist quadratisch integrierbar. Vorschlag per Definition, weil es der bedingte Erwartungswert ist, ist es integrierbar, aber nicht quadratisch integrierbar zwingend. Aber die quadratische Integrierbarkeit haben wir beim letzten Mal
59:42
in der letzten Vorlesungsstunde gesehen. Das war zu Beginn des Beweises von dem Lemma, wo ich gezeigt habe. Wenn y quadratisch integrierbar ist, ist auch die Regressionsfunktion quadratisch integrierbar. Das war eine Folgerung aus Jensen. Also wegen
01:00:02
Wenn wir uns das da angucken, Produkt i gleich 1 bis n, i n i von x minus 1, kleiner gleich d plus 1, fast sicher.
01:00:21
Das war nach 2 und Erwartungswert von Betrag von m von x zum Quadrat. Ich weiß nicht, soll ich es nochmal hinschreiben, oder ist klar?
01:00:42
Also ich könnte es entweder hinschreiben, oder nochmal die Begründung. Nochmal hinschreiben. Das ist ja gleich der Erwartungswert von Betrag vom Erwartungswert von y gegeben x.
01:01:03
Sie nehmen die Ungleichung von Jensen, dann kommen Sie auf den Erwartungswert von Erwartungswert von y Quadrat gegeben x. Und das ist Erwartungswert von y Quadrat, klein und endlich.
01:01:21
Und wenn Sie jetzt oben fast sichere Konvergenz hätten, dann würde mir der Satz von der majorisierten Konvergenz folgen, dass auch der Erwartungswert gegen Null konvergiert.
01:01:53
Das wäre Jn. Jn, das ist Ln, das wir gerade machen. Ln, das ist der Erwartungswert von m von x, also Betrag, dann m von x.
01:02:23
Kommen wir auf.
01:02:44
Konvergiert gegen Null. Und zunächst einmal, wenn ich oben Konvergenz fast sicher habe. Und jetzt kommt die abschließende Bemerkung. Das klappt eben auch mit Konvergenz nach Wahrscheinlichkeit. Kann mir jemand von Ihnen das erklären, was da der Trick ist?
01:03:06
Also ich glaube, der Beweis ist klar, wenn da oben fast sicher stehen würde, oder? Wenn da oben fast sicher stehen würde, dann sollte der Beweis jetzt klar sein. Weil dann habe ich hier mal eine Majorante. Nämlich das Ganze ist fast sicher kleiner gleich als d plus eins zum Quadrat mal m von x zum Quadrat.
01:03:26
Und d plus eins zum Quadrat mal m von x zum Quadrat ist integrierbar nach dem hier. Also ich habe eine integrierbare Majorante. Wenn das fast sicher gegen Null konvergiert, konvergiert mit dem Satz von der majorisierten Konvergenz auch der Erwartungswert gegen Null. Und jetzt behaupte ich, das Gleiche gilt sogar, wenn der Integrant nur nach Wahrscheinlichkeit gegen Null konvergiert.
01:03:47
Das könnten Sie aus der Wahrscheinlichkeitstheorie wissen. Jetzt wäre die Frage, warum? Dieses Teilfolgenargument. Also wir müssen hier zeigen, reelle Zahlenfolge konvergiert gegen Null für n gegen endlich.
01:04:04
Equivalent ist, für jede Teilfolge nl von n oder nk von n existiert eine Teilteilfolge nkl, sodass lnkl gegen Null konvergiert. Für reelle Zahlenfolgen, trivial. Dann schnappen wir uns eine beliebige Teilfolge von n.
01:04:24
Für diese beliebige Teilfolge liegt hier nach wie vor Konvergenz nach Wahrscheinlichkeit vor gegen Null. Das ist trivial, wenn die ursprüngliche Folge gegen Null konvergiert, nach Wahrscheinlichkeit konvergiert auch jede Teilfolge gegen Null nach Wahrscheinlichkeit. Dann wissen wir, weil das Ding nach Wahrscheinlichkeit gegen Null existiert,
01:04:42
existiert von dieser Teilfolge eine Teilteilfolge, die fast sicher gegen Null konvergiert. Also haben wir unsere Teilteilfolge, wo hier fast sicher Konvergenz vorliegt und nach dem schon eingesehenen, der Erwartungswert gegen Null konvergiert. Okay, also hier wäre nochmal ein mit Teilteilfolgen Argument.
01:05:10
Oder mit Teilteilfolgen argumentieren.
01:05:28
Und diese Beziehung nenne ich jetzt, jetzt brauche ich die nächste Nummer, die letzte Nummer da oben war glaube ich, die wir hatten war 42, dann ist diese Beziehung 43.
01:05:46
Fragen soweit? Fragen zum Beweis?
01:06:05
Okay, dann sind wir mit dem zweiten von insgesamt vier Beweischritten fertig. Nächster, wir gucken uns vielleicht Jn an.
01:06:26
Okay, für Jn gilt. Was ich hier jetzt mache, ich teile hier drinnen durch die Summe der Gewichte und ziehe das dann quadratisch nach draußen wieder.
01:06:52
Das ist also der Erwartungswert. Dann ziehe ich das Quadrat gleich nach draußen. Summe J gleich eins bis N.
01:07:01
Wn,j von x zum Quadrat. Dann habe ich innen noch Summe I gleich eins bis N.
01:07:29
M von xi minus M von x. Jetzt fehlt noch eine Klammer im Quadrat und dann geht der Erwartungswert zu.
01:07:48
Und das gilt natürlich auch dann, wenn die Summe der Gewichte gleich Null ist. Weil dann war das ursprüngliche Jn gleich Null und dann steht hier eben Null durch Null gleich Null und hier genauso Null. Also ist nach wie vor alles gleich Null.
01:08:07
Warum mache ich das? Ich mache das deshalb, damit ich hier eine Konvexkombination der Argumente stehen habe und draußen das Quadrat. Und dann nutze ich wieder aus, die Quadratfunktion ist konvex. Dann kann ich das Quadrat wieder reinziehen.
01:08:21
Das ist der Trick. Jetzt ist das Ganze kleinergleich nach Jensen. Also ich nutze aus, Quadrat von der Konvexkombination ist kleinergleich als die Konvexkombination der Quadrate.
01:08:45
Weil die Quadratfunktion konvex ist.
01:09:12
Ja, und ich sollte vielleicht auch konvex Argumente haben. Also ich sollte vielleicht auch wirklich eine Konvexkombination haben. Um aber eine Konvexkombination zu haben, brauche ich natürlich nicht negative Argumente.
01:09:25
Das macht aber hier, wenn ich eine Abschätzung nach oben mache, ist es eigentlich egal, ob ich bevor ich das Quadrat ausrechne, hier noch einen Betrag schreibe und den Betrag dann mit der Dreiecksungleichung reinziehe.
01:09:43
Das heißt, ich kann sagen, das ganze Ding ist kleinergleich als wenn ich hier Beträge hinsetze und hier mache ich dann genauso Beträge. Und dann habe ich nicht negative Gewichte und kann argumentieren, ja in der Tat, ich habe da eine Konvexkombination.
01:10:05
Die nicht negativen Gewichte sind unter Umständen alle gleich Null. Dann hätte ich keine richtige Konvexkombination. Dann wäre es aber egal, dass ich da hinschreibe, weil dann steht da sowieso immer Null. Wenn sie aber nicht gleich Null sind, sind sie nicht negativ und summieren zu eins auf.
01:10:20
Okay, dann lasse ich die einen stehen und wende jetzt hier drinnen den Jensen an.
01:11:07
Und das Quadrat ist jetzt eben nicht mehr bei den Gewichten im zweiten Teil, sondern nur noch bei dem M von x, C minus M von x. Dann können wir jetzt hier einmal kurzen.
01:11:20
Hier haben wir den Term in Nenner. Hier haben wir einmal oben zu quadratisch. Ich kann einmal kurzen mit den Term. Komme ich auf Erwartungswert von, komme ich auf das hier.
01:12:13
Und jetzt kann ich noch nutzen nach Bedingung 2 weiß ich die Summe der Beträge der Gewichte ist kleinergleich D. Das heißt, das Vorfaktor kann ich nach 2 abschätzen durch D mal Erwartungswert von.
01:12:43
Und ich muss im Folgenden nur noch zeigen, dass, was heißt nur noch? Also ich zeige Ihnen im Folgenden, dass der Erwartungswert von der Summe der I gleich 1 bis N der Beträge der Gewichte mal Betrag von M von x, C minus M von x zum Quadrat gegen Null konvergiert. Das heißt, im Vergleich zum ursprünglichen Term habe ich es geschafft, dass dieses Quadrat hierhin gewandert ist.
01:13:16
Okay, Fragen soweit? Ja, wie machen wir das jetzt? Wie zeigen wir, dass der Term gegen Null konvergiert?
01:13:43
Na ja, gucken Sie nochmal die Bedingungen an. Wir nutzen einerseits aus, ist das xi von x weit entfernt, so können wir Bedingung 3 anwenden und der ganze Term geht gegen Null.
01:14:04
Das heißt, wenn ich hier einen Indikator dran mache, mal Indikator, das Norm von xi minus x größer als a ist, dann konvergiert das Ganze gegen Null, vorausgesetzt M ist beschränkt. Dann kann ich den Teil weglassen und ich muss nur nicht mit dem Rest rumschlagen, nämlich mit
01:14:20
dem gleichen Term, wo der Indikator kleiner gleich a ist oder wo dieser Abstand kleiner gleich a ist. Wenn ich das habe und ich weiß, M ist gleichmäßig stetig, dann ist es kleiner gleich als dem Supremum über alle u, v mit Norm von u minus v kleiner gleich a von M von u minus M von v. Und wenn es gleichmäßig stetig ist, geht auch das, wird auch das klein für a klein und wir sind insgesamt fertig.
01:14:46
Das heißt, im Falle, dass M gleichmäßig stetig und beschränkt ist, kann ich den Beweis ganz schnell abschließen. Die Beobachtung schreiben wir erstmal hin. Ist M gleichmäßig stetig und beschränkt, so gilt das, was mich interessiert.
01:15:36
Wir schreiben mal so, für a größer Null der Erwartungswert da vorne.
01:16:21
Und jetzt spalte ich den Term eben auf in zwei Sommanten. Einerseits ein Sommant mit der Indikatorfunktion, dass Norm von x die Minus x größer als a ist. Oder wir schreiben es vielleicht so hin, vielleicht, also ich schreibe die ganzen Ausdrücke gar nicht mehr hin.
01:17:04
Und dann schätze ich beide, ziehe den Erwartungswert auseinander, schätze beide Summen getrennt ab. Bei der ersten Summe schätze ich dieses M durch seine Supremumsnorm ab. Das heißt, M von x die Minus M von x, also so ein a minus b zum Quadrat, schätze ich ab durch 2a Quadrat plus 2b Quadrat.
01:17:28
Also ich nehme insgesamt viermal diese Supremumsnorm zum Quadrat. Kleiner gleich schreibe ich als ein M-Norm indexunendlich zum Quadrat.
01:18:04
Im zweiten Fall schätze ich dieses M von x die Minus M von x zum Quadrat ab durch das Quadrat von dem Supremum aller uv aus Rd.
01:18:26
Norm von u minus v kleiner gleich a. Betrag von M von u minus M von v. Und das Ganze zum Quadrat. Und den Rest, ich lasse die Indikatorfunktion dann als nächstes weg, habe die
01:18:44
Summe der Gewichte, nehme die Bedingung 2 und schätze den Rest durch D ab. Kommen wir also auf das.
01:19:22
Daraus folgt, jetzt gucken Sie sich den Limes superior vom obigen Term an.
01:19:48
Dieser Limes superior ist dann nach dem obigen und nach Bedingung 3 ist es jetzt konvergiert der erste Term auf der rechten Seite der Ungleichung gegen Null.
01:20:09
D mal dieses Supremum uv aus Rd.
01:20:29
Und jetzt nutzen Sie aus, wir haben ja vorausgesetzt, M ist gleichmäßig stetig. Wenn M gleichmäßig stetig ist, können wir jetzt, also diese Abschätzung gilt für jedes a größer Null, können wir jetzt anschließend a gegen Null gehen lassen und dann geht dieser Abstand hier und dieser Ausdruck hier gegen Null.
01:20:56
Weil der Limes superior ist klar nicht gleich einer von a abhängenden Zahl und diese von a abhängenden Zahl konvergiert gegen Null für a gegen Null.
01:21:02
Daraus folgt der Limes superior ist in der Tat gleich Null. Und das klappt jetzt eben, wenn M gleichmäßig stetig und beschränkt ist. Wenn M nicht gleichmäßig stetig und beschränkt ist, dann approximieren wir M in L2 von Px durch eine gleichmäßig stetig und beschränkte Funktion.
01:21:24
Und führen das Ding dann mit der Approximation durch und zeigen dann den restlichen Term können wir mit Hilfe von Bedingung 1 durch einen Fehler, der beliebig klein wird, plus den Fehlerterm im Fall der gleichmäßig stetigen beschränkten Funktion abschätzen.
01:21:49
Aber das schaffe ich in einer Minute nicht mehr, machen wir dann beim nächsten Mal. Okay.