Konvergenzgeschwindigkeit des Kernschätzers, Teil 1
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Teil | 21 | |
Anzahl der Teile | 24 | |
Autor | ||
Lizenz | CC-Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben. | |
Identifikatoren | 10.5446/34289 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | |
Genre |
Kurvenschätzung21 / 24
1
2
7
9
10
11
12
15
16
19
20
23
24
00:00
Schar <Mathematik>KonvergenzgeschwindigkeitBedingter ErwartungswertKurvenschätzungFaktorisierungHerleitungVarianzErwartungswertMengeQuadratRegressionsfunktionKonstanteZufallsvariableRadiusObere SchrankeGeschwindigkeitSchätzungTermGleichmäßige BeschränktheitFunktion <Mathematik>Schranke <Mathematik>Darstellung <Mathematik>Vorlesung/Konferenz
08:59
RuhmasseKomplementaritätWahrscheinlichkeitsverteilungMittelungsverfahrenGleichmäßige BeschränktheitRadiusMengeInhalt <Mathematik>ZufallsvariableZahlenbereichRationale ZahlReelle ZahlAbgeschlossene MengeTeilmengeEinfach zusammenhängender RaumAbgeschlossenheit <Mathematik>Rationaler PunktVorlesung/Konferenz
17:59
Offene MengeTopologieRadiusKomplementaritätRationale ZahlMengeWeg <Topologie>Inhalt <Mathematik>ParametersystemDreiecksungleichungHausdorff-RaumTeilmengeRuhmasseRationaler PunktPhysikalische GrößeVorlesung/KonferenzTafelbild
26:58
SummeMengeVarianzZahlenbereichKlasse <Mathematik>AbschätzungKernschätzungPhysikalische GrößeKonstanteRegressionsfunktionKomplementaritätExponentQuadratEinheitskugelTermSchätzfunktionDurchmesserQuotientRadiusObere SchrankeKerndarstellungWahrscheinlichkeitsverteilungWald <Graphentheorie>NullGleichmäßige BeschränktheitVorlesung/Konferenz
35:58
DurchmesserBedingter ErwartungswertRadiusErwartungswertAbschätzungZufallsvariableKonstanteWertevorratSummeZahlVarianzEigenwertproblemFaktorisierungZahlenbereichVerzerrungSchaleSchätzfunktionKernschätzungUngleichungObere SchrankeSummandTermMessbare FunktionVorlesung/Konferenz
44:57
TermErwartungswertBedingter ErwartungswertSchätzfunktionFaktorisierungQuadratAbschätzungBinomische FormelIntegralSummandWahrscheinlichkeitsverteilungIndexInferenzstatistikVarianzStatistikInvarianzVorlesung/Konferenz
53:57
TermQuadratKugelSummeIndexGewicht <Mathematik>AbschätzungVarianzErwartungswertBetrag <Mathematik>Bedingter ErwartungswertKonvexe FunktionSchätzfunktionVorlesung/Konferenz
01:02:56
SummeFaktorisierungKonstanteEinheitskugelKomplementaritätQuadratMengeZahlRuhmasseErwartungswertVolumenKraftTermNumerisches GitterZahlenbereichKlasse <Mathematik>AbschätzungSchätzfunktionObere SchrankeWahrscheinlichkeitsmaßVorlesung/Konferenz
01:11:56
AbschätzungMaximumUnabhängige ZufallsvariableGleichungKomplementaritätNichtlineares GleichungssystemIntegralVarianzGradientInvarianzTermZahlenbereichZufallsvariableQuadratObere SchrankeVorlesung/Konferenz
Transkript: Deutsch(automatisch erzeugt)
00:08
Ja, dann begrüße ich Sie mal herzlich zur heutigen Vorlesung in der Kurvenschätzung. Ich habe jetzt diesmal keine Wiederholungsfolie vorbereitet, weil wir sowieso einen neuen Abschnitt anfangen. Wir kommen zu Abschnitt 4-5, Konvergenzgeschwindigkeit des Kanzschätzers.
01:00
Ziel im Folgenden ist die Herleitung von oberen Schranken für den erwarteten L2-Fehler des Kanzschätzers.
01:26
Ziel, Herleitung von oberen Schranken für den erwarteten L2-Fehler, also einfach der Erwartungswert von L2-Fehler des Kanzschätzers MN.
02:09
Also ich möchte irgendwas hier zeigen, dass dieser erwartete L2-Fehler nicht nur gegen Null kontergiert, sondern sogar mit einer gewissen vorgegebenen Geschwindigkeit. Sowas wie 1 durch OZN oder 1 durch N oder 1 durch LOGN oder sonst was.
02:23
Wir wissen bereits, dass unserem Slow-Rate-Resultat ohne Einschränkung an die Verteilung von XY geht das nicht. Insbesondere brauchen wir Glattheitsannahmen an die Regressionsfunktion M, was wir im Folgenden voraussetzen. Oder Annahmen dabei oder Voraussetzungen, das ist vielleicht besser, Voraussetzungen.
02:54
Erstens, wir nehmen an, dass die Verteilung von X beschränkt ist. Also wir machen eine Beschränktheitsannahme an X.
03:17
Zweitens, ich mache eine Annahme an die bedingte Varianz von Y gegeben X.
03:24
Also eine Beschränktheitsannahme an die bedingte Varianz von Y gegeben groß X gleich klein X.
03:50
Was meine ich damit? Ich meine damit eine Faktorisierung von der bedingten Varianz von Y gegeben groß X. Und diese bedingte Varianz von Y gegeben groß X definiere ich als Erwartungswert, als bedingten Erwartungswert.
04:07
Das heißt, wir betrachten, wie bei der Varianz üblich, Y minus EX, also Y minus Erwartungswert. Jetzt aber für den bedingten Erwartungswert und faktorisieren das oder bedingen das auf X.
04:25
Und dann tue ich das nochmal faktorisieren auf klein X. Das ist der faktorisierte bedingte Erwartungswert unter Bedingung groß X gleich klein X von Y minus bedingten Erwartungswert von Y gegeben X zum Quadrat.
04:41
Und das können Sie jetzt analog zur Darstellung der Varianz einer Zufallsvariable als Erwartungswert von Quadrat minus Quadrat des Erwartungswertes umschreiben. Jetzt mal, Sie modifizieren einfach aus, nützen aus, dass Sie bei dem bedingten Erwartungswert den einen Faktor rausziehen können.
05:02
Dann kommen Sie auf den faktorisierten bedingten Erwartungswert von Y Quadrat gegeben X gleich X minus bedingten Erwartungswert, faktorisierten bedingten Erwartungswert von Y gegeben X gleich X zum Quadrat.
05:24
Und das sollten Sie eigentlich zeigen können, indem Sie eben sich diesen Ausdruck angucken, mit Bedingung auf nur den Wert von X, nicht auf den, also nur auf X und nicht auf den Wert von X. Und dann tun Sie es einfach das Quadrat ausmodifizieren.
05:40
Und bei den gemischten Termen zweimal Y mal bedingten Erwartungswert von Y gegeben X können Sie den bedingten Erwartungswert von Y gegeben X rausziehen. Dann sehen Sie, wenn ich an dieser Stelle nur groß X schreiben würde als klein X, käme ich auf den bedingten Erwartungswert von Y Quadrat gegeben groß X minus bedingten Erwartungswert von Y gegeben X in Klammern zum Quadrat.
06:00
Und das ist eine Funktion von X, die tue ich dann wieder faktorisieren, hier. Und deswegen kann ich hier zweimal die Bedingung einsetzen. Wenn Sie im Skript nachgucken, da steht ja, glaube ich, an der Stelle der faktorisierte bedingte Erwartungswert von Y gegeben groß X gleich klein X, aber ist eigentlich ein Tippfehler im Skript. Das kann ich nicht zeigen, dass das das Gleiche ist.
06:22
Also wenn ich hier, oder ich wüsste nicht, wie ich es zeigen sollte. Aber wenn ich es so rüber definiere, macht das Ganze perfekt Sinn. Gut, und dann kommt die dritte. Diese beiden Bedingungen allein reichen noch nicht aus, weil in unserem Slow Rate Resultat war ja X beschränkt und Y war eine Funktion von X.
06:40
Also die bedingte Varianz von Y gegeben groß X gleich X wäre einfach identisch Null. Aber die entscheidende dritte Voraussetzung ist, wir machen eine Glattheitsannahme an die Regressionsfunktion.
07:02
Also wir setzen zum Beispiel raus, voraus, dass M stetig differenzierbar ist. Okay, um das erste formulieren zu können, Beschränktheitsannahme an X, könnte ich jetzt zum Beispiel sagen, ich sage einfach, Norm X ist kleiner gleich einer Konstanten mit Wahrscheinlichkeit eins.
07:23
Ich mache es leicht anders, ich definiere den sogenannten Support von X. Also wir definieren Support von X beziehungsweise auch Support von der Verteilung von X.
07:48
Abgekürzt mit Support von X oder Support von PX habe ich in dem Fall genannt.
08:04
Und anschaue ich so etwas wie die kleinste Menge, wo die Verteilung von X Masse 1 hat. Und das machen wir so, dass wir die Menge aller X aus RD betrachten, sodass für alle Epsilon größer Null die Kugel um X mit Radius Epsilon eine Masse größer Null hat.
08:26
Also für alle Epsilon größer Null soll gelten PX von S Epsilon von X größer als Null.
08:42
Wobei dieses S Epsilon von X das Gleiche ist, was ich in der Vergangenheit auch als SX Epsilon bezeichnet habe. Richtig, ich glaube, wir haben es so immer geschrieben, das wäre einfach die abgeschlossene Kugel um X mit Radius Epsilon.
09:24
Und dass dieser Support wirklich diese Eigenschaft hat, was ich vorhin gesagt habe, was ist irgendwie so eine Menge, die Maß 1 hat bei der Verteilung von X. Zeigen wir wie folgt. Das ist 4,9 Lemma.
09:41
Ist X eine RD-wertige Zufallsvariable? So gilt Teil 1. Die Wahrscheinlichkeit, dass X im Support von PX ist, ist gleich 1.
10:16
Teil 2, der Support ist eine abgeschlossene Menge im topologischen Sinne abgeschlossen.
10:43
Ein Support von der Verteilung ist eine Menge, wo die Verteilung Masse 1 hat. Und die weiter abgeschlossen ist. Und was wir dann als Beschränktheitsannahme annehmen werden, ist, dass der Support auch noch beschränkt ist und damit kompakt.
11:09
Okay, Fragen soweit, bevor ich zum Beweis komme.
11:31
Dann machen wir das mal, Beweis.
11:40
Wir sollen zeigen, diese Menge hat PX Maß 1. Ich zeige stattdessen, das Komplement hat Maß 0. Das heißt, wir gucken uns das Komplement an. Wir gucken uns das Komplement an, dann sollte ich auch das Komplement hinschreiben.
12:02
Also wir machen C dran für Komplement. Dann was ist das? Das ist die Menge aller X aus RD, wo diese Bedingung eben nicht erfüllt ist. Das ist die Menge X aus RD, wo ein Epsilon größer 0 existiert,
12:21
sodass PX von X gleich 0 ist. Also PX von S Epsilon von X soll gleich 0 sein. Das ist Komplement. Und ich stelle dieses Komplement jetzt als abzählbare Vereinigung von Kugeln dar,
12:44
die alle PX Maß 0 haben. Wenn ich das mache, ist dieses Komplement als abzählbare Vereinigung, oder ich sage das eine Teilmenge von einer abzählbaren Vereinigung von Mengen von Maß 0,
13:01
hat selber Maß 0. Was ich sofort machen kann, ich kann eine Vereinigung machen über alle X aus RD, sodass für irgendein Epsilon größer 0 PX von S Epsilon von X gleich 0 ist.
13:22
Und ich vereinige über die Kugeln S Epsilon von X. Also wenn ich unter das Vereinigungszeichen jetzt schreibe, alle X aus RD, alle Epsilon größer 0, sodass PX von S Epsilon von X gleich 0 ist, dann ist klar, wenn X in der Menge drin liegt, dann gibt es irgend so eine Kugel
13:45
und X liegt natürlich auch in der Kugel. Kein Problem. Nur, wenn ich das mache, ist die Vereinigung nicht mehr abzählbar. Aber was ich stattdessen mache, ich mache X nicht aus RD, sondern ich mache X aus Q hoch D.
14:02
Ich mache Epsilon auch noch rational. Epsilon aus den rationalen Zahlen Q plus ohne die 0. Und ich fordere nach wie vor, dass PX von Epsilon von X gleich 0 ist.
14:31
Und jetzt muss ich nur zeigen, dass diese Teilmengebeziehung gilt. Und wenn ich diese Teilmengebeziehung habe, dann ist es trivial. Ich habe hier eine abzählbare Vereinigung von lauter Mengen von Maß 0 hat selber Maß 0.
14:43
Und ich bin fertig. Ok, warum gilt es?
15:02
Naja, wir fangen mal an. Sie nehmen X aus der Menge oben, also X aus RD beliebig. Also X Element RD. Und wir nehmen Epsilon größer 0, sodass dieses PX von S Epsilon von X gleich 0 ist.
15:47
Dann habe ich das Problem, dass mein X aus RD ist. Ja und jetzt könnte ich alle diese Kugeln nehmen, aber dann habe ich eben ein Problem, dass mein X aus RD ist und mein Epsilon irrational. Und damit sind es überab sehr viele. Aber jetzt natürlich OBDA kann ich hierbei annehmen, dass Epsilon rational ist.
16:05
Weil ich kann ja den Radius einfach ein bisschen kleiner machen. Und dann ist es natürlich immer noch eine Nullmenge. Und wenn ich irgendwann ein bisschen kleiner mache, dann finde ich eine rationale Zahl. Also ich nehme einfach eine rationale Zahl, die zwischen Epsilon halbe und Epsilon liegt. Zum Beispiel existiert eine und nehme die.
16:21
Also OBDA, Epsilon aus Q. Dann will ich jetzt mein Zentrum von der Kugel oder mein Mittelpunkt der Kugel
16:46
in die rationalen Zahlen verschieben, sodass mein X noch in der Kugel drin bleibt. Aber meine Kugel nach wie vor PX muss eine Null hat. Aber das geht auch einfach. Wir wählen jetzt ein Z aus S Epsilon halbe von X, das nur rationale Komponenten hat.
17:16
Das ist klar, wenn Sie irgendwie, Sie haben X, ein Punkt aus RD.
17:21
Sie haben eine Kugel mit Radius Epsilon halbe um X. Dann enthält die irgendeinen rationalen Punkt, weil die rationalen Punkte ja nicht in den reellen Zahlen liegen. Ja, aber das impliziert jetzt, dass wenn Z in S Epsilon halbe von X liegt,
17:40
dann haben Z und X einen Abstand kleiner als Epsilon halbe. Dann liegt auch X in S Epsilon halbe von Z. Und wenn Sie sich angucken, was passiert mit PX von S Epsilon halbe von Z.
18:06
Und das ist der Punkt, an dem Sie ein Bild malen können. Ich mache es mal da oben hin, weil da habe ich noch ein bisschen Platz. Also wir haben irgendwo ein X. Um dieses X mache ich eine Kugel vom Radius Epsilon halbe.
18:32
Dann wähle ich aus dieser Kugel einen rationalen Punkt. Den nenne ich Z. Da ist er schon.
18:47
Um diesen Punkt mache ich auch eine Kugel mit Radius Epsilon halbe.
19:04
Und dann mache ich noch eine dritte Kugel. Nämlich eine Kugel um X mit dem Radius Epsilon.
19:32
Und dann umfasst diese rote Kugel die gelbe Kugel. Also ich habe mein S Epsilon von X ist eine Obermenge von meinem S Epsilon halbe von Z.
19:53
Falls eben Z in S Epsilon halbe von X liegt.
20:11
Und den Beweis habe ich perfekt am Bild gemacht. Wobei das Bild nicht stimmt, weil da müsste ja viel mehr Spiel sein. Irgendetwas ist völlig falsch. Wahrscheinlich die Radien zu groß gemacht oder so.
20:22
Sie sehen, der Radius von Z ist zu groß. Von der Kugel um Z im Bild. Ja, aber dann sehen Sie, dann ist das ganze Ding natürlich kleiner gleich als Px von S Epsilon von X. Weil das war ja eine Obermenge.
20:41
Aber das war nach Voraussetzung gleich Null. Also sehen Sie, wenn ich ein X aus Rd habe, was aus meinem Komplement. Oder wenn ich ein X aus meinem Komplement vom Support habe. Dann finde ich ein Z aus Q hoch D. Ich finde ein rationales Epsilon großer Null. Sodass X in der Kugel mit Radius Epsilon halbe um Z drin liegt.
21:05
Und diese Kugel Px Maß Null hat. Dann taucht aber mein X in dieser oberen Vereinigung auf. Sie ersetzen nun das Z jetzt durch X. Und wir sind fertig.
21:28
Okay, Fragen dazu?
21:44
Klar, so weit. Fragen? Alles komplett trivial. Aber ich habe zu Hause auch eine halbe Stunde lang angeguckt. Aufgeschrieben zur Vorbereitung der Vorlesung.
22:00
Ich verstehe nicht warum. Das stand komplett richtig im Skript. Aber ich habe es irgendwie nicht mehr gesehen. Aber eigentlich ist es völlig klar. So ein einfaches Kugelargument. Sie haben die eine Kugel und die zweite Kugel. Dann tun sie den Radius so größer. Und dann haben sie eine größere Kugel. Und alles ist wie so ein Taschenspieler.
22:22
Und Sie sehen natürlich auch sofort, wie Sie sowas formal bezeigen würden. Das ist eine Dreiecksungleichung. Mehr nicht. Okay, ach so. Jetzt wollen wir das Beweis noch abschließen. Vielleicht mache ich hier noch den Den.
22:42
Damit ist aber der Support von x-Komplement. Oder der Support von px-Komplement ist ja eigentlich, würde ich schreiben, ist Teilmenge einer abzählbaren Vereinigung von px-Nullmengen.
23:28
Und eine abzählbare Vereinigung von Nullmengen ist Nullmenge. Und damit selbst Nullmenge.
23:48
Und damit haben wir A gezeigt.
24:03
Damit folgt die Wahrscheinlichkeit, dass x in Komplement des Supports von px liegt, ist gleich Null. Und damit ist die Wahrscheinlichkeit, dass x im Support von x liegt, 1 minus die Wahrscheinlichkeit, dass x im Komplement liegt, gleich 1 minus Null, also 1.
24:43
Okay, Fragen soweit? Fragen? Dann könnten Sie fragen.
25:01
Aber Sie müssen nicht fragen. Gut, dann kommen wir zum B-Teil. Also Support von px ist abgeschlossen im Sinne der Topologie. Das heißt, das Komplement ist eine offene Menge. Was Sie aus der Topologie wissen, wenn Sie jemals ein bisschen was über Topologie gemacht haben. Und offene Mengen waren die, wo für jeden Punkt eine ganze Umgebung drin enthalten ist.
25:22
Also Support von px-Komplement ist offen. Dafür x-Komplement gilt.
25:46
Ja, da gilt, dass existiert ein Epsilon größer Null. Sodass px von dieser Kugel um x mit Radius Epsilon hat Masse Null.
26:13
Wenn Sie jetzt gucken, was haben wir in A daraus damit gemacht. In A habe ich gezeigt, dass eigentlich jedes z aus Element s Epsilon halbe von x die Eigenschaft hat,
26:25
dass px von s Epsilon halbe von z gleich Null ist. Also für alle z Element s Epsilon halbe von x haben Sie px von s Epsilon halbe von z ist gleich Null.
26:46
Das heißt aber, dass dieses s Epsilon halbe von x auch im Komplement vom Support von px liegt.
27:07
Und damit haben wir die Behauptung, weil jetzt wissen wir, für jedes x im Komplement vom Support gibt es eine abgeschlossene Kugel mit Radius größer Null, die auch im Komplement des Supports liegt.
27:22
Ja, und damit haben Sie eine Umgebung von x, die auch noch im Komplement liegt. Fertig. Komplement ist offen, die Menge selber ist abgeschlossen.
27:50
Das habe ich zumindest jetzt kapiert, schon mal ganz gut. Dann machen wir weiter und kommen zum eigentlichen Satz. Ich gebe den Satz 4.10, schreibe ihn vielleicht mal hier drin.
28:02
Unsere eigentliche Voraussetzung, unsere eigentliche Aussage. Wir nehmen den Kernschätzer mit naiven Kern und Bandbreite h ein größer Null. Das sei also m von x dieser Kernschätzer.
28:25
Das heißt, es war ein Quotient im Zähler. Nehmen Sie die Summe i gleich 1 bis n k von x minus x die durch h n.
28:43
Im Nenner nehmen Sie die Summe aller k von x minus x j durch h n.
29:02
Das sei der Kernschätzer mit naiven Kernschätzer. k ist die Indikatorfunktion zur Einheitskugel um die Null.
29:29
Und dann haben wir eine Bandbreite h ein größer Null.
29:45
Dann brauche ich ein c großer Null, ein p aus 0 bis 1, ein sigma großer Null, mit dem ich meine Klassen von zugelassenen Verteilungen charakterisiere. Das sei ein Groß c größer Null, Klein p im Intervall von 0 bis 1.
30:10
Und dann habe ich noch ein sigma großer Null. Und dann ist die Aussage, dann gilt für jede Verteilung von x, y, die die folgenden drei Bedingungen erfüllt.
30:23
Dann gilt für jede Verteilung von x, y mit Bedingung 1.
30:48
Der Support von p, x ist beschränkt.
31:05
Das ist also meine Beschränktheitsannahme an x. Ich könnte auch equivalent hinschreiben, einfach die, es gibt eine Konstante größer Null, sodass die Wahrscheinlichkeit, dass Norm von x klarer als der Konstanten, gleich 1 ist. Das ist Bedingung 4, 11, das erste.
31:31
Dann kommt das zweite. Die bedingte Varianz von y und gegeben Groß x gleich Klein x ist klarer als dem sigma Quadrat für alle x.
31:51
Und da nehme ich nur die x aus dem Support von p, x für alle.
32:01
Experiment s, 12. Und dann kommt das dritte. Ich fördere, dass die Regressionsfunktion m Hölderstätig ist mit Exponent p und Hölderkonstante c.
32:23
Also m von x kleiner gleich c mal Norm von x minus z hoch p.
32:41
Kleines p für alle x, z. Und ich kann hier s schreiben oder r hoch d, wäre im Prinzip egal. Das ist 4, 13.
33:01
Das sind die Voraussetzungen. Und dann ist die eigentliche Aussage. Dann gilt für alle Vorteilungen mit diesen drei Voraussetzungen, die Beschränktheitsannahme an x ist, dass der Support beschränkt ist von x. Die Beschränktheitsannahme an die bedingte Varianz von y gegeben x ist,
33:23
dass die immer kleiner gleich einer konstanten sigma Quadrat ist. Und die Klartheitsannahme an m ist, dass m p c glatt ist. Das heißt im Fall hier, wo p kleiner gleich 1 war, einfach Hölderstätig mit Exponent p und Konstante c. Die folgende Abschätzung gilt dann. Der Erwartetell-2-Fehler von unserem Schätzer ist kleiner gleich eine Summe von zwei Termen.
34:06
Der erste Term ist eine Konstante c1 mal sigma Quadrat durch n mal h hoch d. Und zusätzlich noch die Supremumsnorm von m.
34:22
Supremum z aus dem Support. Vertrag von m von z zum Quadrat. Das Ganze geteilt durch n mal h hoch d. Und der zweite Term ist c Quadrat mal h hoch 2p.
34:52
Und das c1 ist dabei eine nur von d und dem Durchmesser von Support von px abhängende Konstante.
35:01
Hierbei ist c1 eine nur von der Dimension. Und zweitens dem Durchmesser von s.
35:50
Also wir leiten jetzt eine konkrete Abschätzung für diesen Erwartetell-2-Fehler her. Unter der Annahme, dass der Support beschränkt ist, dass die bedingte Varianz beschränkt ist und das MPC glatt ist.
36:06
Und diese Abschätzung hängt von der Bandbreite ab. Und diese Bandbreite geht auf zwei verschiedene Arten ein. Nämlich es gibt einen ersten Term, das ist eigentlich mehr oder weniger eine Konstante durch n mal h hoch d. Der geht also dann gegen null, weil n mal h hoch d gegen n endlich geht.
36:25
Und es gibt einen zweiten Term, das ist eine Konstante mal h n hoch 2p. Sehen Sie, der geht dann gegen null, wenn h n gegen null geht. Das heißt, dieses h n geht an zwei verschiedenen Stellen ein. Wenn es zu klein wird, dann wird dieser erste Term sehr groß.
36:42
Wenn es zu groß wird, wird dieser zweite oder wenn es nicht klein genug ist, wird der zweite Term nicht klein. Das heißt, die Bandbreite muss sinnvoll gewählt werden. Da beschäftigen wir uns dann später mit dem Corollar mit, aber vorher werden wir das Ding beweisen. Fragen, bevor wir zum Beweis kommen.
37:17
Der Durchmesser von s ist halt der Radius von der kleinsten Kugel, die Sie brauchen, in der das s enthalten ist.
37:26
Sie können es auch als Supremum definieren über die Norm von x minus z. x z ist in s. Und so etwas wäre der Durchmesser. Und da es beschränkt ist, kommt eine endliche Zahl raus.
37:46
Noch eine Frage?
38:02
Dann brauche ich im Beweis eine Abschätzung aus dem Beweis von Satz 4-5, die formuliere ich separat als Lemma 4-11.
38:21
Ist s gleich Support von p x beschränkt? So gilt für eine nur von d und dem Durchmesser von s abhängende Konstante c Dach.
38:52
Von d, also der Dimension von dem Wertebereich der Zufallswariable x und dem Durchmesser von s, Konstante c Dach.
39:21
Wenn ich mir angucke, das Integral über s. 1 durch n mal p x von s h n von x.
39:41
Und das integriert bezüglich der Verteilung von x. Das ist klar noch gleich als c Dach durch n mal h n hoch d.
40:09
Und das beweisen wir jetzt nicht schonmal, aber wir haben es im Beweis von Satz 4-5 gesehen. Das ging so, Sie haben dieses s überdeckt mit c Dach durch h n hoch d vielen Kugeln vom Radius h n halbe.
40:22
Haben dann das Integral aufgespalten in eine Summe über die Einzelintegrale. Haben ausgenutzt, da unten steht eine Kugel, die die obere Kugel umdeckt. Deswegen konnten Sie da unten auch die kleinere Kugel von oben reinschreiben. Und dann hat sich das da mit dem Integral einfach weggekutzt. Und es blieb noch ein 1 durch n übrig, mal der Anzahl der Summanden.
40:41
Das war c Dach durch h n hoch d. Also Beweis folgt aus Beweis von Satz 4-5, beziehungsweise Vergleiche. Wir können direkt die gleiche Formel 4-10 in Beweis von Satz 4-5.
41:08
Aber ich mache nicht nochmal. Wir haben es im Satz 4-5, war s eine spezielle Kugel. Aber ich kann natürlich sofort, ich brauche nicht das s, der Support von b x ist.
41:24
Ich kann sofort das Integral ersetzen durch ein Integral um eine Kugel, die eben diesen Support umfasst. Das gibt dann genau den Durchmesser als Radius. Und da geht dann der Durchmesser in das c Dach ein.
41:45
Okay, Fragen soweit? Ich sehe keine. Dann würde ich jetzt erstmal 5 Minuten Pause machen zum Tafel mischen. Und wir fangen dann um 12.28 Uhr mit dem Beweis an.
42:05
Ja, dann würde ich ganz gern weitermachen.
42:21
Dankeschön. Ja, also würde ich ganz gern weitermachen. Wir kommen zum Beweis von Satz 4-10. Das heißt, wir fangen einfach mal an, die linke Seite der Ungleichung abzuschätzen. Den erwarteten L2-Fehler. Beweis von Satz 4-10.
42:47
Ich zerlege dazu diesen erwarteten L2-Fehler in einen Bias-Term, eine dynamistische Verzerrung und einen Varianz-Term. Und dazu definiere ich mir die bedingte Erwartung meines Schätzers gegeben x1 bis xn.
43:02
Das sei M n Hut.
43:22
Das sei M n Hut, die bedingte Erwartung von M n von x gegeben x1 bis xn. Wenn Sie das ausrechnen, was passiert dann? Sie setzen die Formel für M n von x ein, den Kernschätzer. Das ist dieser Bruch. Sie sehen, die Summe können Sie sofort rausziehen.
43:42
Die Summe im Zähler aufgrund der Linearität des bedingten Erwartungswertes. Sie sehen, Sie können den ganzen Nenner rausziehen, weil der Nenner ja nur von x1 bis xn abhängt. Das ist eine messbare Funktion von x1 bis xn. Sie sehen, Sie können auch noch dieses K von x minus xi durch H n rausziehen, weil es ja nur von x1 bis xn übrig bleibt.
44:02
Dann bleibt also der gleiche Ausdruck stehen. Nur das yi ist ersetzt durch die bedingte Erwartung von yi gegeben x1 bis xn. Und dann können Sie das gleiche machen wie im Beweis vom Satz von Stone. Sie lassen alle Zufallsvariablen weg, die unabhängig zu yi sind.
44:20
Das heißt, der bedingte Erwartungswert von yi gegeben xi bleibt übrig. Sie nutzen aus, dass das der faktorisierte bedingte Erwartungswert ist, wenn Sie da in diesen dann groß xi einsetzen. Und Sie nutzen aus, dass der faktorisierte bedingte Erwartungswert von yi gegeben groß xi gleich x aufgrund der identischen Verteiltheit,
44:43
der x1, y1 bis xn, yn gerade m von x ist. Das heißt, Sie kommen mit einem Schlag auf den gleichen Ausdruck nur mit yi ersetzt durch m von x durch xi.
45:17
Aufgrund von Rechenregeln für die bedingten Erwartungswerte und die unabhängige identische Verteiltheit der Daten.
45:34
Und das nutzen wir jetzt außen um unseren erwarteten L2-Fehler umzuformen.
45:56
Ach so, falls Sie es nicht schon mitbekommen haben, das ist eine der Prüfungsfragen.
46:00
Ich rechne Ihnen mal wieder eine Prüfungsfrage vor. Sie würden genauso anfangen mit m in Dach von x, definieren Sie. Ja, ich glaube, es steht auch noch ein Hinweis drauf. Und dann würden Sie eben sagen, das ist das gleiche wie wenn ich yi durch m von xi ersetze. Und dann könnte ich eben nachfragen, was ist die Begründung dafür. Und dann kennt das Ganze, was ich gerade eben gesagt habe. Wer eine potenzielle Nachfrage müsste, ich aber nicht stellen.
46:22
Okay, dann verwenden Sie Fubini und ziehen den bedingten Erwartungswert rein. Und dann schreibe ich gleich noch den totalen Erwartungswert als Erwartungswert vom bedingten Erwartungswert um, was hier immer gilt.
46:59
Dann sind Sie hier.
47:01
Also Sie haben Fubini plus Definition, bedingte Erwartung.
47:20
Dann sind wir hier.
47:54
Okay, dann gucken Sie sich den inneren Erwartungswert an, diesen bedingten Erwartungswert.
48:00
Dieser bedingte Erwartungswert ist jetzt, wenn Sie einfach so tun, dieser bedingte Erwartungswert ist wie ein Erwartungswert. Dann ist es einfach ein erwarteter L2-Fehler. Und erwarteter als L2-Fehler, wissen Sie aus der mathematischen Statistik, kann ich zerlegen in Varianzterm plus Biasterm zum Quadrat. Und genau das Ganze machen wir. Dann würden wir hier den Erwartungswert von unserem Schätzer dazwischen schieben.
48:22
Da wir aber das Ganze mit einem bedingten Erwartungswert haben, schieben wir gerade den bedingten Erwartungswert dazwischen. Das heißt, das ist gerade unser M in Hut. Und wenn Sie das machen, dann sehen Sie, das ist gleich den Erwartungswert vom Quadrat von Mn von x minus den bedingten Erwartungswert.
48:40
Hut von x zum Quadrat gegeben, x1 bis xn, plus den Biasterm zum Quadrat. Und das war einfach das M in Hut, also der Erwartungswert des Schätzers, minus den zu schätzenden Term zum Quadrat.
49:03
Und das wäre einfach eine Biasvarianzzerlegung.
49:37
Und dann sehen Sie auch, das ist natürlich keine Biasvarianzzerlegung im klassischen
49:40
Sinne der Statistik, weil ich mache es ja auf einmal mit bedingten Erwartungswerten. Aber wenn Sie sich erinnern, wo kommt eine Biasvarianzzerlegung her? Das war ja einfach nur, man zieht den Erwartungswert ab, addiert ihn wieder dazu, multipliziert die binomische Formel aus, fast die Terme anders zusammen, multipliziert die binomische Formel aus und ist aus, der Erwartungswert vom bedingten Term ist gleich Null.
50:01
Aber dass der Erwartungswert vom bedingten Term gleich Null ist, kriegen Sie hier genauso. Wenn Sie mn von x minus mn Hut von x mal mn Hut von x minus mn von x davon das Produkt nehmen und davon den bedingten Erwartungswert gegeben x1 bis xn ausrechnen, können Sie den Faktor, der hängt nur von x1 bis xn an, rausziehen. Bleibt der Faktor noch übrig, dann ist der bedingte Erwartungswert von mn von x
50:23
gegeben x1 bis xn, gerade das mn Hut von x, tatsächlich, steht Null da. Also der Beweis ging genauso, wenn wir sagen, ich argumentiere eigentlich mit bedingten Verteilungen, aber so ein bisschen Handwafing, aber eigentlich kann man auch sagen, wir machen einfach den gleichen Beweis, fertig.
50:51
Dann sind wir hier, jetzt kann ich den Erwartungswert auf die beiden Summanden anwenden, einzeln, dann der Erwartungswert vom bedingten Erwartungswert,
51:01
das ist wieder der totale Erwartungswert, das heißt, ich habe den Erwartungswert von dem Ausdruck hier, plötzlich den Erwartungswert von dem Ausdruck hier, kann ausnutzen, integrales Linear, ziehe ich auseinander in zwei Integrale und ziehe die Erwartungswerte mit Fubini wieder raus. Und dann sehen Sie, dann haben wir wunderschön gezeigt, das Ganze ist der Erwartungswert von mn Hut von x minus mn von x zum Quadrat Px dx plus
51:32
Erwartungswert von, und wir haben unseren erwarteten L2-Fehler in zwei Terme zerlegt
51:49
und das eine ist der Bias-Term und das andere ist der Varianz-Term, das hier wäre der Varianz-Term und das hier wäre der Bias-Term des Fehlers.
52:15
Und ich habe noch überhaupt nichts verloren, ich habe noch überhaupt keine obere Abschätzung gemacht, das ist einfach ein Gleich.
52:23
Sie haben die Frage? Ich habe nichts verloren, nur irgendein Wertwertenindex, ich habe etwas verloren, aber das, was ich verloren habe, kann ich wieder finden. Das ist ja, es steht zweimal der gleiche Term, ich wollte den Beweis ein bisschen abkotzen, aber Sie haben vollständig recht.
52:44
Also es ist ein mn von x minus mn Hut von x, das wollte ich machen.
53:02
Habe ich da eigentlich in Ihrer Stimme so einen leichten Spott vernommen? Wollen Sie das jetzt nicht sagen? Na gut, so ein bisschen Spaß muss ja auch sein, aber ich dachte immer, ich mache hier die Witze, aber okay, war vielleicht Denkfehler.
53:28
Okay, aber jetzt stimmen Sie soweit überein mit mir und jetzt schätzen wir eben zwei Terme an und dann fangen wir vielleicht mal, ich weiß nicht, es ist egal mit was Sie anfangen, ich habe in meinem Skripto irgendwie mit Bio-Term angefangen, also fangen wir mal, Frau Wolff, Sie haben auch noch eine Frage.
53:56
Okay, Sie fragen, warum habe ich den Erwartungswert in das Integral hereingezogen, wenn ich ihn
54:01
hinterher wieder herausziehe, was ja nicht so ganz sinnvoll erscheint, das gebe ich durchaus recht, weil ich Probleme hätte, den bedingten Erwartungswert gegeben x1 bis xn in das Integral hereinzuziehen. Das wüsste ich jetzt irgendwie nicht, ich könnte natürlich auch diesen Erwartungswert als bedingten Erwartungswert gegeben x1 bis xn schreiben,
54:20
aber kann ich dann den bedingten Erwartungswert in das Integral hereinziehen, das wollte ich irgendwie nicht machen und mir nicht überlegen, ob das geht. Natürlich es geht, weil das ist die Begründung, ich kann jetzt auch wieder rausziehen, also es geht, aber das wäre die Begründung dafür.
54:43
Und dann habe ich natürlich den Erwartungswert auch wieder rausgezogen, was auch ein bisschen seltsam ist, weil nachher im Beweis werde ich meinen Variansterm gleich wieder reinziehen, aber das habe ich gemacht, damit es irgendwie schön dasteht, das wäre eine andere Frage. Okay, noch Fragen? Dann fangen wir an, Abschätzung des Bio-Terms.
55:20
An der Stelle der Prüfung könnte es Ihnen natürlich passieren, dass ich sage, einer
55:23
von beiden Termen ist geschenkt, wir gucken uns nur den zweiten an oder so, aber Sie wissen nicht, welcher geschenkt wäre. So gesehen müssten Sie beide angucken. Ja, wir gucken uns mal das Mn von x, wir gucken uns mal das Mn Hut von x minus M von x an zum Quadrat,
55:48
und ich schreibe das Mn Hut von x mal hin, das war ja, also den Quadrat lassen wir mal stehen, dann war ja das Summe i gleich 1 bis n mal yn i, ich mache den Bruchstrich hier ein bisschen länger,
56:12
warum sehen Sie gleich durch Summe j gleich 1 bis n mal k von x minus xj durch hn,
56:31
und dann würde ich davon M von x abziehen, und jetzt ziehe ich das M von x einfach hier innen ab, stattdessen und mache das so, und das sieht eigentlich ganz gut aus, weil Sie haben einfach nur,
56:49
wenn Sie es wieder ausmultiplizieren, dann kommt der erste Termin einfach aus Mn Hut von x, dann ziehen Sie noch ab, Summe i gleich 1 bis n k von x minus xi durch hn mal M von x
57:00
durch Summe j gleich 1 bis n k von x minus xj durch hn, und da können Sie das M von x ausklammern, dann teilen Sie die Summe i gleich 1 bis n k von x minus xi durch hn durch die Summe j gleich 1 bis n k von x minus xj durch hn, und dann können Sie einen wunderschönen Fehler machen und sagen, das ist 1 immer, weil es könnte auch Null sein, weil offenbar steht da Null durch Null daran.
57:21
Aber wenn da Null steht, dann wissen wir, was rauskommt, nämlich dann ist der ursprüngliche Termin gleich M von x zum Quadrat, und dann haben wir einen Indikator, dass diese Summe gleich Null ist. Jetzt ist die Frage, will ich diesen Indikator so wie ein Skript mit einem B hinschreiben, aber ist im Prinzip egal, ich könnte es auch so hinschreiben, ich glaube, es geht offenbar einfacher.
57:42
J gleich 1 bis n k von x minus xj durch hn ist gleich Null. Dann sind wir so weit. Ok, also Sie betrachten separat die beiden Fälle,
58:17
dass dieser Nenner hier gleich Null ist und dass er ungleich Null ist. Wenn der Nenner gleich Null ist, ist es M in Hut von x gleich Null,
58:23
dann kommt einfach M von x zum Quadrat raus, und Sie haben diesen Termin. Wenn dieses M in Hut ungleich Null ist, dann steht da dieser Indikator da, und eigentlich hätte ich hier jetzt noch den Indikator dran, dass diese Summe größer als Null ist.
58:41
Also kleiner als Null kann es ja nicht sein, dass diese größer als Null ist, aber den Indikator kann ich weglassen, weil wenn sie eben gleich Null ist, ist der Ausdruck sowieso gleich Null. So gesehen, brauche ich es nicht. Müsste nicht das y in M von x sein? Das ist eine gute Frage, da stimme ich Ihnen komplett überein,
59:05
weil ich muss natürlich die Definition des Schätzers einsetzen, oder die Definition von meinem bedingten Erwartungswert. Hier steht ein M von xi. Danke schön.
59:30
Wahrscheinlich würde ich in der Prüfung anders nachfragen. Wahrscheinlich hätte ich gefragt, irgendwie steht bei Ihnen da jetzt y hier, aber vorher stand M von xi. Wie erklären Sie sich das? Oder so. Aber es läuft doch gleich hinaus.
59:50
Okay, sind wir soweit? Einverstanden? Aber der Trick ist eben hier wirklich darauf zu beachten, wir haben Null durch Null gleich Null.
01:00:02
Gut, jetzt ziehen wir hier Betrag zum Quadrat, das ist einfach der Ausdruck zum Quadrat. Quadrat ist eine kontexte Funktion, ich ziehe das mit Jensen rein. Also nach Jensen, kleiner gleich Jensen, x nach Betrag von x² ist konvex.
01:00:28
Dann kommen wir hier auf die Summe hn mal m von x hier minus m von x zum Quadrat durch Summe.
01:01:03
Und dann kommt dieser zweite Termin, ich kurz vielleicht ein bisschen ab, es geht nicht ganz hin, m von x zum Quadrat mal Indikator von und so weiter größer als Null, ne, gleich Null, dann sind wir soweit.
01:01:28
Und diese Summe der Gewichte, die Gewichte, also k war ja der Niveau Tecann, dann sind die Gewichte entweder 0 oder 1, die Summe der Gewichte, die Gewichte sind in dem Fall k von x minus x die durch hn geteilt durch die Summe der Gewichte.
01:01:42
Und das summiert zu 1, außer in den Fällen, wo die Gewichte sowieso alle gleich 0 sind, aber dann stimmt diese Abschätzung auch. Also wenn dieser Nenner hier gleich 0 ist, ist sowieso nach wie vor immer alles 0 durch 0 gleich 0. Fertig. Dann nehmen wir die Voraussetzungen für hier 13.
01:02:05
Das m von xi minus m von x ist kleiner gleich als betragsmässig c mal xi minus x Norm hoch p. Das heißt, das Quadrat ist kleiner gleich als c Quadrat mal xi minus x Norm hoch 2p
01:02:34
minus klein x hoch 2p durch all diesen Indikator, dann sind wir soweit.
01:03:38
Und dann nutzen wir folgendes aus, k war der Niveau Tecann,
01:03:44
k war gleich Indikatorfunktion zur Einheitskugel. Daraus folgt, wenn unser k von x minus xi durch hn ungleich 0 ist,
01:04:03
dann muss ja x minus xi durch hn in der Einheitskugel liegen, dann ist aber der Abstand von x zu xi kleiner gleich hn. Das heißt, ich kann jetzt immer dann, wenn der Faktor, der in der Summe,
01:04:25
der erste Faktor in der Summe vom Zähler steht, nicht 0 ist, kann ich es abschätzen, das was dahinter steht, durch c Quadrat mal hn hoch 2p. Und wenn es gleich 0 ist, kann ich es natürlich erst recht durch c Quadrat mal hn hoch 2p abschätzen. Also kann ich es immer durch c Quadrat mal hn hoch 2p abschätzen
01:04:42
und dann kann ich das c Quadrat mal hn hoch 2p rausziehen. Dann bleibt noch die Summe durch die gleiche Summe übrig. Und wenn es immer kleiner gleich 1 ist, kann ich es also weglassen, weil es entweder 1 oder 0 ist und plus m von x zum Quadrat mal Indikator,
01:05:05
dass diese Summe j gleich 1 bis n, dass die gleich 0 ist.
01:05:49
Okay, soweit klar? Oder Fragen?
01:06:06
Ja, wenn Sie das haben, dann gucken Sie sich den erwarteten L2-Fehler an oder diesen Bias-Term eigentlich, den wir haben wollten, also der Erwartungswert von dem Integral von mn Hut von x minus m von x zum Quadrat x dx.
01:06:27
Ich setze das obere ein. Der Integrant war ja kleiner gleich als das, was da steht. Also das Ganze ist kleiner gleich als den Erwartungswert vom Integral über eine Summe. Ich ziehe die Summe auseinander.
01:06:41
Der erste Term ist einfach eine Konstante. Der Erwartungswert vom Integral bezüglich dem Wahrscheinlichkeitsmaß von der Konstante ist einfach die Konstante, ist also c Quadrat mal hn hoch 2p. Und dann bleibt noch der Erwartungswert vom Integral vom zweiten übrig.
01:07:03
Da ziehe ich vielleicht erst mal dieses m von x zum Quadrat nach vorne als Konstante, nämlich als maximal möglichen Wert. Also als, wie haben wir es denn hier geschrieben, Supremum z aus s, z aus s, m von z zum Quadrat.
01:07:25
Ich setze das durch eine Konstante ab. Also ich brauche es ja nur für x, für klein x aus dem Support, weil die Menge aller x, die nicht im Support liegt, war ja eine Nullmenge. Das heißt, wenn ich darüber integriere, kommt sowieso Null raus. Dann bin ich jetzt auch noch los.
01:07:41
Dann habe ich noch diesen Indikator und den Erwartungswert. Dann habe ich noch diesen Erwartungswert und das Integral von diesem Indikator. Da schreibe ich jetzt erst das Integral, mache ich ein Integral über rd und dann der Erwartungswert von der Indikatorfunktion gibt einfach eine Wahrscheinlichkeit.
01:08:04
Wahrscheinlichkeit von gleich 1 bis n, k von x minus xj durch h n, gleich Null, integriert bezüglich px dx.
01:08:21
Jetzt sind wir so weit.
01:08:41
Also hier habe ich ausgenutzt, dass eben dieses s gerade eine Menge ist vom px Maß 1. Das heißt, ich kann mein Integral eigentlich per se nur schreiben als ein Integral über s, weil das Integral über das Komplement ist ein Integral über eine Nullmenge ist Null. Und dann tauchen eben für meine x nur noch die x aus s auf. Da schätze ich diesen Konstante durch den Ausdruck ab.
01:09:08
Und Sie sehen, was jetzt noch fehlt, ist die Abschätzung von dem letzten Integral. Und Sie sehen auch, wenn Sie mit der Behauptung vergleichen, da taucht dieses c² mal h n hoch 2p sowieso auf.
01:09:20
Nur das zweite fehlt noch. Okay, ja und jetzt machen wir die folgende Abschätzung mit. Wir gucken uns dieses Integral nur allein an. Das Integral ist es über die Wahrscheinlichkeit.
01:10:04
Ich will die Wahrscheinlichkeit integrieren, dass die Summe j gleich 1 bis n von k von x minus xj durch h n gleich Null ist.
01:10:23
Was heißt das? Diese Wahrscheinlichkeit können Sie umschreiben. k war ja der naive Kern, also die Indikatorfunktion zur Einheitskugel um Null. Wenn x minus xj durch h n die Summe darüber gleich Null ist,
01:10:41
dann müssen alle gleich Null sein. Das heißt, x minus xj durch x minus x1 durch h n darf nicht in S1 von Null sein und so weiter, bis x minus xn durch h n darf nicht in S1 von Null sein. Sie sehen, x minus x1 durch h n ist nicht in der Einheitskugel. Naja, wenn x1 nicht in S h n von x liegt,
01:11:09
also x1 muss einen Abstand größer h n von x haben und so weiter, bis xn soll nicht in S h n von x liegen.
01:11:40
Ja, und das ist einer der Terme, die hat man schon öfters.
01:11:42
Das ist jetzt die Wahrscheinlichkeit, dass x1 bis xn gleichzeitig irgendwelche Bedingungen erfüllen. Aufgrund der unabhängigen identischen Verteiltheit ist es das Produkt der Einzelwahrscheinlichkeit. Also die erste Wahrscheinlichkeit, dass x1 nicht in S h n von x ist hoch N und diese Wahrscheinlichkeit, dass x drin liegt, ist 1 minus die Wahrscheinlichkeit, dass es drin liegt.
01:12:00
Das heißt, hier kommen wir auf das Integral über 1 minus Px von S h n von x hoch N Px dx, weil eben unsere x x1 bis xn unabhängig identisch verteilt waren.
01:12:43
Also Sie können die Wahrscheinlichkeit, dass x1 nicht in S h n von x liegt, gleichzeitig x2 nicht in S h n von x ist, x3 nicht in S h n von x ist, umschreiben als das Produkt der Einzelwahrscheinlichkeit aufgrund der Unabhängigkeit der Zufallsvariablen.
01:13:00
Diese Einzelwahrscheinlichkeit ist jeweils Px von S h n, ist jeweils 1 minus Px von S h n von x aufgrund der identischen Verteiltheit und es gibt dann 1 minus Px von S h n von x hoch N. Fertig.
01:13:26
Jetzt kommt wieder der Trick, den wir schon mal hatten. Wir erweitern das durch den Termin N mal Px von S h n von x und teilen durch den Termin N mal von Px h n von x dieses N mal Px von S h n von x mal 1 minus Px von S h n von x hoch,
01:13:42
ne, ich mach vorher noch was anderes, ich nehme einen Exponentialterm, ich sag 1 minus x ist kleiner gleich E hoch minus x, einfach weil 1 plus z kleiner gleich E hoch z ist. Und dann kommen sie hier aufs Integral über E hoch minus N mal Px von S h n von x x dx, dann sind sie hier.
01:14:29
Und jetzt multipliziere ich vorne dran N mal Px von S h n von x und teile durch N mal Px von S h n von x, dann dieses N mal Px von S h n von x mal E hoch minus N mal Px von S h n von x schätze ich nach oben ab
01:14:42
durch das Maximum über z aus R z mal E hoch minus z und dann bleibt noch übrig das Integral über 1 durch N mal Px von S h n von x für x dx, dann sind sie hier.
01:15:09
Und dann sind sie bei dem Termin also Maximum z aus R z mal E hoch minus z
01:15:34
mal Integral über 1 durch N mal Px von S h n von x Px dx sind wir hier. Und dieses Integral über 1 durch N mal Px von S h n von x, das schätzen sie jetzt ab mit unserem Lemma 4.11.
01:15:49
Unser Lemma 4.11 besagt, wenn der Support von Px beschränkt ist, was wir als Voraussetzung haben, dann ist das Integral über diesen Support von 1 durch N mal Px von S h n von x Px dx kleiner gleich ein C Dach mal N mal h n hoch D. Das heißt, ich bekomme hier, allerdings habe ich an der Stelle keinen Integral über S darstellen,
01:16:09
da drüben, aber das macht nichts, weil das Integral über S Komplement ist ja, während Integral über Nullmenge ist per se Null. Ganz egal, ob hier unendlich steht 1 durch Null, also unendlich oder nicht. Das wäre egal. Das heißt, das S brauche ich an der Stelle eigentlich nicht.
01:16:24
Das heißt, und nach unserer Voraussetzung, das ist die Voraussetzung 4.11, ist der Support von Px beschränkt. Also nach Lemma 4.11 und Voraussetzung 4.11 können wir das Ganze abschätzen.
01:16:42
Lemma 4.11 und Voraussetzung 4.11, dieses Maximum z mal e hoch minus z, war, glaube ich, 1 durch e. Kann man ausrechnen, dann kommt ein C Hut durch N mal h n hoch D.
01:17:06
Dann sind wir so weit. Und wenn ich jetzt das habe, diese Gleichung, dann folgt,
01:17:53
und das, was folgt, ist die Abschätzung, die da unten rechts steht, der erwartete dieser Bias-Term,
01:18:17
das ist jetzt kleiner als C Quadrat mal h n hoch 2C plus das Supremum über alle z aus S,
01:18:37
die Abschätzung Quadrat, mal den Integral, und das Integral haben wir gerade eben abgeschätzt,
01:18:42
durch 1 durch e, mal C Dach, mal N mal h n hoch D. In dieser Gleichung wollte ich, glaube ich, die Nummer 4.16 geben.
01:19:04
Und wenn wir das jetzt vergleichen mit der Behauptung, also genügt es im Folgenden zu zeigen,
01:19:30
und das ist die Abschätzung des Variansterms, da wollen wir zeigen, dieser Variansterm,
01:19:46
der ist auch kleiner gleich, und da können Sie jetzt mit unserer Behauptung vergleichen, was fehlt noch? Wir haben unseren erwarteten L2-Fehler zerlegt in Bias- und Variansterm.
01:20:02
Der Bias-Term war kleiner gleich als der rechten Seite von 4.16. Was bleibt da noch übrig auf der rechten Seite von unserer Abschätzung, die wir eigentlich zeigen sollten? Da bleibt noch übrig unser C1 mal Sigma Quadrat durch N mal h n hoch D.
01:20:29
Und jetzt ist die Gleichung 4.17 und damit sind wir perfekt am Ende, an der perfekten Stelle, um zu unterbrechen. Die machen wir beim nächsten Mal.
01:20:42
Okay, wenn Sie jetzt keine Fragen mehr haben, wäre ich für heute fertig und wir brechen dann beim nächsten Mal, zu Beginn der Stunde, die Gleichung 4.17 nach.