We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback
00:00

Formale Metadaten

Titel
Adaption
Serientitel
Teil
7
Anzahl der Teile
24
Autor
Lizenz
CC-Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Dichte <Physik>SchätzfunktionZufallsvariableUntere SchrankeErwartungswertPotenz <Mathematik>KonvergenzgeschwindigkeitKonstanteKernfunktionKerndarstellungVariableGlattheit <Mathematik>DichteschätzungObere Schrankep-BlockKurvenschätzungTermSchätzungKurveKreuzvalidierungQuadratGewicht <Ausgleichsrechnung>Abstieg <Mathematik>GeschwindigkeitGauss <Rechenmaschine>ComputeranimationVorlesung/Konferenz
Arithmetisches MittelDichte <Physik>SchätzfunktionDichteschätzungErwartungswertTermumformungMittelwertZufallsvariableMinimierungTermSummeUmfangKonstanteArithmetikMittelungsverfahrenAusdruck <Logik>ApproximationGesetz <Physik>KreuzvalidierungVorlesung/Konferenz
ErwartungswertArithmetisches MittelSummeTermZufallsvariableWahrscheinlichkeitsverteilungStatistikParametersystemSchätzfunktionWirkung <Physik>IntegralModulformInnerer PunktMittelungsverfahrenVorlesung/Konferenz
MinimumLokales MinimumErwartungswertVariableKraftDesintegration <Mathematik>WahrscheinlichkeitsverteilungIntegralWeg <Topologie>RuhmasseDichte <Physik>Numerisches GitterÜberdruckFaktorisierungTermumformungDoppelintegralVorlesung/Konferenz
Lokales MinimumSchätzfunktionErwartungswertKreuzvalidierungMinimumBerechnungFaktorisierungDichteschätzungHerleitungArithmetisches MittelSummeIntegralVarianzRichtungInferenzstatistikUntere SchrankeStreuungStichprobeQuadratZufallsvariableMathematikMittelungsverfahrenRundungAussage <Mathematik>StatistikMinimierungGeschwindigkeitVorlesung/Konferenz
ErwartungswertMaximumAussage <Mathematik>Dichte <Physik>Ende <Graphentheorie>Betrag <Mathematik>MengeGleichheitszeichenIntegralVariableMengensystemAusdruck <Logik>TermVorlesung/KonferenzTafelbild
RuhmasseMengeStichprobenumfangKernschätzungUnterteilungLokales MinimumSchätzfunktionSchätzungDichte <Physik>MaximumMengensystemBetrag <Mathematik>EndlichkeitIndexSummeParametersystemStichprobeModifikation <Mathematik>KombinatorMeterVorlesung/Konferenz
Lokales MinimumGrößenordnungMengensystemIndexmengeAussage <Mathematik>ZahlenbereichErwartungswertMinimumBetrag <Mathematik>MaximumDichte <Physik>DichteschätzungObere SchrankeInferenzstatistikTermDreiecksungleichungMengeStichprobeTaylor-ReiheIndexIntegralSchätzfunktionZufallsvariableMittelungsverfahrenGradientReiheVorlesung/Konferenz
SummandMaximumDreiecksungleichungMengeSchätzfunktionIntegralSummeBetrag <Mathematik>Messbare AbbildungAussage <Mathematik>KreuzvalidierungTermObere SchrankeMengensystemDichteschätzungDichte <Physik>Vorlesung/KonferenzTafelbild
Transkript: Deutsch(automatisch erzeugt)
Ja, damit grüße ich Sie mal recht herzlich zur mittlerweile siebten Vorlesung in der Vorlesung Kurvenschätzung. Wie vor zwei Wochen, das war eigentlich die vorletzte Vorlesung, ne?
Richtig? Ja, gut, da war so ein ... Ich kriege es gerade nicht hin. Also, wie vor zwei Wochen angekündigt, werden wir den Hörsaal tauschen, und zwar ab nächster Woche, immer freitags, dann sind wir freitags in den S101A04, also direkt daneben, der andere Termin bleibt gleich, der Freitagstermin wird verlegt,
einfach weil hier freitags morgens ja eine Veranstaltung drin ist, die über zwei oder über vier, oder ja, eigentlich über zwei Blöcke geht und diese so ansonsten immer umziehen, was ein bisschen blöd ist. Die ziehen immer, die, die hier im ersten Block drin sind, die ziehen zu dem zweiten Block in den S101A04 über
und deswegen habe ich angeboten, wir können auch tauschen, das machen wir ab nächster Woche. Okay. Gut, ansonsten, ja, ich wollte Ihnen demnächst noch die ersten Prüfungsfragen hochladen, ich muss mir noch einmal durchlesen, das sind dann die Prüfungsfragen zu den ersten beiden Kapiteln, habe ich eigentlich schon, gibt, glaube ich, acht Stück,
und wir sind jetzt beim letzten Abschnitt, der wird relativ kurz werden, zur Dichteschätzung und dann sind wir mit dem Kapitel 2 Dichteschätzung fertig und fangen an mit Rekursionschätzung mit festem Design, da werde ich dann noch das Skript auf einen Schlag hochladen können, weil ich ein altes habe. Das hier musste ich alles neu tippen. Also wir kommen jetzt zum letzten Abschnitt, das ist der Abschnitt 2.4, Adaption.
Wir beschäftigen uns nach wie vor mit dem Kern-Dichteschätzer, das heißt, wir haben unabhängig identisch verteilte Zufallsvariablen x, x1, x2 und so weiter mit einer Dichte f,
also x unabhängig identisch verteilt mit Dichte,
wir beobachten Groß x1 bis Groß xn oder konkrete Werte davon und möchten daraus einen Schätzer für f basteln, wir nehmen den Kern-Dichteschätzer, also fn, h, das war 1 durch n mal h auch d,
fn h von x ist gleich 1 durch n mal h auch d, summe i gleich 1 bis n,
ein Kernfunktion k von klein x minus groß x i durch h. Der hängt jetzt, wenn Sie ihn konkret anwenden, von zwei Sachen ab, erstens der Kernfunktion, das ist meistens harmlos, können Sie zum Beispiel einen naiven Kern nehmen oder auch einen Gauss-Kern,
das wird eben eine, an der Regel nehmen wir hier eine Dichte oder zumindest eine Funktion, die integrierbar ist und die zu 1 integriert und zweitens von der sogenannten Bandbreite h größer 0, da ist die Abhängigkeit aber kritischer. Wenn Sie jetzt eine konkrete Datensetze haben, müssen Sie irgendwie die Bandbreite wählen
und das ist die Frage, wie machen Sie das? Wir haben gesehen, wenn wir eine gewisse Glattheitsvoraussetzung an die Dichte stellen, dann können wir eine Konvergenzgeschwindigkeit vom L1-Fehler uns angucken, also wie groß ist der erwartete L1-Fehler? Wir können da obere Schranken herleiten und wir können bis auf Konstanten auch passende untere Schranken herleiten, wenn die Funktion eben so und so glatt ist.
Also und so viele, zum Beispiel Hölderstätig mit einem Exponenten p, das war unsere p-C-Glattheit. Dann hing das, was rauskam, von dem p ab, mit welcher Rate das gegen 0 ging, das war n hoch minus p durch 2p plus d. Aber wir haben auch gesehen, wir mussten die Bandbreite entsprechend wählen. Damit es rauskommt, müssen wir die Bandbreite in Abhängigkeit von der Glattheit wählen,
aber diese Glattheit ist natürlich in einer Anwendung unbekannt. Das heißt, das können Sie nicht. Also die Frage ist, wie wählen Sie h, wenn Sie nur die Daten haben? Also Ziel im Folgenden, ich wähle irgendwie h und ich nenne das mal als h-Dach.
Nur abhängend von unseren Daten, so dass unser Schätzer gut ist und unser Schätzer gut, da würden wir irgendeinen Fehlerkriterium nehmen.
Zum Beispiel den L1-Fehler, würden Fehler ausrechnen oder würden sagen, wir wollen Fehler haben. Den Fehler, den wir bekommen, wenn wir für die Bandbreite dieses h-Dach nehmen und das soll ungefähr gleich der minimalen Fehler sein. A größer 0.
Und ich habe hier noch abstrakt den Fehler eingeführt und nicht konkret. Ich hätte es auch für den L1-Fehler hinschreiben können, aber die gebräuchlichste Methode, die man hier eigentlich anwendet, ist die sogenannte L2-Kreuzvalidierung oder Varianten davon,
die zielt eben auf den L2-Fehler ab. Deswegen habe ich hier das abstrakte als Fehler hingeschrieben. Ich werde Ihnen jetzt zwei Methoden vorstellen. Die erste ist die gebräuchlichste, die auch in den meisten Softwarepaketen, zum Beispiel R, vorimplementiert ist und was da die Idee dahinter ist. Und dann kommt eine zweite, die speziell auf den L1-Fehler abzielt.
Ok, fangen wir an mit Abschnitt 2.4.1, die L2-Kreuzvalidierung.
Und was wir hier machen wollen, wir wollen h so wählen, dass der erwartete L2-Fehler minimal wird. Also wähle h so, dass der erwartete L2-Fehler minimal wird.
Und dass man L2 jetzt nimmt und nicht mehr L1 liegt eben daran,
weil man das, wie Sie nachher sehen werden, einfacher kann, als wenn man versucht, hier einen entsprechenden L1-Fehler zu minimieren. Ok, was ist die Idee dabei? Den erwarteten L2-Fehler, das ist ja innen drin so ein Quadrat, das können wir einfach mal ausmultiplizieren.
Und dann sehen Sie mit der binomischen Formel, dann kann ich das Integral aufspalten in drei Terme und einzeln gegen den Erwartungswert oder den Erwartungswert ausrechnen. Also es gilt, der erwartete L2-Fehler,
ich schreibe vielleicht jeweils noch ein Integral über rd dazu. Wir multiplizieren einfach mal aus, ziehen dann den Erwartungswert auseinander. Dann sehen Sie, wir ziehen das Integral und den Erwartungswert auseinander.
Wir haben den einen Term, dann bekommen wir, minus 2 können wir noch ausziehen.
Und dann kommen wir noch als drittes das Integral über fnx zum Quadrat, davon den Erwartungswert, aber da ist ja gar nichts mehr zufällig.
Und deswegen muss ich da auch keinen Erwartungswert mehr hinschreiben. Und jetzt sehen Sie, jetzt möchte ich diesen Ausdruck bezüglich h minimieren. Das ist natürlich sofort, oder den oberen möchte ich ja eigentlich minimieren,
oder die äquivalente Umformung. Das ist natürlich blöd, weil der Ausdruck ja von der Dichte abhängt, die ich gar nicht kenne. Aber Sie sehen auch, wenn ich ihn so hinschreibe, dann hängt ein Ausdruck nicht mehr von der Dichte ab. Also den Ausdruck hängt nur von meinem Dichteschätzer ab.
Und ein Ausdruck hängt nicht mehr von h ab. Also eigentlich interessiert mich der nicht bei der Minimierung, und der, den kenne ich. Also da habe ich kein Problem mit. Das Einzige, was hier unbekannt ist, ist dieser Ausdruck hier. Und jetzt ist die Idee, äquivalent zur Minimierung des erwarteten L2-Fehlers,
also die Minimierung der ersten beiden Terme, und diese Terme schätzen wir. Also äquivalent.
Äquivalent zur Minimierung des erwarteten L2-Fehlers,
ist die Minimierung von, und jetzt nehme ich einfach nur den Ausdruck, der entsteht, wenn ich den letzten Term in dieser Summe hier, der gar nicht von h abhängt, wenn ich ihn einfach weglasse. Das bezeichne ich dann als T von h
und schreibe einfach die ersten beiden ab.
Den ersten ignoriere ich mal.
Mich interessiert hauptsächlich der zweite. Wie kann ich den schätzen? Weil da eben sowohl, weil da eben auch die unbekannte Dichte auftaucht. Wir setzen mal für Fnh ein. Also Fnh war dieses arithmetische Mittel, also 1 durch n mal Summe i gleich 1 bis n, 1 durch h auf d mal k von x minus xi durch h.
Ich kann dann den Erwartungswert mit dem Integral vertauschen mit Phobini und kann den Erwartungswert von arithmetischen Mittel ersetzen durch den Erwartungswert einer dieser Ausdrücke, einfach weil die identisch verteilt sind. Das heißt, wir kommen auf,
den ersten schreibe ich ab, jetzt stellen sich die Formel für Fnh eingesetzt vor. Sie vertauschen Integral mit Erwartungswert mit Phobini. Sie ziehen die Konstante F von x raus.
Sie schreiben das arithmetische Mittel, Erwartungswert des arithmetischen Mittel, als Mittelwert der arithmetischen Mittel um. Die Zufallsvariablen sind identisch verteilt. Da bleibt nur ein Ausdruck übrig. Das heißt, wir könnten das so umformen, Erwartungswert,
und das ist die Formel 212.
Und jetzt sehen Sie, was ich eben primär brauche, ist, ich muss irgendwie das aufgrund meiner Daten x1 bis xn schätzen. Wenn ich das schätzen kann, dann könnte ich eben einfach das Integral hier ursprünglich nehmen, den Erwartungswert ignorieren,
ich nehme das Integral hier ursprünglich, minus zwei Mal meinem Schätzer. Und genau das macht die L2-Kreuzvalidierung, kommt mit folgendem Schätzer an. Dazu wird 212 geschätzt durch,
verschätzen wir 212 durch 213, und 213 ist ein T in H-Dach,
Tn von H-Dach. Ich lasse beim ersten Termin einfach mal den Erwartungswert weg.
Den kann ich berechnen, weil meinen Schätzer habe ich ja gegeben. Und dann brauche ich irgendwas für den zweiten Termin. Für den zweiten Termin mache ich ein arithmetisches Mittel. Und ich definiere mir einen neuen Schätzer, Fn H oben i,
und werte ihn an der Stelle xi aus. Das Fn H oben i wird der, oder ist der kandichte Schätzer, der entsteht, wenn Sie statt den Daten x1 bis xn die Daten x1 bis xi minus 1 und xi plus 1 bis xn nehmen. Das heißt, Sie lassen gerade den i-Datenpunkt weg.
Das ist dann 213 mit Fn H oben i von x.
Ist also der Standard-Kandichteschätzer, wenn ich ihn anwende auf die Datenpunkte x1 bis xi minus 1, xi plus 1 bis xn. Was heißt das? Sie machen die Standardformel 1 durch Umfang der Daten. Das ist jetzt n minus 1
mal Bandbreite hoch d. Dann summieren Sie über alle Daten. Das gibt jetzt hier eine Summe von j gleich 1 bis n, aber eben j ungleich i von k von x minus xj durch h.
Also Sie definieren sich jetzt aufgrund Ihrer Daten x1 bis xn n verschiedene Dichteschätzer, indem Sie bei jedem dieser Dichteschätzer lassen Sie einen der Datenpunkte weg und berechnen ihn mit der Standardformel. Und dann setzen Sie in diese Dichteschätzer jeweils den Datenpunkt ein, den Sie weggelassen haben und bilden darüber das arithmetische Mittel. Und das soll irgendwie
eine Abroximation von dem Term sein, der in 212 auftaucht. Und ich möchte es jetzt hier nicht groß theoretisch analysieren. Ich möchte es nur motivieren. Und motivieren tue ich es dahingehend, dass ich sage, das was ich dahingeschrieben habe, das TNH-Dach ist ein erwartungstreuer Schätzer für T von H.
Das heißt, der Erwartungswert von einem TNH-Dach stimmt mit T von H überein. Das ist die Aussage von Lemma 2.13. Es gilt, all dieses TNH-Dach ist ein erwartungstreuer Schätzer für T von H.
Der Erwartungswert ist gleich T von H. Im Sinne der Statistik ein erwartungstreuer Schätzer.
Machen wir Beweis dazu. Was ist zu zeigen? Na, wenn Sie mal den Erwartungswert von TNH-Dach sich hinschreiben, das gibt einen Erwartungswert von dem ersten Term minus zweimal den Erwartungswert
von diesem arithmetischen Mittel. Der Erwartungswert vom ersten Term steht genauso in T von H drin. Das heißt, die sind sicher gleich. Und dann muss ich eben zeigen, dass der Erwartungswert von dem arithmetischen Mittel, also der Erwartungswert von 1 durch N,
I gleich 1 bis N, der soll gleich sein dem entsprechenden Term, der in 2,12 auftaucht, das heißt im Integral über Rd, Erwartungswert,
all das wollen wir zeigen. Und wenn wir das gezeigt haben, stimmt in der Tat der Erwartungswert von TNH-Dach mit T von H überein. Ist das klar soweit?
Achso, und da wollte ich hier Nummer 2 vor 10 geben.
Ich schreibe es mal davor, ich habe davor noch Platz. Okay, Fragen soweit?
Keine Fragen, dann beweisen wir das. Dazu? Wir gucken uns einfach mal die linke und die rechte Seite an. Kann mir jemand von Ihnen sagen, wie ich die linke Seite ausrechnen kann?
Irgendwelche Vorschläge? Wie können Sie die linke Seite vereinfachen? Also die Formel für FNH
I von X steht da an der Tafel, da setzen wir jetzt noch X die ein. Dann bilden Sie die Summe des arithmetischen Mittel, bilden den Erwartungswert, was kommt raus? Oder wie können Sie es vereinfachen? Vorschlag? Sie würden den Erwartungswert reinziehen zu dem FN aufgrund von Linearität
des Erwartungswertes, würde ich auch machen. Und dann? Und dann nutzen Sie aus, dass die Zufallsvariablen unabhängig identisch verteilt sind. Und was bringt Ihnen das?
Dann fällt die Summe hoffentlich weg und es bleibt nur noch ein einzelner Erwartungswert übrig. Das ist die Idee. Das heißt, Sie ziehen den Erwartungswert raus, nutzen aus, dass aufgrund der unabhängigen identischen Verteiltheit die ganzen Erwartungswerte gleich groß sind. Überlegen wir uns gleich noch. Wenn die alle gleich groß sind, stimmen Sie natürlich mit dem ersten überein. Das heißt, wir werden mit einem Schlag
an der Stelle, dass wir FNH I von X eins hätten. Jetzt müssen wir uns nochmal überlegen, warum gilt es? Und Sie haben schon Argumente gebracht, aufgrund der unabhängigen identischen Verteiltheit.
Das FNH hängt von den ganzen Zufallsvariablen ab, aber Sie lassen die Idee weg.
Sie setzen dann als Argument das XI wieder ein. Dann haben Sie jede Zufallsvariable einmal in der Formel drin. die waren unabhängig identisch verteilt und damit sind wir fertig. Aber warum? Sie können sich überlegen, das ist dann ein Ausdruck, den können Sie umschreiben bezüglich der gemeinsamen Verteilung der Zufallsvariablen.
Die gemeinsame Verteilung der Zufallsvariablen X1 bis XI minus eins, XI plus eins bis XN und XI. Aber aufgrund der unabhängigen identischen Verteiltheit ist es einfach das n-fache Produkt der einzelnen Verteilungen von X1 bis XN.
Stimmt insofern überein mit der gemeinsamen Verteilung der Zufallsvariablen X2 bis XN ,X1 und das sind die Verteilungen der Zufallsvariablen, die hier eintreten. Deswegen sind die ganzen Erwartungswerte gleich groß. Und in der Tat, Sie brauchen nicht nur die identische Verteiltheit, Sie brauchen auch die Unabhängigkeit. Ist richtig. Ist das klar?
Der Schritt. Als Erstliniarität und dann nutzen Sie die unabhängige identische Verteiltheit der Zufallsvariablen aus und sagen, das hängt eben von der gemeinsamen Verteilung von gewissen Zufallsvariablen ab. Aber die stimmen jeweils überein. Ganz egal, was Sie als i einsetzen. Dann setzen wir mal die Formel ein und gucken an, was dann rauskommt.
Also jetzt nehmen wir FNH1 FNH1 war 1 durch N-1 mal H hoch D. Ja, ja. Und ich habe ja erst letzte Woche, nein, diese Woche, den Leuten so schön erklärt, weil das, wenn man an die Tafel schreibt, dann muss man auch aufpassen, wann sie aufhört. Aber vielleicht sollte ich mit gutem Beispiel vorangehen.
Gucken Sie mal, wie ich das professionell kann. Ja, gelernt ist halt gelernt. Ja, ich habe Ihnen ja schon mal erklärt, man muss sich auch über die kleinen Dinge des Lebens freuen.
Heute habe ich einen getroffen, der hat sich noch mehr über die kleinen Dinge des Lebens gefreut als ich. Da war ich ganz erstaunt. Ich auf dem Weg zur Vorlesung, da kommt, wenn Sie von einem Mathegebäude hierher laufen, da kommt ein Zebrastreifen. Wenn Sie natürlich in Deutschland auf einem Zebrastreifen zulaufen, klasse, Sie laufen einfach drauf los. Und wenn einer so blöd ist und drüberfahren will, Pech gehabt.
Dann kommt da eine Fahrschule angefahren. Ich natürlich, klasse, auf den Zebrastreifen zugefahren. Der Fahrschüler will munter durchfahren. Der Fahrlehrer tritt natürlich voll auf die Bremse. Der Motor wird abgewürgt. Der Wagen steht massiv vor dem Zebrastreifen. Ich grins so ein bisschen. Der neben mir lacht sich tot und sagt,
durchgefallen. Fand ich gut. Der war noch besser. Da kam ich gar nicht drauf. Aber es war klasse. Ich habe dann darauf hingewiesen, es saß kein Dritter im Auto. Es waren nur zwei. Ich glaube nicht, dass es eine Fahrprüfung war. Aber der Kommentar war echt gut. Okay. Wir sind eins durch N minus eins mal H auf D.
Wir setzen einfach ein. Summe J gleich zwei bis N. K von groß X. X ist jetzt unser X1 minus XJ durch H.
Und dann machen sie die Klammer noch zu. Oder ich. Und wir sind glücklich. Okay. Nächster Ausdruck. Wie können wir den vereinfachen?
Ja, das machen wir jetzt genauso. Das heißt, wir vertauschen wieder, ziehen den Erwartungswert aufgrund der Linearität rein und nutzen dann aus X1, XJ ist ja genauso verteilt wie X1, X2. Aufgrund der unabhängigen identischen Verteiltheit.
Das heißt, alle Erwartungswerte, die hier stehen, sind gleich groß. Das heißt, es gibt N minus eins und ich mache jetzt mal den Einzelerwartungswert des N minus eins noch weg. Und ich komme auf eins durch H hoch D mal Erwartungswert von K von X1 minus X2
durch H. Wir haben diesen Ausdruck. Wieder gleiches Argument. Linearität des Erwartungswertes und die Zufallswerte sind unabhängig identisch verteilt. Jetzt müssen wir den Erwartungswert ausrechnen. Wie machen Sie das?
Den sollten wir noch ein bisschen vereinfachen. Dann wären wir fertig. Das ist jetzt die Stelle, wo Sie wieder was Neues einbringen können
in die Vorlesung. Wie kann ich diesen Erwartungswert umformen?
Sie würden es hinschreiben, drin
irgendwas substituieren, dass wir eins durch H hoch D hinschreiben. Aber das wollen wir vielleicht erst mal hinschreiben. Wie würden Sie es hinschreiben? Als Integral? Ja, Integral über was? Wir lassen eins durch H hoch D stehen. Sie machen das als Integral über Dp, ne?
Okay. Genau, Dp. Ja. Und dann? Dann substituieren Sie bei Dp, ne? Dann wechseln Sie aufs Bildmaß von der Verteilung von x1 minus x2 oder von welcher Verteilung?
Von der Produktverteilung, von der gemeinsamen Verteilung von x1 x2, was die Produktverteilung ist. Ist okay. Wir haben unsere... Also, Sie stellen sich vor, wir haben das Integral hingeschrieben. Wir haben auf Bildmaß gewechselt und haben die groß x1 x2 durch klein x1 x2 ersetzt, integrizieren bezüglich der gemeinsamen Verteilung
von x1 x2, d x1 x2, nützen aus, die gemeinsame Verteilung ist aufgrund der Unabhängigkeit des Produkt der Einzelverteilung. Haben wir gemacht. Und dann? Substituieren Sie? Sie substituieren, also jetzt kam der Vorschlag, Sie substituieren bei einem allgemeinen
Maßintegral. Schon mal geschafft. Sie integrieren da gerade bezüglich einer Verteilung, ne? Nicht bezüglich dem Lebesmaß. Also vielleicht kann man es noch irgendwie zurückführen auf den Integral bezüglich dem Lebesmaß. Wir haben die Dichte, genau. Also, Sie multiplizieren mit den Dichten von f und x1, f und x2
machen d x1 d x2 draus. Und genau das machen wir jetzt auf einem Schlag. Wir wissen ja, das sind Dichten, dann haben wir 1 durch h auch d, und ich mach dann Doppelintegral mit Phobini draus, ne? K von x1 minus x2 durch h
mal f an x1 d x1 oder ich meine, wir machen vielleicht direkt f an x1, f an x2 d x1 d x2 und haben jeweils Integrale über rd.
Das ist schon mal ganz nett. Und jetzt könnte man substituieren, dann fliegt das h auch d weg, aber dafür haben wir das h in den Dichten drin, bringt nicht arg viel. Lassen wir vielleicht, sondern stattdessen gucken wir uns jetzt die rechte Seite an. Wenn wir uns die rechte Seite angucken, fällt mir auf, dass ich eine Klammer vergessen habe. Die Klammer, die hier
aufgeht, muss natürlich auch irgendwie wieder zugehen an der Stelle. Und wir müssen jetzt, und mein Vorschlag wäre jetzt, wir formen jetzt einfach die rechte Seite um und zeigen, das ist das gleiche wie die linke Seite.
Dann sind wir fertig. Wir könnten auch mit einem Schlag die linke Seite weiter umformen und auf die rechte Seite zurückbringen, aber das ist ein bisschen schwieriger zu sehen. Deswegen machen wir es vielleicht andersrum. Oder könnten Sie es mit der mit der Umformung auch hier machen, könnten Sie hier eine Umformung machen, dass Sie sehen, dass die rechte Seite rauskommt.
Sie schon wieder, aber Sie werden es das dritte Mal, aber ich habe mehr als einen Hörer. Vielleicht möchte sich interaktiv noch jemand anders beteiligen und nicht wieder in den Bildschirm schreien, das hat keinen Sinn.
Okay, also von dem Anwesen möchte sich jemand interaktiv beteiligen und vorschlagen, wie wir von dem Aufdruck auf dieses Integral kommen über einen Erwartungswert. Das heißt, Sie müssen irgendwo ein 1 durch h auf d mal
Erwartungswert von 1 durch h auf d mal k von x minus x1 durch h rausbekommen. Wie machen Sie das? Wir ändern die Integrationsreihenfolge mit Fobini. Okay, ist geändert.
Und dann das Innere als Erwartungswert schreiben. Aber das Fnx2 würde ja schon draußen stehen. Sie wollen Fnx1 draußen haben oder Fnx2 draußen haben? Also wenn Sie hier ändern, Sie vertauschen die beiden. Richtig? dx1 dx2.
Okay, dann muss das Fnx1 raus. Machen wir das. Und ich ziehe vielleicht noch das 1 durch h auf d rein. Dann komme ich über das Integral von rd. Dann haben wir 1 durch h auf d. k von x1 minus
x2 durch h. Jetzt lassen wir Fnx2 stehen. dx2 dx1. Das war also primär ein Fobini. Aber es war auch noch Linearität des Integrals aufgrund des Faktors rd. Und jetzt
deuten Sie das Innere als Erwartungswert. Das Innere können Sie als Umschreiben als Integral bezüglich der Verteilung von x2 zum Beispiel. Oder von x1 ist es egal. Also Verteilung von x im Prinzip. Ob es x1 oder x2
ist egal. Sie haben die gleiche Verteilung. Also ich nenne es mal als Integralsverteilung von x1. Dann komme ich hier auf und deute es dann als Erwartungswert. Dann habe ich einen Erwartungswert von 1 durch h hoch d mal k von x1 minus
x1 durch h. Ich habe das von x1 vergessen. Oben. Sorry.
Ja, wenn Sie es jetzt scharf angucken, dann sehen Sie, es ist ja egal, ob ich bei der Integrationsvariable x1 oder x schreibe. Weil die ist eine gebundene Variable. Wenn ich die in x umwandel, dann kommt die rechte Seite raus. Und wir
sind fertig. Und wenn Sie das
nicht sofort sehen, dann stellen Sie es andersherum vor. Also Sie würden einfach mit der rechten Seite anfangen. Und dann sieht man es leichter, wenn man es umformen kann in die Integrale. Und dann sehen Sie eben, dass linke Seite gleich rechte Seite ist. Aber ich habe es hier mit einem Schritt gemacht. Und natürlich, wenn Sie
eine Ergänzungsprüfung schreiben und Sie machen eine schriftliche Prüfung, müssten Sie mehr Begründungen dran machen. Das, was ich mündlich gesagt habe. Also irgendwie unabhängig identische Verteiltheit und so weiter. Müssten Sie hier was draufschreiben. Aber die Mehrzahl von Ihnen kriegt
ja jetzt eine mündliche Prüfung. Da könnte man dann nachfragen. Das ist kein Problem. Fragen zu den Beweisungen so weit? Wenn nicht, dann kommen wir. Was machen wir jetzt damit? Die Methode
der L2-Kreuzvalidierung ist nun diesen Ausdruck TNH bezüglich H zu minimieren und dann den Dichteschätzer mit dieser Bandbreite zu wählen. Bei der L2-Kreuzvalidierung
wird nun der Dach unserer Bandbreite ist einfach dasjenige H, der Ausdruck minimal wird. Also Argument vom Minimum über
H größer 0. TN Dach von ich gesetzt. Und unser Dichteschätzer ist dann FNH Dach.
Sie sehen vielleicht sofort, es ist nicht ganz klar, warum dieses Minimum überhaupt existiert. Es ist auch nicht ganz klar, wie Sie dieses Minimum berechnen. Aber beides können Sie einfach lösen. Sie würden sich auf ein Gitter von H-Werten zurückziehen. Also nur endlich viele vorgeben, vielleicht ein Stück.
Also ich würde vielleicht eins durch zwei hoch K nehmen und K läuft irgendwie, oder vielleicht mehr als N von minus N bis N oder so. Dann haben Sie die optimale Bandbreite zumindest bis auf den Faktor 2 darunter. Und wenn Sie es über ein endliches Gitter machen, dann müssen Sie einfach nur alle diese Werte,
den Ausdruck ausrechnen, fertig. Und der minimale ist daneben der, wo es am kleinsten ist. Also Sie müssen entsprechend häufig den Kernlichtgeschätzer auswerten. Sie sehen, es wird langsam. Es wird rechnen, aufwändig, aber im Prinzip trivial.
Okay. Fragen soweit?
Wenn Sie keine Fragen haben, dann habe ich eine Frage. Lemma 2.13. Wir haben gezeigt, der Erwartungswert von dem Ausdruck stimmt mit dem Ausdruck, den wir eigentlich minimieren wollen, überein. Aber was bringt das, das man überlegt? Weil wir sagen, Sie haben einen erwartungstreuen Schätzer.
Ich kann auch den Erwartungswert sofort erwartungstreu schätzen durch X1. Also ausgehend von einer Stichprobe X1 bis Xn von X, schätze ich den Erwartungstreu durch X1. Und das ist ein wunderschöner Erwartungstreuer Schätzer. Aber er ist nicht sinnvoll, weil als ein Totisch nicht das Richtige rauskommt.
Das heißt, ist es hier irgendwo ein Problem? Ja, es ist hier schon ein Problem, weil ich habe ja gesagt, wir schätzen den Erwartungswert. Und wir schätzen ja eigentlich gerade den Erwartungswert von diesem Ausdruck hier, von dem Integral, von dem Schätzer zum Quadrat,
schätzen wir durch den Ausdruck selber. Es ist ja nicht ganz einfach einzusehen, warum der Erwartungswert von dem Ausdruck selber gegen den Ausdruck konjugieren soll. Man kann sich hier noch irgendwie vorstellen, ja, Sie haben ja so ein arithmetisches Mittel. Arithmetische Mittel werden schon irgendwie gegen den Erwartungswert konjugieren. Das ist auch, wenn da Zufallsvariabeln mehrfach verwendet werden.
Aber das kann man sich einigermaßen vorstellen. Aber das wirkt irgendwie ein bisschen strange, kann man sagen. Man kann auf zwei Arten damit umgehen. Entweder man sagt, okay, wir versuchen gar nicht den erwarteten L2-Fehler zu minimieren, sondern wir minimieren eigentlich den L2-Fehler. Und auch dann könnten Sie, da hätten Sie überall den
Erwartungswert weggelassen, auch dann könnten diese Ausdruck keine Rolle. Und dann schätzen Sie eben diesen Ausdruck durch den hier. Aber dann hätten Sie einen Schätzer, der ist erwartungstreu, aber ist da wirklich nahe am zufälligen Wert. Wäre die Frage. Oder Sie argumentieren, aber in beiden Fällen würde man eigentlich argumentieren, dass der Ausdruck selber, also entweder dieses
Integral hier, oder dieses Integral übers Quadrat, eigentlich nahe an seinem Erwartungswert sind. Das sehen Sie hier eigentlich bei diesem Integral ohne Erwartungswert sehen Sie es fast sofort, wenn Sie den Schätzer einsetzen, weil der Schätzer ja so ein arithmetisches Mittel ist. Das heißt, es könnte schon nah am Erwartungswert dran sein. Und Sie sehen es eigentlich auch hier fast
sofort, wenn Sie den Schätzer einsetzen, weil Sie bekommen auch, wenn Sie die Summe ausmultiplizieren und es eins durch n rausziehen, bekommen Sie auch so ein arithmetisches Mittel. Jetzt nicht mehr über Zufallsvariablen, die so richtig unabhängig sind, aber viele von denen sind unabhängig. Und das klappt dann eigentlich auch. Weil das war der Trick, dass der zufällige Wert eben auch nahe am
Erwartungswert ist. Müssen wir Ihnen Beweisen zeigen. Aber ich werde keine Konsistenzaussage oder Konvergenzgeschwindigkeitsaussage für die L2-Kreuzvalidierung herleiten. Das wäre eine Aussage, Sie wählen die Bandbreite gemäß der L2-Kreuzvalidierung, und dann ist Ihr erwarteter L2-Fehler kleinergleich als der
minimal erwarteten L2-Fehler plus einen kleinen Federterm. Sowas wäre die entsprechende Theorie. Aber das ist mir hierzu kompliziert. Wir werden stattdessen im zweiten Teil der Vorlesungen dann ein zweites Verfahren kennenlernen, für den L1-Fehler, und da werden wir auch eine Theorie dazu kennenlernen. Okay, Sie haben noch eine Frage?
Minimumswellens anbeißt Estimeter, bin ich mir jetzt nicht sicher, ob der, ach so, Minimumswellens anbeißt, natürlich, Sie können sagen, wir gucken uns hier erwartungstreue Schätze an, und dann wollen wir die Varianz minimieren.
Wir haben erwartungstreue Schätze, aber Sie sehen natürlich nicht, dass ich hier irgendwie die Varianz minimiere. Das mache ich eigentlich nicht. Also, Sie haben Recht in der Statistik, würden wir einfach sagen, wenn ich optimale Schätze definiere, wir haben uns zum Teil auf erwartungstreue Schätze zurückgezogen, dann die Varianz minimiert und dafür untere Schranken mit Kramerao angegeben. Das wäre so die
Richtung. Aber eine Varianz minimieren Sie hier eigentlich, oder ich gehe nicht ein auf eine Varianzminimierung. Ich zeige eben nur die Eigenschaft der Erwartungstreue. Das ist schonmal eine sinnvolle Eigenschaft, aber ist natürlich nicht alles.
Ich versuche möglichst nahe am Erwartungswert zu bleiben und versuche deswegen die Streuung am kleinsten zu sehen. Also, ich könnte das Ziel hier verschieden formulieren. Ich habe das gesagt, es ist ganz klar, wir minimieren eigentlich den mittleren L2-Fehler
und nicht den L2-Fehler selber. Und das würden Sie mit einer Kreuzvalidierung normalerweise eigentlich auch raussagen. Aber ich könnte auch versuchen, eine Herleitung zu machen, wo ich sage, die Kreuzvalidierung versucht den L2-Fehler zu minimieren. Aber das liegt daran, weil dieser L2-Fehler selber auch wieder nahe an seinem mittleren Wert ist. Oder auch, wir haben es für einen L1-Fehler in der Vorlesung mathematischer Statistik gesehen.
Der L1-Fehler war recht nah am Erwartungswert, konnte man relativ leicht zeigen. Da gibt es sogenannte Stabilitätsaussagen. Deswegen ist es eigentlich so ein bisschen egal, ob ich sage, ich möchte den L2-Fehler minimieren oder den mittleren L2-Fehler. Aber so ganz, ganz klar ist es nicht. Okay, ich hoffe, ich habe so ein bisschen beantwortet.
Okay, noch Fragen? Dann würde ich 5 Minuten Pause machen zum Tafelwischen und wir machen dann um 10 Uhr 41 weiter. Ja, würde ich ganz gern weiter machen. Kommen wir zur Abschnitt 2-4-2, die kombinatorische
Methode zur Bandbreitenwahl.
Das Ziel ist jetzt diesmal, wir wollen den L1-Fehler minimieren, bezüglich
H. Und im Prinzip könnten wir auch einen Erwartungswert hinschreiben, letzten Endes minimieren wir den Erwartungswert davon. Aber wie gesagt,
diese ganzen L1, L2-Fehler sind eigentlich nahe am ihrem Erwartungswert. Da gibt es auch wieder Aussagen. Also schreibe ich es mal hier ohne Erwartungswert. Wir wissen erst mal, das können wir mit Chefet umschreiben, nach Chefet.
Chefet war insbesondere auch die Aussage drin, das ist zweimal der Positivabstand zwischen FnH und F oder zweimal der Positivabstand zwischen F und FnH. Und das schreibe
ich jetzt nochmal ein bisschen um. Wenn Sie sich überlegen, was ist der Positivabstand? Der Positivabstand ist eigentlich das Integral über die Differenz von FnH und F über die Menge, wo FnH größer als F ist. Wenn ich diese Menge mal abstrakt als
A bezeichne, dann hätte ich also zweimal Integral über A FnH von x minus F von x dx. Kann ich die Linearität des Erwartungswertes ausnutzen, des Integrals ausnutzen, ist also zweimal dann das Integral über A Fn von x minus Integral über A F von x. Mit A wäre die Menge, wo
FnH von x größer als F von x ist. Also Menge aller x, wo FnH von x größer als FnH ist. Genau umgekehrt kann ich es auch machen mit der Menge, wo F größer als FnH ist und kann es hier auch umschreiben als zweimal das Integral über die Menge, wo F größer als FnH ist von F von x minus das Integral über die Menge, wo F größer als
FnH ist von FnH von x. Und dann sehen Sie, dass das Gleiche kann ich eben auch schreiben als das Maximum von den beiden Ausdrucken. Und bei den beiden Ausdrucken kann ich im Prinzip auch, also die waren beide positiv, ich kann einen auch negativ nehmen, also mit minus eins modifizieren, aber dafür dann
Beträge drum rumsetzen. Dann kommen wir auf Integral über ich mach vielleicht A ist aus dem Mengensystem der Mengen, ich mach zwei Mengen. Das eine ist, wo FnH größer als F ist. Die zweite Menge ist, wo F größer als FnH ist.
Das lass ich für A zu. Und dann betrachte ich den Betrag vom Integral über A FnH minus dx
F und x dx. Und ich hab hier die Schreibweise verwendet, die Menge F größer als G, für Fg von Rd nach R sei die Menge aller x, wo F und x größer als G von x ist.
Also das ist der erste Trick, wobei die ersten beiden Gleichheitszeichen kennen Sie aus Chefe und das dritte ist eine Folgerung draus. Wenn Sie sich einfach klarmachen,
je nachdem, welche Menge ich hier einsetze, steht eben einmal da, wenn ich als A nehme, die Menge der x, wo FnH von x größer als F von x ist, dann ist dieses Integral von FnH von x über A dx minus Integral über A F und x dx, ist gerade das Integral über den
Positivabstand von FnH und F. Andererseits, wenn ich die andere Menge nehme, wo F größer als FnH ist, steht hier gerade minus das Integral über den Positivabstand von F und x FnH von x. Beide Einzelintegrale sind jeweils
bis auf dem ein Halbmal der L1-Fehler. Das heißt, wenn ich einen Betrag nehme, einmal steht ein halbmal der L1-Fehler da, einmal steht minus ein halbmal der L1-Fehler da, Betrag nehme und ich habe die 2 vergessen. Die 2 bleibt natürlich stehen, Die 2 bleibt stehen.
Vielleicht sollte ich es noch farbig machen, weil ich es nachträglich eingefügt habe. Wenn Sie die 2 noch dran multiplizieren, bekommen Sie eben genau den L1-Fehler raus. Also bilden Sie das Maximum über 2 Thermen, die beide gleich sind.
Und beide Thermen sind ein halbmal der L1-Fehler. Nachdem das 2 Zeilen drüber steht. Okay, das ist der erste Schritt.
Und jetzt eben anstelle von dem L1-Fehler zu minimieren, minimieren wir diesen Ausdruck. Bei diesem Ausdruck das erste Problem ist oder das Hauptproblem ist, wir kennen die Mengen nicht. Weil in diesen Mengen, die Sie gerade nehmen, da steckt ja
wieder die unbekannte Dichte drin. Aber der Trick ist, und das wird sich später herausstellen im Beweis, der nachher folgt, dass es ausreicht, wir können einfach F durch einen Kerndichte ersetzen mit einer anderen Bandbreite. Das heißt,
anstelle der in einer Anwendung unbekannten Mengen,
das sind die beiden Mengen F und H größer F
und F größer F in H, verwenden wir eben F in H1 größer F in H2
für H1, H2 größer 0. Und ich werde dann ziemlich viele von diesen zulassen. Das ist der erste Trick. Dann muss ich das Integral über A, F und X
kennen ich auch nicht. Also, bald ich die Menge hier habe, kann ich natürlich auch dieses erste Integral ausrechnen. Weil das ist ja mein Schätzer. Aber das zweite kenne ich nicht. Und wir schätzen,
wie können Sie das schätzen? Naja, das schätzen wir einfach durch eine empirische Verteilung. Das ist einfach die Wahrscheinlichkeit, dass X in A liegt. Wir haben aber die X1 bis Xn gegeben. Wir gucken einfach, wie viele unserer Xi liegen in A teilen durch n. Durch, das nenne ich
µn, µn von A, 1 durch n. Das gibt 2015
den Schätzer. Und dann brauchen wir noch eine Modifikation, nämlich wir müssen, um das nachher theoretisch analysieren zu können, führen wir in 2015 eine Unterteilung der Stichprobe durch.
Sodass diese Schätzer FNH1, FNH2, verwenden nur einen Teil der Daten. Und bei der empirischen Maß verwende ich den Rest der Daten. Also zusätzlich wird in 2015 noch eine Unterteilung der Stichprobe durchgeführt.
Und das ist die Grundidee von dem Verfahren. Und jetzt schreibe ich es Ihnen mal formal hin, wie es funktioniert.
Also, dies führt auf. Ich fange an mit einer Menge von möglichen Bandbreiten,
die ich berücksichtige. Die nenne ich mal so kalligraphisch P. Und ich mache sie vereinfachernd endlich. Ich zerlege dann meine Stichprobengröße n in Lerndaten und Testdaten.
Das heißt, ich sage, mein n ist gleich nl plus nt. Bei den n könnten sie zum Beispiel gleich groß aufteilen.
Dann führ ich meinen Kerndichteschätzer ein, nur mit den Lerndaten. Das heißt, ich habe fnl von h, h von x. Das ist eben der Kerndichteschätzer, der nur die Daten x1 bis xnl verwendet.
Das gibt dann 1 durch nl. Mal h auf d. Und dann mache ich meine Schätzung
von einem Maß von einer Menge a durch eine empirische Verteilung, die den Rest der Daten verwendet. Das ist also
1 durch nt, mal Summe i gleich nl plus 1 bis nl plus t. Das obere Index wäre n,
1a von xi. Und was ich jetzt mit der kombinatorischen Methode mache, die kombinatorische Methode wählt dann hdach.
Ich gucke mir diejenige...
diejenige Bandbreite h aus meiner endlichen Menge p, also ich mache einen arg min h aus p, die den folgenden Ausdruck minimiert und der folgende Ausdruck ist unser Maximum von da vorne ohne das 2, also Maximum über so einen Betrag a aus einem geeigneten Mengensystem
Skript a, was ich unten definiere, integral über a f n l h von x, d x minus y n t von a und jetzt muss ich Ihnen noch verraten, was a ist. Skript a sind alle möglichen Mengen,
wo f n l h 1 größer als f n l h 2 ist, mit h 1 h 2 aus h, also h 1 h 2 aus meiner Parametermenge,
h 1 ungleich h 2, sonst wäre es ja irgendwie die leere Menge, wäre uninteressant.
Ja, und dann ist der Dichteschätzer, wenn Sie das gemacht haben und setzt unser f n dach von x,
der Dichteschätzer, wir nehmen den Kerndichteschätzer mit Stichprobenumfang m l und die Bandbreite h dach. Ach so, und das da oben habe ich noch als 2,16 bezeichnet und das da ist 2,17 und das ist unser Vorgehen.
Die Motivation war nochmal, ich habe das am Anfang umgeschrieben als so ein Maximum von dem Ausdruck,
den ich hier auch betrachte, ich habe auch ein Maximum, den gleichen Ausdruck haben wir ja auch, nur in diesem Ausdruck habe ich eben das zweite, das Integral über a f von x, d x, das schätze ich jetzt durch my n t von a, durch ein empirisches Maß und dann bei den Mengen nehme ich ein anderes Mengensystem, weil ich die Dichte nicht kenne. Das sind die zwei Modifikationen und dann ist natürlich nicht ganz klar,
ob diese Modifikationen irgendwas ausmachen oder nicht was ausmachen, dass es eine gute Idee ist, zeigt das nachfolgende Lämmer. Oder haben Sie so weit Fragen? Fragen soweit?
Wenn Sie keine haben, mache ich direkt das Lämmer und wir machen vielleicht mal das Lämmer hier hin noch und den Beweis dann daneben. Das gibt Lämmer 2,14, mit den obigen Bezeichnungen gilt.
Der L1-Fehler von unserem ausgewählten Dichteschätzer ist leider gleich dreimal über den minimalen L1-Fehler, also h aus p über den L1-Fehler,
plus viermal einem Fehlertherm Delta und dieses Delta ist das Maximum über alle a aus Crypta,
Betrag von Integral a f von x, d x, minus my n t von a. An der Stelle schauen Sie sich ein Stichprobenmittel minus seinen Erwartungswert,
also das my n t von a, wenn Sie den Erwartungswert ausrechnen von diesen einzelnen Zufallswariabeln, 1 a von x i ist ja gerade das Integral über a f von x, d x an.
Und dann sehen Sie, für ein einzelnes a, wenn ich nur ein einzelnes a ansetze, das konjugiert gegen Null, für N gegen Endlich fast sicher, wenn n t gegen Endlich geht fast sicher nach dem starken Gesetz der großen Zahlen. Sie haben in der mathematischen Statistik Aussagen kennengelernt, wann das auch über so ein Mengensystem gilt und hier haben wir vereinfachend,
weil ich die Indexmenge als Endlich vorausgesetzt habe, auch das Mengensystem als Endlich, dann wissen Sie auch, das konjugiert ziemlich schnell gegen Null, nämlich sowas wie eins durch Wurzelhaus n t. Das heißt, der Fehler, den wir hier machen, liegt in der Größenordnung eins durch Wurzelhaus n t und wir approximieren also den L1-Fehler durch, oder der L1-Fehler unseres Verfahrens
ist kleinergleich dreimal dem optimalen L1-Fehler plus irgendwas, was Größenordnung eins durch Wurzelhaus n t hat, was ziemlich schwer ist. Okay, jetzt so weit fragen, wenn nicht, dann zeigen wir das direkt.
Es gibt den Beweis, der geht im Prinzip relativ simpel, ein bisschen drückreich, aber ich nutze aus, das P ist Endlich, deswegen die ganzen Minima und so weiter maximal existieren, wunderschön.
Ich bezeichne mal mit H quer diejenigen Bandbreite, wo der L1-Fehler minimal wird,
also H quer L aus P n aus P mit Integral H quer von x, das ist der erste Schritt.
Also H quer sei dasjenige, wo das minimal wird, existiert, weil meine Menge P Endlich ist. Dann gilt, wir gucken uns den L1-Fehler an.
Wir verwenden die Dreiecksungleichung, das ist kleinergleich als dem L1-Abstand zwischen Fn Dach von x und Fn L H quer und dem L1-Abstand von Fn L H quer von x und F von x.
Beim ersten nutze ich aus, dass Fn Dach von x ja unser Fn L H Dach war
und dann das zweite war ja nach Definition gerade mal ein Minimum über alle L1-Fehler
und das Ganze folgt aus der Dreiecksungleichung und eben der Definition von Fn Dach und Fn L H quer.
Also nur Minus Fn L H quer dazwischen geschoben, plus Fn L H quer mit der Dreiecksungleichung auseinandergezogen und dann die beiden Terme jeweils umgeschrieben. Das da ist gerade Fn Dach und der L1-Fehler von dem Term hier ist gerade der minimale L1-Fehler nach Wahl.
Okay, dann schätzen wir diesen L1-Fehler. Also der Term ist schon richtig, der kommt nach in unsere Oberschranke übrig bleiben, den schätzen wir hier noch ab,
sowie jetzt fangen wir an mit Integral Rd, Betrag von Fn L H Dach von x minus Fn L H quer von x dx.
Ich nutze das aus, was wir als Motivation gesehen haben. Ich konnte den L1-Fehler umschreiben als zweimal so ein Maximum. Das war zweimal ein Positivteil oder zweimal ein Negativteil. Diesen Positivteil, Negativteil schreibe ich ein bisschen komplizierter als Integral über a über die beiden Mengen,
wo Fn L H Dach größer als Fn L H quer ist oder eben nicht.
Die beiden Mengen und dann kommt dieser Betrag von Integral über a, Fn, ja, über die beiden Dichten, die ich habe.
Fn L H Dach von x dx minus Integral über a Fn L H quer von x dx.
Das war die Folgerung aus Cheffé, die wir schon ganz zu Beginn hatten. Einfach weil unser Kern-Dichteschätzer war ja jeweils eine Dichte.
Hier stehen zwei verschiedene Dichten. Der L1-Abstand von zwei Dichten war zweimal den Positivteil oder zweimal den Negativteil von dem Abstand. Und das habe ich hier nur ein bisschen komplizierter umgeschrieben.
Jetzt haben Sie hier Mengen drin, nämlich der eine Dichteschätzer ist größer als der andere, die auch genau alle in unser Mengensystem Skript a auftauchen. Das heißt, wenn ich hier das Maximum nicht über die beiden Mengen bilde, sondern über Skript a wird es größer. Also kleiner gleich als zweimal. Also hier ist letztendlich eine Folgerung aus Cheffé oder Sie hier oben.
Hier mache ich jetzt das Maximum über alle Mengen a aus Skript a.
Und das wäre einfach die Definition von a. Definition von Skript a, das Mengensystem größer.
Soweit klar, oder fragen?
Jetzt ziehe ich an der Stelle Mühe in T von a ab und ladiere es wieder dazu. Und dann ziehe ich mit der Dreiecksunggleichung des beiden den Betrag verwandel ich in eine Summe von zwei Beträgen, wo die ganze Sache größer gleich. Maximum über eine Summe ist kleiner gleich dem Maximum über die ersten Summanden plus Maximum über die zweiten Summanden. Als letztendlich eine Dreiecksunggleichung.
Dann kommen Sie auf zweimal Maximum a Element a Skript a f n l h Dach von x d x minus Mühe in T von a plus zweimal wieder Maximum a aus Skript a.
Und jetzt das Gleiche entweder Mühe in T minus dem Integral über f n l h quer. Aber in dem Betrag kann ich auch die Reihenfolge ändern. Integral über a f n l h quer von x minus Mühe in T von a.
Also sind Sie soweit.
Okay, jetzt können wir die Definition unserer Schätzer auswenden. Unser h Dach war ja so gewählt, dass der Ausdruck, der hier steht, im Vergleich zu allen anderen h aus P minimal ist.
Dann wissen wir sofort, der erste Ausdruck hier ist kleiner gleich dem zweiten Ausdruck hier. Das heißt, ich kann das Ganze abschätzen durch viermal den zweiten Ausdruck. Das machen wir jetzt nach Definition h Dach. Viermal Maximum a aus Skript a.
Also ich bekomme viermal den zweiten Ausdruck.
Ja, und jetzt muss ich das noch irgendwie zurückführen auf einen 1-Fehler und auf meinen Delta. Meinen Delta bekomme ich sofort, wenn hier nicht mehr der Schätzer stehen würde, sondern wenn meine wahre Dichte stehen würde, dann wäre das mein Delta. Das heißt, wir ergänzen Minusintegral über a f von x dx plus Integral a f von x dx und spalten es mit der Dreiecksunggleichung nochmal auf.
Kommen wir auf Kleiner Gleichung, also wieder Dreiecksunggleichung. Kommen wir auf viermal Maximum.
Und vielleicht kann ich jetzt ein bisschen abkürzen, weil jetzt müsste ich den gleichen Ausdruck nochmal hinschreiben. Ja, doch, ich schreibe den gleichen Ausdruck nochmal hin. Aber meine Tafel ist endlich nicht, ich schreibe den ersten Ausdruck nicht hin.
Ich mache viermal Delta und benutzen die Definition von Delta aus auch noch. Also Sie fügen Integral über a f von x dx, ziehen Sie einmal ab, addieren Sie wieder dazu.
Wenn Sie es dazu addieren und davon Minusint von a abziehen, dann den Betrag bilden und das Maximum über alle a bilden, dann kommt gerade Delta raus nach der Definition.
Ja, jetzt machen wir die erste Menge noch größer. Statt a, Mengensystem a, nehme ich alle Borellmengen. Also ich habe implizit natürlich vorausgesetzt, dass meine Schätzer messbare Funktionen sind. Damit ist natürlich der eine Schätzer größer als die zweite Schätzer, ist eine Borellmenge. Das heißt, ich habe hier viermal, Kleiner Gleich viermal den Supremum über alle a aus Wd, a quer von x, Minusintegral a f von x dx plus 4 Delta.
Und damit sind wir fertig, weil der letzte Ausdruck ist nach Cheffé. Also zweimal das Supremum ist nach Cheffé gerade der L1-Abstand. Also nach Cheffé ist es gleich zweimal Integral f n l a quer von x, Minus f von x dx Rd.
Die vier Delta schreibe ich ab. Und wenn Sie jetzt beide Aussagen zusammennehmen.
Wir hatten den L1-Fehler abgeschätzt als den ersten Term, der gerade zweimal der L1 -Fehler von dem f n l a quer war plus 4 Delta plus den zweiten Term. Der zweite Term ist der L1-Fehler von dem f n l a quer. Und der L1-Fehler von dem f n l a quer war unser minimaler L1-Fehler.
So ja, dann gilt so wie und daraus folgt die Behauptung. Und wir sind fertig.
Fragen soweit. Der Beweis ist eigentlich relativ simpel. Man muss halt die paar Tricks trennen. Ich lade Ihnen heute Nachmittag noch die Liste der Prüfungsfragen vor die vorläufige Version. Das ist eine der Prüfungsfragen.
Beweisen Sie dieses Lämmer. Zweite wäre, erläutern Sie die kombinatorische Methode. Und dritte wäre, erläutern Sie die L2-Kreuzvalidierung. Das waren die Prüfungsfragen zur heutigen Vorlesung. Gut, dann wäre ich soweit fertig und wir sehen uns am nächsten Mittwoch.