We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Kreuzvalidierung

00:00

Formal Metadata

Title
Kreuzvalidierung
Title of Series
Number of Parts
13
Author
License
CC Attribution - NonCommercial - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Linear regressionEstimationRegressionsschätzungPartition of a setParameter (computer programming)EstimatorMathematical financeSample (statistics)VersicherungsmathematikMathematicianAdditionIndexSet (mathematics)Computer animationLecture/Conference
SequenceEstimatorLogarithmAbschätzungLogical constantOrder of magnitudeBerechnungEnde <Graphentheorie>Nichtparametrische RegressionSquareSummationMathematicianMach's principleSet (mathematics)ForestVersicherungsmathematikParameter (computer programming)Linear regression
Partition of a setSample (statistics)Set (mathematics)EstimatorVelocityINTEGRALExponentiationExpected valueKernschätzungRegressionsfunktionLogical constantRate of convergenceAtomic nucleusAbsolute valueSquareLecture/Conference
EstimatorAbschätzungForestParameter (computer programming)Ende <Graphentheorie>VarianceSet (mathematics)VelocitySample (statistics)Partition of a setFactorizationStatistical hypothesis testingGreatest elementConditional expectationBounded setLinear regressionContinuous functionRegressionsfunktionCross-validation (statistics)Logical constantSquareKernschätzungRate of convergenceLecture/Conference
Partition of a setExpected valueCross-validation (statistics)EstimatorSample (statistics)VariancePartition of a setValidationTessellationLecture/Conference
Natural numberParameter (computer programming)EstimatorSampling (statistics)Cross-validation (statistics)Mathematical optimizationSummationMittelungsverfahrenIndexSample (statistics)Variety (linguistics)Maxima and minimaAdditionCoefficient of variationStructural loadLecture/Conference
Mathematical statisticsSampling (statistics)EstimatorSample (statistics)Empirischer ProzessPartition of a setEstimationExpected valueMathematical optimizationMittelungsverfahrenParameter (computer programming)SquareSummationConditional expectation6 (number)Cross-validation (statistics)RegressionsfunktionKernschätzungLecture/Conference
EstimatorFunction (mathematics)Conditional expectationSet (mathematics)Sample (statistics)Function spaceApproximationSampling (statistics)Maxima and minimaLinear regressionRegressionsfunktionSquareSummationEstimationLecture/Conference
Expected valueRegressionsfunktionGreatest elementLogical constantRate of convergenceAbschätzungArithmetic meanFunction (mathematics)Ende <Graphentheorie>Sample (statistics)EstimatorFunction spaceSummationTerm (mathematics)SquareMittelungsverfahrenWell-formed formulaLinear regressionEstimationVelocityLecture/Conference
Witt algebraSupremumLogical constantRegressionsfunktionExpected valueRegressionsschätzungWell-formed formulaFunction spaceSquareAbschätzungSample (statistics)Raum <Mathematik>Grand Unified TheoryMittelungsverfahrenFunction (mathematics)Linear regressionInequality (mathematics)EstimatorLecture/Conference
SupremumMassFinite setWell-formed formulaFunction (mathematics)Absolute valueSet (mathematics)WahrscheinlichkeitsmaßIndexPhysical quantityL-p-NormEuropean Physical SocietyRaum <Mathematik>Function spaceLecture/Conference
Function (mathematics)Open setFunction spaceSet (mathematics)Finite setMassIndexRadiusÜberdeckung <Mathematik>Vector graphicsFunktionenalgebraWahrscheinlichkeitsmaßPoint (geometry)Lecture/Conference
SummationAbsolute valueÜberdeckung <Mathematik>MathematicsIndexZahlMathematical statisticsLecture/Conference
Transcript: German(auto-generated)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung in der nicht-parametrischen Regressionsschätzung. Ich habe nochmal die Folie aufgelegt mit den Hinweisen zur Prüfungsanmeldung. Ich habe ja diejenigen gebeten, die sich zur
Vertiefung anmelden wollten, entweder nicht-parametrische Regressionsschätzung und Schadenversicherungsmathematik oder nicht-parametrische Regressionsschätzung und die Einführung in die Finanzmathematik von Sommersemester 10, sich bis zum 10.06., also diese Woche noch, bei Frau Frohn per E-Mail anzumelden. Unter Nennung der Prüfungsfecher, Terminwunsch, Name, Vorname, Telefonnummer und E-Mail-Adresse.
Sie können sich danach auch noch anmelden, wäre kein Problem. Nur nächste Woche würde ich dann eben auch die bitten, die im Nebenfach entsprechend die Prüfung machen, sich da anzumelden. Dann sind eben die Termine schon langsam weg irgendwann. Also ich habe dann eben weniger Flexibilität bezüglich den Terminen.
Als Termine hatte ich vorgegeben, den Mittwoch 20.07., 10.08., 17.08., 24.08. bis 31.08. Ich weiß nicht, ob noch alle frei sind. Ich vermute aber, dass Sie bei jedem der einzelnen Termine noch was bekommen zurzeit. Ansonsten könnten Sie die Prüfung auch erst später bei mir im Wintersemester machen, wenn Sie wollen. Das wird kein Problem sein.
Okay, also nur, wer sich noch anmelden will, könnte es bis zum 10.06. machen. Danach hat er ein bisschen weniger Vielfalt bezüglich den Terminen. Okay, dann beim letzten Mal haben wir behandelt die Unterteilung der Stichprobe. Wir unterteilen unsere Stichprobe, bestehend aus N-Daten in zwei Teile.
Erstens die Lerndaten, DNL, bestehend aus dem X1, Y1 bis XNL, YNL und den Testdaten, die Datenpunkte mit Index NL plus 1 bis NL plus NT. Wobei NL und NT beide größer gleich ein sind und zu N addieren.
So dann definieren wir für jeden Parameter H aus unserer Parametermenge mit Hilfe der Lerndaten einen Schätzer MNLH von X. Das heißt, der Schätzer verwendet den Parameterwert H und die Datenmenge DNL.
Wir werten dann dessen empirisches L2-Risiko auf den Testdaten aus. Das heißt, wir berechnen für alle möglichen H den Ausdruck 1 durch NT, Summe I gleich NL plus 1 bis N, YI minus MNLH von XI zum Quadrat.
Das heißt, wir setzen hier die Datenpunkte ein, die wir bei der Berechnung des Schätzers MNLH nicht verwendet haben. Und wählen dasjenige H, das diesen Ausdruck bezüglich der Parametermenge minimiert. Und setzen dann unser MNLH Dach von X, DNL.
Wir haben dann den folgenden Satz gezeigt. Wenn Y betragsmäßig durch L beschränkt ist, auch die ganzen Schätzer betragsmäßig in der Supremumsnorm durch L beschränkt sind für alle Parameter, für ein 0 kleiner, L kleiner und endlich, dann gilt für jedes Delta größer 0 die Folgen der Abschätzung des L2-Fehlers.
Der erwartete L2-Fehler ist leider gleich 1 plus Delta mal dem minimalen erwarteten L2-Fehler von den Schätzern MNL oben H. Also von den Schätzern, die nur die Lerndaten verwenden. Plus einem zusätzlichen Fehler der Größenordnung Konstante mal 1 plus Logarithmus von Kardinalität von PN geteilt durch NT.
Wobei wir das C exklusiv angeben konnten in Abhängigkeit von Delta. Okay, Fragen soweit?
Frage zur Prüfung, okay. Okay, wie sieht es mit den Prüfungsfragen aus? Also es gibt Prüfungsfragen zur nichtparametrischen Regression. Da habe ich in den ersten Teil schon in Tukan reingesetzt. Den weiteren mache ich wahrscheinlich heute folgens oder so oder beziehungsweise bis
zum bis zur letzten Vorlesung oder vorletzten Vorlesung sind sie dann alle online. Es gibt Prüfungsfragen von mir zur Einführung in die Finanzmatematik. Und es gibt Prüfungsfragen, wird Prüfungsfragen von Herrn Lassi zur Einführung in die Finanzmatematik geben. Die Prüfungsfragen von Herrn Lassi werden einigermaßen nahe dran sein an den Prüfungsfragen von mir, sodass eigentlich beides ungefähr das Gleiche sein sollte.
Aber Herr Lassi wollte es halt unter Umständen noch ein bisschen umformulieren. Bei der mündlichen Prüfung wird es jetzt so sein, dass beim Teil der mündlichen Prüfung Herr Lassi und ich anwesend bin. Beim Teil der mündlichen Prüfung werde ich mit Herrn Jones machen. Wenn ich es mit Herrn Jones mache, werde ich alle Fragen stellen und werde nur Fragen aus meinen Prüfungsfragenkatalogen verwenden.
Wenn Herr Lassi anwesend sein wird, wird er die entsprechenden Fragen aus seinem Katalog stellen zur Schadenversicherungsmatematik. Das heißt, die Prüfung wird leicht verschieden ablaufen, je nachdem, bei wem Sie letzten Endes sind. Ich sage Ihnen momentan noch nicht, bei welchem Termin Herr Lassi ist und bei welchem ich.
Oder ich bin bei allen, aber bei welchem auch Herr Lassi ist, sage ich Ihnen vorher nicht. Beziehungsweise ich sage Ihnen jetzt noch nicht, bevor Sie sich angemeldet haben. Dann erfahren Sie es vorher. Den sollte ich vielleicht in Toucan hochladen. Also wofür nehmen wir meinen Katalog?
Das heißt, ich sollte Prüfungsfragen Schadenversicherungsmatematik in Toucan hochladen. Da haben Sie vollständig recht. Das mache ich noch die Woche. Also Sie werden es dann auch auf der Homepage von der nicht parametrischen Rekessonschätzung finden. Okay.
Und die von Herr Lassi, ich gehe davon aus, dass die recht ähnlich sind. Er wollte einzelne Modifikationen vornehmen, Fragen vielleicht ein bisschen klarer formulieren oder noch ein, zwei zusätzliche Inhalte reinbringen. Aber letzten Endes sollte es das Gleiche sein. Gut. Sonst noch Fragen?
Die, die die Veranstaltung einzeln hören und das nicht als Vertiefung abprüfen lassen, werden die Prüfung bei Herrn Lassi machen. Ist richtig. Also haben Sie dann weniger Termine zur Auswahl? Vermutlich haben Sie mehr Termine zur Auswahl, weil Herr Lassi ja den Termin dann einzeln mit Ihnen macht.
So gesehen. Genau. Die nicht parametrischen Rekessons machen Sie bei mir. Das andere machen Sie bei Herrn Lassi. Noch Fragen? Und ich vermute mal, dass Herr Lassi mehr Termine hat als ich. Also das ist meistens so.
Gut. Dann schiebe ich mal den beiseite. Dann wollte ich ein Korrelar formulieren. Zum Satz 5.1 gibt Korrelar 5.1.
Korrelar 5.1. Verteilung von XY erfülle. Also ich schreibe einfach nur XY erfülle.
Und ich setze voraus erstens, dass X beschränkt ist. Also Support von X ist beschränkt.
Zweitens, Y soll betragsmäßig beschränkt sein. Also ich könnte wieder schreiben, Support von Y soll beschränkt sein. Ich schreibe, weil es diesmal Y ist reellwertig, X ist RW-wertig. Schreibe ich Betrag von Y kleiner gleich L fast sicher.
Für ein L größer 0. Und drittens, ich brauche die Regressionsfunktion soll Hölderstätig sein. Mit Exponent P und Konstanten C.
Also drittens, es existiert ein P in 0 und 1 und ein C größer 0. Sodass für alle XY-Nossen Support von X gilt M von X minus M von Z ist kleiner gleich C mal Norm von X minus Z hoch P.
Mn sei der Kernschätzer mit naiven Kern. Datenabhängige Bandbreite sei aus der Menge 2 hoch K. K aus minus N bis N mit Hilfe des Verfahrens der Unterteilung der Stichprobe gewählt.
Wir wählen Trainingsdaten gleich Testdaten ungefähr halbe Datenmenge. Also sei Mn der Kernschätzer mit naiven Kern.
Wobei Bandbreite aus der Menge 2 hoch K, K läuft von minus N bis N.
Mit Hilfe des Verfahrens der Unterteilung der Stichprobe gewählt wird.
Wobei wir eben nL gleich oder ungefähr gleich nT ungefähr gleich n halbe setzen.
Und die Aussage ist, dann gilt der erwartete L2-Fehler von dem Schätzer. Der Schätzer konvergiert gegen 0 mit der optimalen Konvergenzgeschwindigkeit N hoch minus 2P durch 2P plus D.
Also Erwartungswert von Integral Mn von X minus M von X zum Quadrat Px dx ist gleich O von N hoch minus 2P durch 2P plus D.
Okay, beweisen müssen wir eigentlich nichts dran. Das folgt, ist ja ein Korrular, folgt unmittelbar aus den Sätzen 5, 1 und dem Korrular 3, 1. Korrular 3, 1 war die Konvergenzgeschwindigkeit des Kernschätzers.
Also Beweis folgt aus Satz 5, 1 und Korrular 3, 1.
Wenn Sie sich noch überlegen, was war Korrular 3, 1. Korrular 3, 1 war Konvergenzgeschwindigkeit des Kernschätzers.
Wir hatten vorausgesetzt erstens, ich glaube wir hatten damals X sogar in 0, 1 hoch D fast sicher. Aber letzten Endes braucht man halt sowas wie Support von X beschränkt. Zweitens, wir hatten der bedingte Erwartungswert von Y Quadrat gegeben. Groß X gleich klein X sollte gleichmäßig beschränkt sein, dass es hier trivialerweise erfüllt, wenn das Y beschränkt ist.
Und drittens, wir hatten genau diese Hölderstätigkeit von der Regressionsfunktion gefordert. Wir hatten dann eine konkrete Bandbreite, die eben in Abhängigkeit von der Stichprobe,
von dem P und noch von der Schranke für die bedingte Varianz war es eigentlich, und Schranke für die Supremusnorm der Regressionsfunktion abhängen. Diese konkrete Bandbreite wird im Intervall von 2 hoch N bis 2 hoch Minus N liegen.
Das können Sie sich gleich klar machen, das war klar asymptotisch, also sie liegt hier irgendwo drin. Dann haben Sie sie hier natürlich nicht genau, sondern nur bis auf den Faktor 2 höchstens. Die Werte haben einen Abstand Faktor 2, aber dadurch ändert sich der Fehler. Nicht um arg fehl, wenn Sie angucken, wie der Fehler von der Bandbreite abhien,
dann hat sich um eine Konstante verändert, wenn Sie die Bandbreite um eine Konstante verändert haben. Wenn Sie dabei ist und Varianzabschätzung 1 angeguckt haben, das heißt, das ist kein Problem. Dann haben Sie den Satz 5.1, da brauchen wir jetzt wirklich die Beschränktheit von y,
um eben zu zeigen, ja, der erwartete L2-Fehler ist hier kleiner gleich als dem Minimum von den erwarteten L2-Fehler über diesen Parametermenge, Parameter aus dieser Parametermenge von den Schätzern nur angewandt auf die Kernschätzer, auf die Lerndaten, und wenn Sie da eben die halbe Bandbreite, halbe Datenmenge haben,
dann ändert sich die Rate auch nicht groß. Das heißt, die Rate stimmt, die Konstanten kommen andere raus, aber die Konvergenzgeschwindigkeit stimmt. Was sitzt jetzt schön dabei? Sie haben jetzt hier einen Schätzer, der hängt eben gar nicht mehr von dieser Glattheit, beschrieben durch das P und das C hier der Regressionsfunktion ab
und erreicht trotzdem die optimale Konvergenzgeschwindigkeit. Okay, Fragen soweit? Keine. Dann komme ich zur sogenannten Kreuzvalidierung.
Ich wollte noch ein zweites Verfahren vorstellen. Hey, das ist aber fies, so etwas auf meine Tafel geschrieben und verdeckt. Cool. Okay. 5.3 Kreuzvalidierung.
Die Unterteilung der Stichprobe hat zwei Nachteile.
Das erste ist, nachdem wir mal den für uns oder den Parameter bestimmt haben,
den Parameterwert bestimmt haben, den wir als optimal betrachten, hängt der Schätzer eigentlich nur noch von den Lerndaten ab. Das heißt, er nutzt eigentlich nur noch, also in Corolla 5.1, die Hälfte der Daten, die andere Hälfte aber eigentlich nicht mehr. Also ich habe Ihnen gesagt, Corolla 5.1 macht nicht viel aus,
weil sich eben die Konvergenzgeschwindigkeit, wenn Sie N durch N halbe ersetzen, auch nur um eine Konstante verändert. Aber die Konstante verlieren Sie. Also ein Nachteil, nach Wahl des Parameters wird der Schätzer nur noch mit einem Teil der Daten berechnet.
Und zweiter Nachteil, der Schätzer hängt von der zufälligen Unterteilung der Stichprobe ab.
Obwohl das eigentlich nicht logisch ist. Also das, was letztendlich als Schätzer rauskommt, hängt davon ab, wie Sie die Stichprobe unterteilen. Wenn Sie die anders unterteilen, also wenn Sie in dem Fall von Corolla 5.1, nehmen Sie an, nennen wir gerade, Sie setzen Lerndaten gleich Testdaten gleich N halbe.
Dann könnten Sie genauso gut die Testdaten mit den Lerndaten vertauschen und bekommen anschließend aber einen anderen Schätzer raus. Also nur leicht anders, aber Sie bekommen einen anderen Schätzer raus. Und das ist eigentlich nicht ganz einzusehen. Also Schätzer hängt von der zufälligen Unterteilung der Stichprobe ab.
Das heißt, durch die Unterteilung der Stichprobe füge ich in meinen Schätzer eigentlich einen weiteren Zufall ein.
Und einen zusätzlichen Zufall einzuführen ist eigentlich nie eine gute Idee. Zumindest nicht dann, wenn Sie einen mittleren quadratischen Fehler betrachten. Bei mittleren quadratischen Fehler können Sie immer aufspalten bei Varianzzerlegung in den Bias-Teil, also den Teil, wo Sie den Erwartungswert des Schätzers betrachten
und die Abweichung plus den Varianz-Teil. Und dann sehen Sie, wenn Sie diesen Zufall losbekommen und es schlau machen und Sie gehen wirklich auf den Erwartungswert über, wird der mittlere quadratische Fehler kleiner. Das heißt, auch das ist irgendwie so eine Sache. Also beides spricht so ein bisschen gegen das Verfahren.
Aber beides sind Sachen, wo man sagen kann, ja, scheint nicht ganz ideal zu sein. Beide Nachteile versucht die sogenannte Kreuzvalidierung zu vermeiden.
Beides versucht die sogenannte Kreuzvalidierung zu vermeiden.
Dazu, und ich bedachte jetzt erstmal die sogenannte K-fache Kreuzvalidierung. Da habe ich ein K aus 2 bis N.
Und ich unterteile die Stichprobe dann in K gleichgroße Teile.
Ich mache das gleichgroß mal in Anführungszeichen, weil das natürlich unter Umständen nicht geht. Also wenn mein K nicht mein N teilt, kann ich es nicht in K gleichgroße Teile unterteilen. Wir gehen im Folgenden davon aus, um die Schreibweise zu vereinfachen, dass K N teilt, also N durch K eine natürliche Zahl ist.
OBDA. Also wenn ich das mache, wird die Schreibweise ein bisschen einfacher. Sonst hätte ich eben einen Teil, der bis zu maximal K kleiner wäre als der Rest.
Ich definiere D, N, K oben L. Das sei die Datenmenge ohne den älten Teil.
Das heißt, das wären die x1, y1 bis xL minus 1 mal N durch K, yL minus 1 mal N durch K. Und dann geht es wieder weiter mit den Indizes L mal N durch K plus 1 bis N.
Also ich schreibe es mal hin. Bis x. Jetzt kommt der Index L minus 1 mal N durch K.
Dann kommt unten als nächstes, also ich lasse den Teil von L minus 1 mal N durch K plus 1 bis L mal N durch K weg. Das heißt, jetzt kommt L mal N durch K plus 1.
Und das Ganze ist eben die Datenmenge ohne den älten Teil. D, N, K, L ist Datenmenge ohne älten Teil. Und was ich jetzt mache, ist, ich verwende oder ich definiere für jede dieser Datenmengen, davon habe ich ja jetzt L läuft von 1 bis K.
Das würde ich vielleicht auch noch dazuschreiben. L Element 1 bis K. Also für jede dieser Datenmengen definiere ich mir für jeden möglichen Parameter einen Schätzer mit, unter Verwendung genau dieser Datenmengen.
Und dann wähle ich den Parameter, in dem ich das empirische L2-Risiko von diesen Schätzern ausrechne, auf den fehlenden Teil der Datenmengen. Dann jeweils mittelbezüglich allen möglichen Datenmengen und dann minimiere bezüglich dem Parameter.
Also ich setze ein Schätzer M mit Stichprobenumfang N minus N durch K, Parameter H.
Das ist der Schätzer, ja und noch mit dem Index L brauche ich auch noch, von X.
Und die Daten, ich stecke die Datenmenge D, N, K, L rein.
Das sei der Schätzer berechnet mit den Daten D, N, K, L und Parameter H aus P, N.
Der Schätzer berechnet, sei M, N minus K, L oben H von X gleich M, N, Index N minus N durch K oben H von X, D, N, K oben L.
Der Schätzer berechnet mit den Daten D, N, K, L und Parameter H aus P, N.
Und bei der sogenannten K-fachen Kreuzvalidierung wählen wir jetzt den Parameter durch Minimierung des Mittels der empirischen L2-Risikos.
Aller dieser Schätzer berechnet jeweils auf den weggelassenen Daten. Bei der sogenannten K-fachen Kreuzvalidierung setzen wir unser Parameter P, Dach, H Element P, N.
Jetzt mache ich ein Mittel über alle die möglichen Datenmengen, die ich hier wählen kann oder alle die weggelassenen Teile.
Also 1 durch K, mal Summe L gleich 1 bis K. Und dann schreibe ich in dem Summanden, als elten Summanden, das empirische L2-Risiko des
Schätzers definiert unter Verwendung der Daten D, N, K, L ausgewertet auf den weggelassenen Daten hin. Okay, weggelassen habe ich N durch K jeweils Datenpunkte.
Das heißt, Stichproben umfangen wir N durch K. Ich teile hier N durch K. Indexbereich ist der Indexbereich, der da drüben fehlt. Also I gleich L minus 1 mal N durch K plus 1 ist L mal N durch K.
Und jetzt berechne ich YI minus, jetzt nehme ich einen Schätzer von da oben, M, N minus N durch K, L oben H.
Wert hinaus in der Stelle XI, nehme die Differenz zu YI quadriere, mittel das Ganze. Okay, das wäre unser Parameter.
Also wir minimieren, wir wählen denjenigen Parameter, für den die Mittel der empirischen L2-Risiko aller Schätzer M, N, minus N durch K, L jeweils berechnet aus den weggelassenen Daten am kleinsten sind.
Und dann verwenden wir diesen Parameter für unseren Schätzer. Einerseits könnten wir jetzt verwenden für Stichprobenumfang N minus N durch K, aber ich mache es hier gleich für Stichprobenumfang N. Also wir nehmen direkt M, N von Hdach.
Setzen wir. Und M, N von X wäre M, N von Hdach von X und D.
Und im Spezialfall, dass K gleich N ist, spricht man von der sogenannten Kreuzvalidierung.
Also die n-fache Kreuzvalidierung heißt auch Kreuzvalidierung.
Okay, kann mir vielleicht von Ihnen jemand sagen, was minimiere ich bei der Wahl des Parameters bei der n-fachen Kreuzvalidierung? Wie sieht der Ausdruck da aus?
Also wenn Sie da links K gleich N setzen, was kommt dann raus?
Wir lassen die innere Summe weg, schreiben davor 1 durch N. Wir haben hier einen Schätzer, der hat den Schichtprobenumfang N minus 1. Und er lässt genau den alten Datenpunkt weg. Und wir würden dann hier an dem alten Datenpunkt auswerten. Also er lässt jeweils genau einen Datenpunkt weg und werdet dann den Fehler an den einen Datenpunkt aus.
Haben Sie eine Idee, warum er vielleicht eine 10-fach Kreuzvalidierung machen sollte, statt dieser Standardkreuzvalidierung, eine n-fach Kreuzvalidierung? Weil es länger dauert. Genau.
Also es ist eine Frage des Berechnungsaufwands. Also für jedes einzelne dieser Datenteile müssen Sie den Schätzer einmal berechnen. Und das wird einfach aufwendiger. Wenn Sie beim Kernschätzer und Sie haben eine n-fach Kreuzvalidierung, dann gibt es eine einfache Formel für das ganze Ding.
Also da gibt es irgendwelche Formeln, wo man es ein bisschen schneller berechnen kann. Oder da geht es eben ein bisschen schneller als diese Primitivvariante alles durchprobieren.
Okay, aber Sie sehen, zumindest im Spezialfall K gleich N haben Sie kein Problem mehr mit, dass der Schätzer irgendwie noch von der Unterteilung der Daten abhängt. Bei der k-fachen Kreuzvalidierung haben Sie im Prinzip immer noch, dass der Schätzer noch zufällig von dieser Aufteilung in die K-Gruppen abhängt. Aber bei der n-fachen Kreuzvalidierung nicht mehr.
Okay, theoretisch möchte ich dazu nichts machen. Das wird zu technisch, dauert zu lange. Aber ich wollte es eben zumindest mal erwähnen. Gut, Fragen soweit noch. Wenn nicht, fange ich an mit Kapitel 6.
Kapitel 6 behandeln wir Hilfsmittel aus der Theorie empirischer Prozesse.
Da haben wir ein bisschen was schon im Rahmen der mathematischen Statistik gemacht. Und zwar beim Beweis von Clevenko-Cantelli, den habe ich ein bisschen tieferliegend bewiesen. Und das werden wir hier ein bisschen noch mal vertiefen. So ungefähr die nächsten vier Vorlesungen.
Ich fange mal an mit einer Motivation.
Also wir haben das übliche Setting. x, y, x1, y1 und so weiter bis xn, yn seien unabhängig identisch verteilt. Rd equals R-wertig. m sei die Regressionsfunktion. Also m von x bedingt der Erwartungswert von y gegeben groß x gleich klein x. Ich habe y-quadratisch integrierbar vorausgesetzt. Ich möchte die Regressionsfunktion schätzen.
Wir haben schon gesehen, die Regressionsfunktion minimiert das L2-Risiko. Also wir schätzen m. Das war ja der bedingte Erwartungswert von y, geben groß x gleich Punkt.
Und das kann ich auch als Lösung eines Minimierungsproblems schreiben, nämlich ich minimiere den Erwartungswert von y minus f von x zum Quadrat bezüglich f.
Ich verwende dazu einen sogenannten kleinsten Quadratenschätzer. Durch kleinsten Quadratenschätzer.
Das ist mn. Da minimiere ich einfach anstelle von dem L2-Risiko,
was ich nicht beobachten kann in der Anwendung. Ich schätze dieses L2-Risiko mit Hilfe meiner Stichprobe durch ein Stichprobenmittel. Das heißt, ich schätze es durch das empirische L2-Risiko. 1 durch n mal Summe i gleich 1 bis n y i minus f von xi zum Quadrat. Also ich mache ein Artmin.
Ich schätze das so. Das heißt, ich schätze das L2-Risiko durch das empirische L2-Risiko
und minimiere anschließend das empirische L2-Risiko.
Wo ist das f, worüber wir minimieren? Das f fehlt. Da ist was dran. Das f gehört an diese Stelle. Also ich nehme das empirische L2-Risiko oder den Schätzer von da oben.
Ich schätze das da oben durch ein Stichprobenmittel. Okay, Sie sehen vielleicht, das Ganze geht so schief, wenn ich über alle Funktionen minimiere. Weil nehmen Sie mal an, die xi wären alle verschieden. Dann finden Sie immer eine Funktion, sodass f von xi gleich yi gilt für i gleich 1 bis n.
Das heißt, Sie werden die Daten depolieren. Das macht aber keinen Sinn bezüglich einer Schätzung von einem bedingten Erwartungswert, also vom Durchschnittsverlauf der y gegeben, groß x gleich klein x. Das heißt, ich kann an der Stelle nicht über alle f von Rd nach R minimieren. Stattdessen minimiere ich hier nur über einen vorgegebenen Funktionenraum.
Das heißt, ich sage hier arg min f aus fn, wobei das fn ein vorgegebener Funktionenraum ist.
Wobei fn eine gegebenen Menge von Funktionen ist.
Die lassen Sie vom Stichprobenumfang abhängen, weil die werden Sie mit zunehmendem Stichprobenumfang immer komplexer wählen. Weil es ist klar, wenn ich den Schätzer so mache,
dann wird mein Schätzer eben in den Funktionenraum drin sein. Ich kann damit meine Regressionsfunktion nicht besser approximieren als die beste Funktion in dem Funktionenraum, wenn der Funktionenraum nicht zu... Andererseits darf der Funktionenraum nicht zu komplex sein, damit die Approximation von dem L2-Risiko durch das empirische L2-Risiko gut ist.
Und das stellen Sie eben sicher. Ja, und beides zusammen, Sie haben zwei gegenläufige Aspekte. Also einerseits muss der Funktionsraum eigentlich reichhaltig sein, damit die unbekannte Regressionsfunktion gut approximiert werden kann. Andererseits soll er nicht zu komplex sein, damit dieses empirische L2-Risiko noch nahe am L2-Risiko ist
für alle Funktionen aus dem Funktionenraum. Und damit Sie... Und das erreichen Sie eben, oder das gleichen Sie aus, und dann mit wachsendem N lassen Sie diesen Funktionenraum immer komplexer werden. Okay, Ziel ist jetzt die Abschätzung von dem L2-Fehler von diesem kleinsten Quadrateschätzer.
Ziel wäre die Abschätzung.
Und da nutze ich wieder aus, dass ich den L2-Fehler als Differenz des L2-Risikos der Funktion minus L2-Risiko der Regressionsfunktion schreiben kann.
Die Idee ist nun, dass ich eine empirische Variante von diesem Ausdrücken, die da steht,
das heißt, wenn ich hier die Erwartungswerte durch Stichproben mittel ersetze, dass ich die relativ einfach abschätzen kann. Also, für Zn gleich... Ich nehme einfach mal... Er setzt die Erwartungswerte durch Stichproben mittel.
Und für dieses Zn gilt... Nun werden Sie sich die Definition von dem Schätzer Mn angucken.
Der Schätzer Mn war ja diejenige Funktion, die aus Fn, die diesen Ausdruck, dieses arithmetische Mittel, eins durch n mal Summe i gleich eins bis n, Mn von xi minus yi zum Quadrat, das empirische L2-Risiko, die diesen Ausdruck genau minimiert. Das heißt, das Ding ist eigentlich gleich dem Minimum über alle F aus Fn
von diesem Ausdruck mit Mn ersetzt durch F. Und dann kann ich den Erwartungswert einfach abschätzen. Also gilt... Zn ist gleich... Sie haben das.
Und daraus folgt jetzt beim Erwartungswert von Zn, da haben Sie Erwartungswert über Minimum. Und Erwartungswert über Minimum ist kleiner gleich als Minimum der Erwartungswerte.
Warum? Na ja, weil dieser Ausdruck, der hier steht, ist kleiner gleich dem entsprechenden Ausdruck für jedes einzelne F, also wenn ich F festhalte, damit ist der Erwartungswert davon kleiner gleich dem Erwartungswert für jedes einzelne feste F
und damit auch kleiner gleich dem Minimum der Erwartungswerte über das F. All das ist dann kleiner gleich als Minimum F aus Fn. Also im Prinzip müsste ich Infimum schreiben, um sicherzugehen, dass es überhaupt existiert... oder weil ich eben nicht sicher weiß, dass es existiert. Lasse ich hier aber weg. Dann kommen wir hier auf Erwartungswert von Zn².
Und ja, wir machen hier auch noch Minus den entsprechenden Erwartungswert.
Und dann sehen Sie ja aufgrund der unabhängig identisch verteiltei der Daten steht da, ist der Erwartungswert von diesem arithmetischen Mittel
gerade der Erwartungswert von F von x-y² und das andere Erwartungswert von m von x-y².
Und wo ich das Minimum hinschreibe, nur vor dem ersten oder vor beiden Termen zusammen, spielt keine Rolle, weil der zweite Term nicht von dem F abhängt. Und dann sehen Sie, das ist gerade das Minimum über F aus Fn vom L2-Feder.
Und was wir im Folgenden jetzt machen, wir schätzen die Differenz zwischen dem L2-Feder und Zn bzw. Vielfachen von Zm ab.
Im Folgenden betrachten wir eben den L2-Feder
minus eine Konstante mal Zn. Also eigentlich könnte ich Minus einmal Zn machen, aber wenn ich Minus einmal Zn mache, werde ich nicht auf die richtige Konvergenzgeschwindigkeit kommen, werden Sie nachher auch sehen, sondern ich mache eigentlich ein Vielfaches, ich ziehe ein Vielfaches von Zn ab.
Okay, Fragen soweit?
Das Unlogische ist gerade, dass ich hier Konstante schreibe statt einmal. Aber es wird sich rausstellen, wenn ich hier zweimal Zn schreibe, geht es viel besser, als wenn ich einmal Zn abziehe. Und wenn ich hier zweimal Zn abziehe,
ja, also letzten Endes werden wir natürlich einen Erwartungswert dann davon uns angucken. Also auch klar. Ich gehe auf den erwarteten L2-Fehler hinaus, dann sage ich, der erwartete L2-Fehler ist Erwartungswert von der Differenz plus Konstante mal Erwartungswert von Zn, Konstante mal, oder zweimal, Minus zweimal Zn hier und plus zweimal Erwartungswert von Zn, das gibt dann hier eine 2 von diesem
Approximationsfehler. Also das Ding misst Ihnen ja gerade, wie gut können Sie mit Funktionen aus Fn die Regressionsfunktion in L2 approximieren. Okay, Fragen soweit? Wenn nicht, machen wir fünf Minuten Pause, ich mache dann um neun Uhr sieben weiter.
Okay, würde ich ganz gern weitermachen. Wir kommen dann zu Abschnitt 6.2, ich habe es mal uniforme Exponentialungleichung genannt.
Wenn Sie in Abschnitt 6.1 die Konstante mal einsetzen, dann sehen Sie, ich will den L2-Fehler minus den Zn abschätzen,
L2-Fehler steht nochmal hier, Zn steht hier, dann sehen Sie, Sie brauchen solche Ausdrücke wie Erwartungswert, L2-Risiko minus empirisches L2-Risiko für den Regressionsschätzer und das gleiche für die Regressionsfunktion. Das sind die Differenzen, die Sie eigentlich brauchen. Also nötig in Abschnitt 6.1
sind Abschätzungen für Ausdrücke wie
L2-Risiko von dem Regressionsschätzer, also Erwartungswert von Mn von x minus y
zum Quadrat gegeben, die Daten, minus entsprechende empirische Variante.
Wenn Sie das angucken, das ist eigentlich Erwartungswert minus Stichprobenmittel steht da. Mit dem kleinen Problem, dass in dem Erwartungswert eine zufällige Funktion noch mit auftaucht. Also Problem, dieses Mn aus dem
Funktionenraum ist zufällig und diese Zufallsabhängigkeit von diesem Ausdruck, also einerseits
bezüglich, oder hier zum Beispiel, einerseits bezüglich den gegebenen Daten x, z, y, i an den Stellen, wo ich es auswerte und an der Funktion, an der ich es auswerte, die macht irgendwie Probleme bei der Analyse. Der Ausweg ist, dass man stattdessen eine obere Schranke bildet, indem ich hier einfach das nach oben, also ich will
letztendlich zeigen, das Ding ist klein, also das Ding geht asymptotisch gegen Null und ich schätze es nach oben ab, indem ich das Supremum über alle F aus Fn nehme und das Mn durch ein festes F ersetze. Also Ausweg,
betrachte stattdessen Supremum über F aus Fn,
Supremum über F aus Fn, Erwartungswert von f von x minus y zum Quadrat, minus Stichprobenmittel.
Ich weiß gar nicht, ob Sie sehen, dass das da eine obere Schranke für das da ist. Also dass der Ausdruck mit Wahrscheinlichkeit eins größer gleich dem Ausdruck hier ist. Sehen Sie das? Oder können Sie das begründen?
Also Frage ist, warum ist der Ausdruck,
den ich hier jetzt im Folgenden analysieren will, eine obere Schranke für den Ausdruck, der uns eigentlich interessiert?
Irgendwelche Vorschläge?
Ja gut, der Trick ist so ein bisschen die Unabhängigkeit der Daten. Was steht hier eigentlich? Das hier könnten Sie auch umschreiben als ein Integral bezüglich der Verteilung von x und y. Wenn ich bezüglich der Verteilung von x und y integrieren würde, also gemeinsame Verteilung von x und y, dann wäre der Integrant mn von klein x
minus klein y zum Quadrat, integriert bezüglich der Verteilung von x und y. Dann sehen Sie, dann habe ich ein Integral mit einer zufälligen Funktion drin. Und hier? Ja gut, das lassen Sie einfach so stehen. Und jetzt betrachten Sie das ganze
Ding klein omega-weise. Das heißt, Sie halten klein omega fest. Oder anders ausgedruckt, wir halten die ganzen x1, y1 bis xn, yn fest. Die betrachten wir deterministisch. Und dann für jeden
einzelnen Wert von xi, yi, für jeden möglichen Wert von xi, yi, habe ich hier eine feste Funktion. Aus meinem Funktionraum natürlich für jeden Wert von xi, yi und der Umstände der Funktion. Und dann ist es klarer gleich als dem
Ausdruck, der hier auftaucht. Weil hier steht das gleiche Integral, wenn ich es umschreibe als Integral bezüglich xy. Aber diese zufällige Funktion, die hier steht, ist ja aus dem Funktionraum, der hier rauskommt. Okay, soweit?
Oder nicht geglaubt? Okay, wie sehen Sie es dann?
Also im Prinzip die Begründung ist, was für alle möglichen Werte von x1, y1 bis xn, yi, yn eine obere Schranke von dem Ausdruck, ich nenne hier mal Stern.
was für alle möglichen Werte von x1, y1 bis xn, yn obere Schranke von Stern ist.
Und der Trick ist eben, wenn ich die Werte von x1, y1 bis xn, yn festhalte, dann ist die Funktion hier eigentlich fest.
Dieses mn ist dann fest. Und zwar ist es dann eine feste Funktion aus fn. Und hier bilde ich das Supremo über alle möglichen Funktionen. Deswegen ist der Ausdruck mit einer festen Funktion kleiner gleich dem Ausdruck mit einem Supremo über alle möglichen Funktionen.
Okay, jetzt ein bisschen besser oder? Okay, um jetzt solche Ausdrücke abzuschätzen zu können, brauchen wir, oder da wird irgendwie die Komplexität von dem Funktionenraum eingehen.
Das heißt, nötig, jetzt ist ein Maß für die Komplexität des Funktionraums fn. Nötig dabei, ein Maß für die Komplexität von fn, also Maß im umgangssprachlichen Sinne, nicht im mathematischen Sinne.
Also irgendwas, was die Beschreibung, was die Komplexität von dem Funktionenraum beschreibt. Das mache ich in Definition 6.1, sind Überdeckungszahlen.
Wir haben Epsilon großer Null, g ist eine Menge von Funktionen g von Rl nach R.
Ich habe ein p größer 1, 1 kleiner gleich p kleiner und endlich. Und ich habe ein Wahrscheinlichkeitsmaß nu auf Rl.
Ich setze dann für g von Rl nach R, dass die Norm von g in Lp nu, also für g von Rl nach R sei Norm g Lp nu,
einfach die entsprechende Lp-Norm in, wenn ich bezüglich dem Wahrscheinlichkeitsmaß nu integriere. Also integral über g von x, Betrag hoch p, nu der x, hoch 1 durch p.
Und jetzt definiere ich mir den Begriff der Epsilon-Überdeckung von g bezüglich dieser Norm.
Das sei einfach eine endliche Menge von Funktionen, sodass die Epsilon-Kugeln um die einzelnen Funktionen mit, bewildert bezüglich dieser Lp-Nu-Norm, ganz g überdecken.
Also a, jede endliche Menge von Funktionen g 1 bis g n von Rl nach R,
mit der Eigenschaft, für alle g aus g existiert ein Index j aus 1 bis n,
sodass g j von g in Abstand kleiner als Epsilon hat in der Lp-Nu-Norm.
Ach so, ich brauche g 1 bis g n, g Groß n statt L.
Also jede endliche Menge dieser Funktionen heißt Epsilon-Überdeckung von g bezüglich dieser Norm.
Okay, also eine Epsilon-Überdeckung ist eine endliche Menge von Funktionen, sodass jede Funktion aus diesem Funktionenraum von einer dieser Funktionen einen Abstand kleiner als Epsilon hat.
Oder anders ausgedrückt, wenn Sie die offenen Kugeln mit Radius Epsilon um diese einzelnen Funktionen bilden, dann ist das eine Überdeckung von den ganzen Funktionenraumen. Erster Punkt.
Zweiter Punkt, wir beschreiben jetzt die Komplexität von den Funktionenraumen durch die minimale Kardinalität, die so eine Epsilon-Überdeckung hat. Also b, die Epsilon-Überdeckungszahl von g bezüglich dieser Norm
und die Bezeichnung dafür ist n, Epsilon, g und die Norm.
Das ist die minimale Kardinalität aller Epsilon-Überdeckungen von g bezüglich der Norm.
Im Falle, dass überhaupt keine endliche Epsilon-Überdeckung existiert, würde ich diese Überdeckungszahl als unendlich definieren.
Also minimal im Sinne von einem Intimum. Und c, das Ganze wenden wir jetzt an mit speziellen Wahrscheinlichkeitsmaßen. Nö, nämlich ich nehme das Wahrscheinlichkeitsmaß nö, sein empirisches Maß zu n Punkten. Das heißt c, sein z1n gleich z1 bis zn, n Punkte in RL.
Also ich nehme für den Vektor oder für das N-Tubel der z1 bis zn,
nämlich die Bezeichnung z unterer Index 1 bis oberer Index n, n Punkte in RL. Und nö, die zugehörige empirische Verteilung, das heißt nö von einer Menge a.
Ich würde einfach zählen, wie viel der zi sind in a und durch n teilen.
Und wenn Sie das so machen, schreibe ich besser auf die neue Tafel,
dann sehen Sie das Integral bezüglich diesen LP von nö, oder ich wollte es eigentlich nö n sagen, nö n bezeichnen, nicht nö. Das heißt, und ja fehlt sowieso, nö n, die zugehörige empirische Verteilung,
das heißt nö n von a ist das hier. Das heißt, wenn Sie sich angucken, was ist die Norm von g lp von nö n, was kommt daraus?
Wenn Sie bezüglich der empirischen Verteilung integrieren, was kommt daraus?
Also die Summe von Betrag über g von zi minus gj von zi,
also wenn ich nur über g integriere, nicht über g minus gj, das Integral verwendet sich einfach in eine Summe. Das heißt, dieses Integral von der Funktion nö dx ist einfach 1 durch n mal die entsprechende Summe Funktionswerte an der Stelle zi. Das heißt, das Ganze hier ergibt 1 durch n Summe i gleich 1 bis n Betrag von g von zi, das Ganze hoch 1 durch p.
Und das Entscheidende, was wir verwenden, ist jede Epsilonüberdeckung von g bezüglich diesen Norm lp von nö n
und die entsprechende Epsilonüberdeckungszahl wird auch in Notation eingeführt. Also dann heißt jede Epsilonüberdeckung von g bezüglich dieser Norm auch lp Epsilonüberdeckung von g auf z1n.
Und für die Epsilonüberdeckungszahl von g bezüglich dieser Norm wird die Notation n index p von Epsilon g z1n verändert.
Und n index p n index p Epsilon z1n ist die Epsilonüberdeckungszahl von g bezüglich dieser Norm.
Und das Entscheidende, was wir dann brauchen, werden die n1 Epsilon g z1n Überdeckungszahlen sein.
Also bezüglich der n1-Norm. Da käme eigentlich der nächste Satz. Ich weiß nicht, kommt der jetzt schon in Übungen oder die Woche drauf? Okay, diese Woche ist noch die alte Übung. Gut, dann muss ich jetzt den Satz nicht mehr hinschreiben. Also den nächsten Satz, der eigentlich kommt, ist eine Verallgemeinerung von Satz 2.2 aus der mathematischen Statistik.
Werden Sie dann in den Übungen beweisen, stelle ich Ihnen nächste Woche vor. Ich habe versprochen, ich höre 10 Minuten vorher auf. Okay, ich habe nur 9 Minuten geschafft, aber immerhin. Okay, das wäre es dann für heute.