Konsistenz des Kerndichteschätzers
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Teil | 2 | |
Anzahl der Teile | 24 | |
Autor | ||
Lizenz | CC-Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben. | |
Identifikatoren | 10.5446/34287 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | |
Genre |
Kurvenschätzung2 / 24
1
2
7
9
10
11
12
15
16
19
20
23
24
00:00
ZahlenbereichDichte <Physik>DichteschätzungSchätzfunktionZufallsvariableUnendlichkeitNummerierungKerndarstellungWahrscheinlichkeitsverteilungKurvenschätzungStichprobenumfangWürfelStarke KonsistenzKernschätzungKlasse <Mathematik>MathematikerSchwache KonvergenzAggregatzustandIntegralSchätzungBetrag <Mathematik>Vorlesung/Konferenz
09:09
SchätzfunktionSummeDichte <Physik>ErwartungswertDreiecksungleichungVarianzMengeFunktion <Mathematik>KompaktheitTermInferenzstatistikUngleichungAussage <Mathematik>Kompakte MengeKomplementaritätHill-DifferentialgleichungIntegralWürfelKerndarstellungIntegrierbare FunktionVorlesung/Konferenz
18:18
MengeVarianzDreiecksungleichungQuadratErwartungswertKonstanteBetrag <Mathematik>Dichte <Physik>WahrscheinlichkeitsmaßDoppelintegralZufallsvariableLipschitz-StetigkeitTermSummeObere SchrankeStetige FunktionVolumenFaktorisierungSchätzfunktionEreignishorizontQuadratische FunktionUngleichungKompaktheitRuhmasseIntegralVorlesung/Konferenz
27:27
Betrag <Mathematik>Dichte <Physik>KernschätzungLineare RegressionSummeKonstanteErwartungswertSchätzfunktionKurvenschätzungAussage <Mathematik>KonvergenzgeschwindigkeitSubstitutionGlattheit <Mathematik>DichteschätzungMomentenproblemZusammenhang <Mathematik>SchätzungZufallsvariableGeschwindigkeitDreiecksungleichungPhysikalische TheorieVorlesung/Konferenz
36:36
OrthogonalreiheBetrag <Mathematik>SchätzfunktionEinfach zusammenhängender RaumKernschätzungZahlKonstantePartielle AbleitungPartielle DifferentiationKoeffizientUntere SchrankeNatürliche ZahlDichte <Physik>Potenz <Mathematik>ExponentAbleitung <Topologie>Lipschitz-StetigkeitSummeStetig differenzierbare FunktionGlattheit <Mathematik>NullKurvenschätzungObere SchrankeZahlenbereichMathematikerSchranke <Mathematik>Norm <Mathematik>StetigkeitGeschwindigkeitKurveReiheWelleEnde <Graphentheorie>Inhalt <Mathematik>HistogrammVorlesung/Konferenz
45:45
SpieltheorieMomentenproblemAlgebraisch abgeschlossener KörperKonstanteKurvenschätzungUngleichungSchranke <Mathematik>MengeQuadratNorm <Mathematik>AbschätzungSchätzfunktionExponentEinfach zusammenhängender RaumKompakte MengeObere SchrankeKerndarstellungRundungGeschwindigkeitVorlesung/Konferenz
54:54
Gleitendes MittelSchätzfunktionAbleitung <Topologie>KonstanteGeschwindigkeitStichprobeSchätzungKerndarstellungExponentPunktEinfach zusammenhängender RaumPotenz <Mathematik>UnterteilungKonvergenzgeschwindigkeitObere SchrankeFolge <Mathematik>TopologieVorlesung/Konferenz
01:04:03
KonstanteQuadratGlattheit <Mathematik>KraftParametersystemAbschätzungNorm <Mathematik>Betrag <Mathematik>TermInferenzstatistikGeschwindigkeitLogarithmusDichte <Physik>KerndarstellungFehlerabschätzungSummeWürfelKonvergenzgeschwindigkeitVorlesung/Konferenz
01:13:12
Invertierbare MatrixKonstanteAbleitung <Topologie>TermAbschätzungRichtungNullstelleGrößenordnungMinimumEnde <Graphentheorie>Algebraisch abgeschlossener KörperUngleichungVorlesung/Konferenz
Transkript: Deutsch(automatisch erzeugt)
00:06
Ja, dann begrüße ich Sie mal recht herzlich zur heutigen zweiten Vorlesung, in der Vorlesung Kurvenschätzung.
00:20
Ich habe jetzt diesmal keine Wiederholungsfolie, ab nächstem Mal werde ich wieder eine haben, weil es war sowieso alles Wiederholung, was wir gemacht haben. Wir kommen jetzt zum Abschnitt 2.2 Konsistenz.
00:45
Von Konsistenz bei einem Schätzer spricht man, wenn der Schätzer für endgegen und endlich im geeigneten Sinne gegen den zu schätzenden Term konvergiert. Ich glaube, ich mache das Mikro mal ein bisschen leiser, ist ein bisschen zu laut. Jetzt gibt es irgendwie so eine 50 Prozent.
01:02
Ich bin zum Klassen besser. Also von Konsistenz spricht man, wenn der Schätzer in einem geeigneten Sinne gegen den zu schätzenden Term konvergiert. Man spricht von starker Konsistenz, wenn es fast sicher erfolgt, von schwacher Konsistenz, wenn es nach Wahrscheinlichkeit konvergiert. Manchmal nimmt man für die schwache Konvergenz auch die Konvergenz in L1.
01:22
Man spricht von universeller Konsistenz, wenn es für alle möglichen Verteilungen diese Konvergenz vorliegt. Das ist das erste, was wir definieren, Definition 2.1. Eine Folge von Dichteschätzern heißt stark beziehungsweise schwach, universell konsistent.
01:50
Folge Fn von Dichteschätzern heißt schwach beziehungsweise stark, universell konsistent.
02:33
Falls für jede Dichte f von Rd nach R und alle unabhängig identisch verteilten Zufallsvariablen x1, x2 mit Dichte f gilt, der L1-Fehler von unserem Dichteschätzer konvergiert gegen Null nach Wahrscheinlichkeit beziehungsweise fast sicher.
02:45
Also falls für jede Dichte f und alle Zufallsvariablen x1, x2 und so weiter,
03:11
alle unabhängig identisch verteilten Zufallsvariablen x1, x2 und so weiter mit Dichte f gilt,
03:33
dieses Integral der L1-Fehler von unserem Dichteschätzer konvergiert gegen Null.
03:57
Bei der schwachen Konsistenz nach Wahrscheinlichkeit und bei der starken Konsistenz fast sicher.
04:19
Jetzt können wir uns jetzt auch überlegen, was ist was.
04:22
Also irgendwie, ja, ich bräuchte vier Farben und ich habe drei, wo ist drei Farben, mache vier, ich habe vier Farben. Also wir überlegen uns das Wort Konsistent, steht dafür, dass hier was gegen Null konvergiert und zwar der Fehler.
04:48
Den müsste ich eigentlich auch noch grün machen, ja, mache ich den Fehler vielleicht auch noch grün.
05:03
Also Fehlerkonvergiert gegen Null und dann muss ich das von x jetzt auch noch. Dann haben wir einen Schwach, das wird es nach Wahrscheinlichkeit.
05:22
Dann haben wir einen Stark, das war das fast sicher. Dann haben wir noch das universell, das ist das jede hier und eigentlich implizit auch noch das alle an der Stelle.
05:43
Also für alle möglichen Verteilungen geht die Sache. Und dann sehen Sie, implizit habe ich auch definiert, was heißt und heißt eine Folge von Dichteschätzern, schwach, konsistent.
06:03
Für eine gegebene Dichte f, wenn eben für alle Zufallsvariablen x1, x2 und so weiter die unabhängig identisch verteilt sind. Mit dieser Dichte f gilt der L1-Fehler konvergiert nach Wahrscheinlichkeit gegen Null. Genauso stark konsistent. Das Schöne an dem universellen ist eben, dass der Fehler immer gegen das Richtige konvergiert.
06:24
Und hier, also diese Konvergenz ist natürlich für Stichprobenumfang N gegen Endlich. Das heißt wir gucken uns an, was passiert, wenn wir immer mehr Daten zur Verfügung haben. Das konvergiert immer und dann geht der Fehler natürlich auch gegen Null für die Verteilung, die in irgendeiner Anwendung vorliegt.
06:40
Wenn sie eben die Voraussetzungen erfüllt, zum Beispiel hier, dass die Zufallsvariablen noch unabhängig identisch verteilt sind. Gut, dann der zentrale Satz zur Konsistenz kommt jetzt. Bei der Gelegenheit kann ich meine Nummerierung einführen. Ich mache die Nummerierung so, dass ich einen Zähler habe, der fortlaufend hochzählt. Das heißt nach Definition 2, 1 kommt Satz 2, 2.
07:03
Und ich wollte eigentlich 2, 1, Definition 2, 2, Satz schreiben, aber im Lautsatz habe ich es nicht hinbekommen. Also ich mache das hier auch nicht, vielleicht gehabt Satz 2, 2. Und danach kommt Definition 2, 3, Lemma 2, 4 und so weiter.
07:20
Man könnte es auch separaten Zähler für Definitionen, Sätze machen, das ist im Prinzip egal. Aber ich mache es jetzt mal so und dann finden Sie vielleicht schneller etwas im Skript. Wir betrachten jetzt einen Kerndichteschätzer und zeigen, wenn die Folge der Bandbreiten gegen Null konvergiert. Und N mal H, aber nicht zu schnell, N mal H, auch D gegen N endlich, dann ist der stark universell konsistent.
07:43
An den Kern, Sie kennen es aus der Vorlesung mathematischer Statistik, wenn wir den naiven Kern nehmen, also Kern ist die Indikatorfunktion zum Intervall von minus 1,5 bis 1,5 hoch D. Oder zum Würfel von minus 1,5 bis 1,5 hoch D. Dann klappt es. Ich formuliere es hier deutlich allgemeiner. Der Kern muss nur irgendeine Funktion sein, die integrierbar ist und das Integral darüber ist 1.
08:04
Dann reicht es auch schon. Also ist K messbar mit. Erste Voraussetzung, Voraussetzung 2,5, Integralübertrag von K klein und endlich und Integral über K von X selber ist gleich 1.
08:57
Und zweite die Bandbreiten, H n soll größer Null sein mit einerseits die Bandbreite muss asymptotisch gegen Null konvergieren,
09:12
also H n gegen N für N gegen N endlich, andererseits nicht zu schnell, nämlich so, dass N mal H n hoch D noch gegen N endlich konvergiert, es gibt dann 2,6.
09:41
So ist der Kerndichteschätzer, F n von X, das war die Formel, die wir schon mit 1 geführt haben, 1 durch N mal H n hoch D, Summe I gleich 1 bis N, K von X minus X I durch H n.
10:12
Dann ist der stark universell konsistent und damit natürlich auch schwach universell konsistent.
10:31
Das heißt, der 1-Fehler konvergiert gegen Null, fast sicher für alle dichten F.
11:18
Also Sie sehen, es gilt noch ein bisschen allgemeiner, als wir es eigentlich in der mathematischen Statistik schon kennengelernt haben,
11:24
weil Sie müssen eben nicht nur diesen naiven Kern nehmen. K ist die Indikatorfunktion zum Würfel minus ein halb bis ein halb hoch D im RD, sondern Sie können eine beliebige integrierbare Funktion einsetzen, die zu eins konvergiert ist.
11:44
Ich könnte das Ganze jetzt nochmal beweisen, aber das ist natürlich so ein bisschen langweilig, weil so toll ist die Verbesserung nicht. Ich habe das deswegen gemacht, gesagt, stattdessen, Sie dürfen es in den Übungen machen, aber das ist dann, wie Sie, ich tue mal das vielleicht ein bisschen weg, dann sehen Sie noch besser. Das ist dann allerdings, wie Sie feststellen werden, ein bisschen schwierig.
12:03
Deswegen mache ich vielleicht noch, also wir schreiben mal hin Beweis, Übungen und dann gebe ich Ihnen so einen Tipp. Das wird das erste Übungsblatt sein, es gibt vier Aufgaben dazu und drei Hilfsresultate und dann der eigentliche Satz. Also machen wir Beweis, vergleiche Übungen und dann gebe ich Ihnen aber trotzdem einen Tipp.
12:31
Jetzt haben wir vielleicht eine Idee dabei. Was ein bisschen unangenehm an dem ganzen Beweis ist, dass K auf einmal negative Werte annehmen kann.
12:44
Wenn Sie sich erinnern, also wenn Sie die Ergänzungsprüfung zur mathematischen Statistik geschrieben haben oder wenn Sie sich schon auf die Vertiefungsprüfung so ein bisschen vorbereitet haben, da gab es eine Frage, da sollen Sie genau diesen Satz für den naiven Kern zeigen. Und die Idee bei dem Beweis war, dass Sie am Anfang sich hier, also erst mal Sie zeigen es nicht fast sicher,
13:04
sondern Sie zeigen, der Erwartungswert kontergiert gegen Null. Und dann gibt es eine Ungleichung von MacDiamet, mit der haben wir in der Vorlesung, und zwar eigentlich auch unter den Bedingungen, die hier stehen, gezeigt, dass die Differenz zwischen Erwartungswert und zufälligen Therm und Erwartungswert gegen Null kontergiert.
13:24
Das heißt, wir brauchen hier eigentlich nur der Erwartungswert kontergiert gegen Null. Dann ziehen wir uns am Anfang mit einem Lämmer von Cheffé auf eine kompakte Menge zurück. Mal schauen, wie das geht, machen wir gleich. Dann ziehen wir den Erwartungswert rein. Dann spalten wir es auf in den beißen Variansterm und sind eigentlich fertig.
13:42
Und so geht es hier im Prinzip auch. Allerdings, um uns auf diese kompakte Menge zurückziehen zu können, brauchen wir, wenn wir das Lämmer von Cheffé anwenden, brauchen wir, dass dieses Fn eine, also F ist sowieso eine Dichte, Fn muss auch eine Dichte sein. Und Fn wird keine Dichte sein, wenn K eventuell negative Werte annimmt. Deswegen geht das Ganze schief.
14:01
Deswegen überlegt man sich erst mal, ist K Dichte? Das gilt nach Cheffé, also man macht erst mal diesen Fall separat.
14:25
Wir gucken uns den Erwartungswert von L1-Fehler an. Cheffé hat zwei Aussagen.
14:41
Das eine ist, dass das gleich zweimal den Total Variation Distance ist. Das andere aber, dass das auch gleich zweimal im Integral über den Positivteil der Differenz oder den Negativteil der Differenz ist. Ich nutze den Positivteil der Differenz aus. Das heißt, wir haben hier zweimal den Erwartungswert integral Rd
15:04
und nehmen den Positivteil der Differenz von Fn, Fn x minus Fn von x, dx. Wir machen das. Dann ist jetzt der Integrant immer kleiner gleich Fn x. Fn x wissen wir ist eine Dichte.
15:20
Das heißt, wenn ich die über ein Komplement von einer kompakten Menge integriere, dann wird das beliebig klein, wenn ich die kompakte Menge beliebig groß mache. Das heißt, ich kann mich hier zurückziehen. Ich spalte das Integral auf über eine kompakte Menge und sein Komplement. Kompakte Menge nenne ich S. Dann spalte ich ab das zweimal das Integral über S Komplement.
15:43
Fn x dx plus dem Integral über S von dem ganzen Ausdruck. Zweimal, dann ziehe ich den Erwartungswert gleich noch rein. Jetzt habe ich nur noch S.
16:04
Dann schreibe ich wieder Fn von x minus Fn von x.
16:21
Dann gucken Sie sich den zweiten Term an. Also, wenn S die kompakte Menge beliebig groß wird, wird das beliebig klein. Deswegen, im Liebes-Superior ist es dann klarer gleich, dem Liebes-Superior von dem plus irgendwas, was klein wird. Das heißt, wenn ich zeige, dass das für alle kompakten Mengen gegen null konvergiert, bin ich fertig. Wir gucken uns das an.
16:42
Dann machen wir jetzt eine traditionelle Bias-Varianzzerlegung. Das heißt, ich ziehe den Erwartungswert vom Schätzer ab, addiere wieder dazu, gehe mit der, oder ich mache so eine Art Bias-Varianzzerlegung, gehe mit der Dreiecksung-Gleichung rein. Hierbei, jetzt gucken wir uns das zweite Integral an.
17:19
Dann, ich ziehe also innen drin Erwartungswert von Fn von x ab,
17:23
addiere es wieder dazu und spalte mit Dreiecksung-Gleichung auf. Dann komme ich über ein Integral, Integral über s, der Erwartungswert von plus ein zweites Integral über s.
17:51
Das kann ich, da brauche ich aber gar nicht mehr s. Das kann ich auch größer machen. Wir machen sowieso eine Dreiecksung-Gleichung. Also hier mache ich gleich wieder rd. Da brauche ich nicht mehr s.
18:03
Der Erwartungswert von Fn von x minus f von x dx.
18:29
Jetzt gehen Sie mit dem, in das erste machen Sie die Cauchy-Schwarz-Ungleichung. Das heißt, der Erwartungswert ist klarer gleich Wurzel aus dem Erwartungswert zum Quadrat.
18:41
Der Erwartungswert zum Quadrat ist gerade die Varianz. Dann habe ich Integral als obere Schranke Integral über s über die Varianz von Fn von x. Ein Wurzel aus der Varianz von Fn von x. Und jetzt gehe ich nochmal mit Cauchy-Schwarz rein. Und zwar diesmal bezüglich dem Integral.
19:01
Das heißt, ich schreibe das einmal Wurzel aus Varianz. Ich schreibe die Wurzel aus Varianz um als einmal Wurzel aus Varianz. Und integriere und schätze es nach oben ab durch das Integral über die 1 Quadrat davon die Wurzel und das Integral über die Wurzel aus der Varianz zum Quadrat daraus die Wurzel. Dann kann ich das Ganze mit einem Schlag abschätzen.
19:21
Durch Integral über die 1 Quadrat daraus die Wurzel gibt Wurzel aus Integral über 1 dx über s. Und wir sehen, das ist einfach eine Konstante. Und ich habe das zweite noch Wurzel aus. Und jetzt kann ich es auch mit einem Schlag wieder größer machen.
19:41
Ich kann auch ad hinschreiben. Varianz von Fn von x dx. Dann gucke ich mir das zweite an.
20:02
Also was habe ich hier gemacht? Ich habe ausgenutzt, der Erwartungswert zum Quadrat von dem ganzen Ding hier ist die Varianz von Fn von x. Ich habe entweder ich wende einen Cauchy Schwarz an mit einem Integral, wo ich einerseits bezüglich dp und einerseits bezüglich dx gleichzeitig integriere als Produktmaß.
20:21
Dann hätten Sie hier so ein Doppelintegral. Das Integral über die und schreiben noch den Integranten als einmal die Wurzel um. Dann haben Sie die 1 zum Quadrat Doppelintegral. Das zweite Integral ist ein Integral bezüglich der Wahrscheinlichkeitsmaß. Das können Sie einfach weglassen.
20:41
Hier steht das Volumen von S einig, daraus die Wurzel. Und hier noch ad Wurzel aus Varianz von Fn von x. Oder Sie machen es eben in zwei Schritten. Sie schätzen den Erwartungswert von Fn von x minus Fn von x betrag erst ab durch die Wurzel aus der Varianz von Fn von x. Und dann wenden Sie auf das Integral über S von einer Funktion dx.
21:04
Schreiben Sie um als einmal die Funktion und schreiben das damit Cauchy-Schwarz um als Integral über 1 zum Quadrat. Daraus die Wurzel. Und Integral über die Funktion zum Quadrat. Daraus die Wurzel. Funktion zum Quadrat. Funktion war die Wurzel aus der Varianz von x. Ist einfach die Varianz von x.
21:20
Dann sind wir hier. Dann gucken wir uns das zweite an. Was ist der Erwartungswert von Fn von x? Wenn Sie sich mal das Fn von x angucken, wie sieht der Erwartungswert aus? Wie sieht der Erwartungswert aus? Ja, Sie bilden den Erwartungswert hier. Dann sehen Sie, den konstanten Faktor können Sie rausziehen.
21:41
Erwartungswert und Summe können Sie vertauschen. Die Zufallsvarianten sind identisch verteilt. Deswegen gibt es n mal den Einzelerwartungswert. Das heißt, da bleibt der Erwartungswert von 1 durch h n hoch D mal K von x minus x1 durch h n übrig. Und dann schreiben Sie das um als Integral bezüglich der Verteilung von x. Wir nutzen aus das x1, das x1 ja die Dichte F hat.
22:00
Dann kommen Sie auf, wenn Sie das machen. Also wir brauchen den 1 durch h n hoch D. Dann brauchen wir den Erwartungswert von K von x minus x1 durch h n. Schreibe ich als Integral um.
22:20
K von x minus z durch h n mal F von z d z minus F von x d x. Dann sind Sie hier.
22:41
Und dann zeigen Sie elementar, dass beide Terme gegen null konvergieren. Sie zeigen, dass das da konvergiert gegen null für n gegen n endlich. Das werden Ihre Übungsaufgaben sein. Das da konvergiert gegen null für n gegen n endlich.
23:07
Und das erste ist, rechnen Sie einfach die Variante aus. Das ist schon fast trivial. Das geht relativ einfach mit den Rechenregeln für die Variante. Das zweite, wenn irgendwie
23:21
F glatt ist, zum Beispiel Lipschitz stetig und K hat einen kompakten Support, dann sind Sie auch ganz schnell fertig. Und dann zeigen Sie eben, dass Sie bei diesem Integral das K durch ein K quer ersetzen können, was einen kompakten Support hat. Und das F durch
23:40
eine Lipschitz stetige Funktion haben und Lipschitz stetige Funktion ersetzen können. Beides mal und dabei kein der Term sich höchstens um einen kleinen Fehler verändert. Und dann ist der Limesuperior eben klarer gleich diesem Vielfachen von einem kleinen Fehler. Und der kleine Fehler wird beliebig klein. Dann sind Sie auch fertig.
24:03
Fragen soweit?
24:20
Dann mach ich mal Punkt, Punkt, Punkt. Noch ein Beweis. Ende dran und Sie dürfen es dann in Übung machen. Und bei der eigentlichen Hammer fehlt noch. Weil ich habe ja gesagt, wenn K eine Dichte ist, dann geht es so. Aber was machen Sie, wenn K keine Dichte ist? Das ist irgendwie, dann geht eben der Anfang schief. Wenn K keine Dichte ist, geht das hier schief. Aber der Rest klappt.
24:41
Also bald Sie mal zurückziehen sich auf ein Integral über s, klappt es. Und dann müssen Sie sich eben klar machen, dass wenn K kleine Dichte ist, ist Sie trotzdem noch das Integral über Betrag von f n von x d x asymptotisch abschätzen können, durch eine
25:02
Konstante mal dem Integral über f n x. Also, dass Sie asymptotisch abschätzen können, das Integral über eine Menge von Betrag von f n von x d x ist klarer gleich irgendein Term, der gegen Null geht, plus eine Konstante mal dem Integral
25:20
über die gleiche Menge, über f n x d x. Und dann sind Sie auch fertig. Weil, dann kriegen Sie das Ding eben hier nicht mit zwei hin, sondern mit was anderem. Und da werden wir Ihnen noch einen Tipp auf das Übungsbau draufschreiben. Geht dem Konzept auch ganz einfach.
25:42
Gut, Fragen soweit. Also soweit nur zum Hinweis. Sie machen es dann selber.
26:01
Dann kommt eine Bemerkung. Wenn Sie den Kandichteschätzer angucken, dann können Sie zeigen, dass der betragsmäßig integrierbar ist.
26:20
Und Sie haben dann folgendes Bemerkung. Megen. Wir gucken uns mal den L1-Fehler des Kernlichteschätzers an.
26:43
Und ich behaupte, dieser Term, der da rauskommt, der ist kleiner als eine Konstante, kleiner und endlich. Das heißt, Sie haben hier eine Zufallsvariable, die ist beschränkt. Wenn Sie aber eine Zufallsvariable haben, die beschränkt ist, und die konvergiert fast sicher gegen Null, dann konvergiert nach dem Satz von der majorisierten
27:01
Konvergenz auch der Erwartungswert von einer Zufallsvariable gegen Null. Das heißt, und das möchte ich hier argumentieren, dass auch der Erwartungswert von Integralbetrag von fn von x minus fn x gegen Null konvergiert, was wir ja de facto im Satz gezeigt haben. Das sehen Sie wie folgt. Sie nehmen die Dreiecksungleichung.
27:34
Dann setzen Sie für Betrag von fn von x einfach mal ein. Also fn von x ist ja der
27:43
Kandichteschätzer. Da haben Sie so eine Konstante mal Summe mal K. Ziehen Sie den Betrag mit der Dreiecksunggleichung rein. Ziehen dann die Konstante und die Summe aus dem Integral raus. Kommen Sie auf 1 durch n mal hn hoch d.
28:05
Wobei ich ziehe mal das hn hoch d nicht raus. Summe i gleich 1 bis n. Warum? Sehen Sie gleich.
28:21
Kommen Sie auf 1 durch n mal Summe i gleich 1 bis n. Integral über rd, 1 durch hn hoch d, mal Betrag von k von x minus x je durch hn, der x. Das zweite ist Integral über f. f war eine Dichte, ist deswegen 1.
28:41
Und jetzt sehen Sie, an der Stelle kann ich eigentlich eine Substitution machen. Ich kann u gleich x minus x i durch hn setzen. gibt es du gleich 1 durch hn hoch d mal dx. Das heißt, ich komme hier eigentlich auf das Integral über rd.
29:04
Betrag von k von u du. Dann sehen Sie, das Ganze ist leider gleich als das Integral über Betrag von k von u
29:22
du. Ja, aber damit ist die Zufallsvariante beschränkt. In Satz 2,2 konvergiert sie fast sicher gegen null, also konvergiert sie auch wahrscheinlich im Erwartungswert gegen null.
29:43
Also gilt in Satz 2,2 auch
30:08
für jede Dichte f.
30:32
Was Sie sowieso im Beweis gezeigt, oder was Sie im Beweis sowieso zeigen würden.
30:55
Erste Bemerkung, zweite Bemerkung, betrifft die Voraussetzung
31:00
Satz 2,2 und zwar die Voraussetzung an die Bandbreite. hn muss gegen null konvergieren, n mal hn hoch d muss gegen endlich konvergieren. Sie können zeigen, diese Voraussetzungen sind auch notwendig. Ich habe es mir überlegt, ob ich es hier machen soll als nächsten Satz, aber ich hätte eine Vorlesungsstunde für gebraucht und so arg spannend fand ich es dann auch nicht. Aber es gibt ein relativ schönes Theorem,
31:22
das besagt, dieser Kerndichte der Schätzer ist stark universell konsistent, genau dann, wenn er für irgendeine Dichte schwach konsistent ist. Also wenn es für irgendeine Dichte konvergiert, der Fehler, dann muss hn gegen null konvergieren, n mal hn hoch d gegen endlich und dann
31:42
ist er nach dem Satz sogar stark universell konsistent. Also die nächste Bemerkung, man kann zeigen,
32:01
die Voraussetzung 2,6 ist notwendig dafür, dass der Kerndichteschätzer für irgendeine Dichte schwach konsistent ist.
32:33
Man kann zeigen, die Voraussetzung 2,6 ist notwendig dafür, dass der Kerndichteschätzer für irgendeine Dichte schwach konsistent ist.
33:20
Und dann haben Sie eben den erstaunlichen Zusammenhang, der Kerndichteschätzer aus Satz 2,2 ist stark universell konsistent, wenn er eben schwach konsistent ist. Genau dann, wenn er schwach konsistent ist für irgendeine Dichte, was wiederum genau dann der Fall ist, wenn hn gegen null konvergiert und n mal hn hoch d gegen endlich. Fragen so weit?
34:09
Fragen in irgendwelcher Art? Keine im Moment. Dann machen wir 5 Minuten Pause und ich mache dann um 10.30 Uhr mit der Konvergenzgeschwindigkeit weiter.
34:27
Ja, würde ich ganz gern weitermachen. Kommen wir zum Abschnitt 2,3, wo ich zum ersten Mal so richtig massiv was zeigen werde. Und zwar Aussagen zur Konvergenzgeschwindigkeit, also 2,3 Konvergenzgeschwindigkeit.
35:06
Die Frage um die es hier geht ist, also Konsistenz ist zwar ganz schön, das heißt unser Fehler konvergiert für n gegen endlich gegen null, aber irgendwie vielleicht können wir auch noch eine Aussage treffen, wie schnell der Fehler gegen null konvergiert. Das stellt sich erstmal raus, werde ich in der Dichteschätzung nicht zeigen, machen wir später
35:21
in der Regression. Allgemein in der Kurvenschätzung ohne Voraussetzungen, ohne weitere Einschränkungen, insbesondere an die Glattheit der zu schätzenden Funktion schaffen Sie das nicht. Das heißt, wir überlegen uns dann, wie schnell konvergiert der, in dem Fall der erwartete L1-Fehler gegen null im Falle einer glatten Dichte.
35:44
Die Frage ist, wie schnell
36:05
konvergiert der erwartete L1-Fehler gegen null im Falle einer glatten Dichte. Und was meine ich hier
36:35
mit wie schnell konvergiert gegen null? Na, ich möchte irgendwelche oberen Schranken herleiten, die entweder nur asymptotisch gelten oder
36:40
vielleicht sogar nicht asymptotisch, also für festes n möchte ich haben, ist kleinergleich als 25 mal 1 durch Wurzel aus N, wäre ganz schön. Aber 1 durch Wurzel aus N, das ist normalerweise die Konvergenzrate, die Sie bekommen im Parametrischen. Also das werden Sie wahrscheinlich nicht ganz schaffen. Das ist der erste Punkt.
37:01
Das werden wir herleiten im Fall des Kerndichteschätzers für glatte Dichten. Da müssen wir jetzt irgendwie definieren, wann heißt eine Dichte für uns glatt. Wir könnten sowas machen, ja sie ist Lipschitz stetig oder sie ist dreimal stetig differenzierbar. Da kommt gleich eine Definition hin, was ich unter Glattheit hier in der Vorlesung
37:21
verstehe. Wir werden sogenannte PC-Glattheit einführen, wo eben Ableitungen von einer gewissen Ordnung eine Hölderstetigkeit erfüllen, mit einem gewissen Exponenten und mit einer Hölderkonstanten C. Punkt 2. Und dann Punkt 3 ist, wir werden dann obere Schranken herleiten für den Kerndichteschätzer. Aber dann stellt sich natürlich die Frage,
37:40
wenn Sie jetzt nicht den Kerndichteschätzer verwenden, sondern Sie verwenden einen anderen Schätzer, wobei wir haben ja nur einen eingeführt bisher, aber trotzdem, wir könnten ja theoretisch auf die Idee kommen, wir haben vielleicht irgendeine viel bessere Methode. Wir entwickeln unsere Dichte in der Orthogonalreihe und schätzen die Koeffizienten in der Orthogonalreihe zum Beispiel.
38:01
Wir könnten Histogrammschätzer machen, das wäre das einfachste. Orthogonalreihen Schätzer wären zweiter. Also es gibt alle möglichen Schätzer, aber uns interessiert dann insbesondere, können wir, wenn wir diesen Schätzer noch freilassen, können wir dann auch noch irgendwas herleiten,
38:20
über die Konvergenzgeschwindigkeit, die wir im besten Fall erzielen können. Oder beziehungsweise unter den Voraussetzungen für den bestmöglichen Schätzer erzielen können und es gibt untere Schranken. Wir fangen mal an mit dem Kerndichteschätzer und die ersten Resultate werden noch ein bisschen einfach sein
38:42
und sobald wir dann irgendwie auf untere Schranken übergehen, bis nächste Woche werden Sie feststellen, wo eigentlich die eigentliche Mathematik so richtig massiv ein Spiel kommt. Ich fange aber erstmal an mit der glatten Dichte. Was ist für mich eine glatte Dichte? Es gibt die Definition 2, 3.
39:05
Ich habe eine Zahl P in Nullen endlich. Die zerlege ich als Summe, die kann ich dann immer schreiben, als Summe einer natürlichen Zahl K, wobei K auch 0 sein kann, plus ein R zwischen 0 und 1. Also sei P gleich K plus R.
39:33
P sei gleich K plus R mit K aus N 0 und R größer als 0, aber kleiner gleich 1. Also insbesondere
39:42
sehen Sie, weil R größer gleich 1 ist, muss P immer größer gleich 1 sein. Richtig? Nee, falsch. P muss größer als 0 sein. Wäre auch seltsam.
40:05
Also ich habe P größer 0 und kann aber beliebig nah an die Nullen rangehen und C größer 0.
40:22
Dann heißt eine Funktion F von R D nach R D C glatt. Also jetzt hier ein großes C.
40:47
Ja, und vereinfacht ausgedrückt, wenn die Ableitungen von Ordnung K existieren und Hölder stetig sind mit Exponent R und Lipschitzkonstante C.
41:00
Jetzt müssen Sie noch sagen, was sind die Ableitungen von Ordnung K. Naja, das sind alle möglichen partiellen Ableitungen, wo Sie insgesamt K mal ableiten. Das heißt, wenn falls für alle K 1 bis K D, K 1 bis K D gibt mir an,
41:21
K I gibt mir an, wie oft leite ich in der Iten Komponente ab. Für alle K 1 bis K D. Das sind Zahlen aus N 0, also ich kann auch Null mal ableiten, gar nicht. Wobei ich insgesamt eben K mal ableite, also die Summe der K 1 bis K D soll K sein.
41:52
Und für alle solchen K 1 bis K D soll jetzt die partielle Ableitung von F, wo ich nach der ersten Komponente eben K 1 mal ableite, nach der zweiten Komponente
42:00
K 2 mal ableite und so weiter, die soll existieren. Soll die partielle Ableitung, ja ich schreibe gar nicht mehr partielle Ableitung hin, sondern direkt das Symbol dafür. D, F und ich brauche hier oben ein K. Und dann leite ich nach X 1
42:21
K 1 mal ab, nach X 2 K 2 mal ab und so weiter. Bis nach X D leite ich K D mal ab. Das ganze Ding soll existieren
42:43
und es soll weiterhin erfüllen. Ja, die Bedingung ist, es soll hölderstätig sein. Das heißt, Sie nehmen die Funktionswerte an zwei verschiedenen Stellen. Der Betrag der Differenz soll dann klarer gleich
43:01
einer Konstanten mal die Norm der Differenz hoch einem Exponenten und der Exponent ist gerade R und die Konstante ist gerade C sein. Das heißt, wir haben die K F nach
43:28
von X minus dem Ganzen von Z.
43:45
Das soll jetzt klarer gleich C mal Norm von X minus Z. Und der Exponent hier ist das R von oben aus dem P noch. Für alle X Z aus R D.
44:14
Das ist unsere zentrale Glattheitsvoraussetzung, die ich in der Vorlesung immer bei der Kurvenschätzung verwenden werde für die zu schätzende Funktion, wenn ich
44:21
Konvergenzgeschwindigkeit betrachte. Also, irgendwelche partiellen Ableitungen sind noch hölderstätig. Und welche Ordnung der partiellen Ableitung ich verwende und welchen Exponent bei der Hölderstätigkeit ich verwende, das drücke ich zusammen mit der Zahl durch eine Zahl P aus.
44:42
Weil das P können Sie dann immer eindeutig schreiben, wenn das P eine Zahl größer 0 ist als ein K plus R. K ist aus N 0 und R ist echt, echt größer als 0, aber noch maximal 1.
45:02
Im einfachsten Fall ist P kleiner gleich 1. Im einfachsten Fall, wenn P kleiner gleich 1 ist, ist K gleich 0. Dann betrachten Sie überhaupt keine Ableitungen, sondern die Funktion selber ist hölderstätig. Also, Bemerkung für P kleiner, im Fall Bemerkung,
45:22
im Fall von P kleiner gleich 1 ist eine Funktion PC glatt genau dann, wenn sie hölderstätig ist mit Exponent P und Hölderkonstante C.
45:46
Im Fall von P kleiner gleich 1 ist Funktion genau dann PC glatt, wenn sie hölderstätig ist
46:12
mit Exponent P und Konstante C.
46:52
Fragen soweit zu der Definition?
47:10
Die Norm schreibt eukligisch, ja. Aber im Prinzip ist es egal, welche Norm Sie nehmen, nur es würde ja die Konstante eben verändern, weil alle Normen im RD sind äquivalent, aber Sie haben vollständig Recht, sollte ich vielleicht dazuschreiben.
47:25
Hierbei, Norm von x zum Quadrat gleich und ich habe für x die Komponenten ja im Moment gerade die Bezeichnung x unten 1 bis x unten D verwendet. Ich werde sonst eigentlich immer
47:43
die Bezeichnung x oben in Klammern 1 bis x oben in Klammern D verwenden, aber das sieht hier so ein bisschen blöd aus, wenn Sie x oben in Klammern einschreiben und dann noch ein K1 dran schreiben, das sieht irgendwie nicht mehr schön aus. Deswegen machen wir es hier mal unten, x1 Quadrat plus xD Quadrat
48:01
für x gleich x1 bis xD. Aber haben Sie komplett recht fertig hinschreiben müssen. Zumal ich später auch die Abhängigkeit von der Konvergenzrate von der Konstanten C angebe. Dann spielt es eine Rolle.
48:23
Weitere Fragen? Dann erkläre ich Ihnen
48:40
als nächstes, was wir jetzt eigentlich zeigen wollen. Also im Folgenden zeigen wir, wobei ich es nicht ganz so genau
49:00
allgemein zeigen werde, wie ich es hier mal hinschreibe. Wir werden also nicht alle möglichen Fälle betrachten, aber eigentlich ist das der Kern von dem, was wir zeigen. Also das F, B, C glatt
49:27
und dann brauche ich noch irgendwas, dass ich nicht unbedingt so ein unbeschränktes Integral habe. Hier nehmen wir an, dass der Support von F, also der Abschluss der Menge aller x, wo die Funktion ungleich null ist, dass der
49:41
kompakt ist. Also insbesondere, dass er beschränkt ist, dass er bei C abgeschlossen, aber dass er beschränkt ist. Also die Menge, diese Funktion verschwindet außerhalb von der kompakten Menge mit Support von F kompakt. Vielleicht sollte ich noch hinschreiben, was der Support ist.
50:01
Das sind alle x aus Rd. Wo F von x ungleich null ist. Und davon machen Sie einen Abschluss. Support von F kompakt.
50:20
So gilt für Kernlichteschätzer Fn. Ich kann den erwarteten L1-Fehler
50:49
nach oben abschätzen, durch eine Konstante. Und dann durch einen Termin Abhängigkeit von Groß C und Abhängigkeit von N. Die Abhängigkeit von Groß C
51:00
ist C mit Exponent D durch 2P plus D. Und die Abhängigkeit von N ist N hoch minus P durch 2P plus D. Und das ist eigentlich das
51:23
Zentrale, was Sie sich merken könnten. Weil das ist so eine typische nicht-parametrische Rate in der Kurvenschätzung. Aber dazu müssen Sie
51:42
die Bandbreite speziell wählen. Nämlich für als Hn. Dann nehmen Sie eine andere Konstante. Und dann kommt ein C hoch minus 2
52:00
durch 2P plus D mal N hoch minus 1 durch 2P plus D. Und diese Ungleichung hat die Nummer
52:21
2,7 und habe ich vorher irgendwo hingeschrieben, wo 2,6 war. Ja doch, das war die andere. All diese Abschätzung hier hat die Nummer 2,7. All die Raten, die wir rausbekommen, verhalten sich oder die Geschwindigkeit, mit der das Ganze gegen null geht,
52:41
in Abhängigkeit von P und von N und D, ist N hoch minus P durch 2P plus D. Aber ich kriege sogar nicht asymptotische Schranken raus. Und wir werden schon später zeigen, also das erste, was wir jetzt heute
53:01
mal zeigen, für P kleiner gleich 1. Dann werden wir es im Fall P größer 1 und überlegen, da brauchen wir dann Kerne, die auch negativ werden können. Da werden wir es aber nur für D gleich 1 überlegen. Und wir werden hier in der Vorlesung den Fall,
53:20
also für 1 kleiner P kleiner gleich 2 schafft wir es auch mit Kerne, die, da brauche ich schon Kerne, die negativ werden können. Und das machen wir aber der Vereinfachheit halber der Notation nur für D gleich 1. Und dann werden sie sich eine Übung überlegen für allgemeines P. Und sie werden sich auch eine Übung überlegen, wie sieht es mit allgemein D aus.
53:41
Aber das ist das zentrale Resultat. Und dann werden wir, sobald wir die obere Schranke haben, auch zeigen, diese Schranke kann nicht maximal nur diese Konstante hier eigentlich verbessert werden. Also auch wenn wir den Schätzer bei Scott V. wählen, unter den Voraussetzungen. Gut, jetzt gucken wir uns noch an,
54:01
wie verhält sich denn diese Schranke in Abhängigkeit von N, von P, von D und von groß C. Bemerkung, die rechte Seite von 2,7,
54:27
die wird umso kleiner
54:46
je. Erstens, wie ist die Beziehung in Bezug auf N? Wann wird sie kleiner, was muss ich mit N damit machen? Und warum ist es plausibel? Kann mir vielleicht jemand von Ihnen sagen?
55:20
Wird sie umso kleiner, je
55:21
größer N wird oder wird sie umso kleiner, je kleiner N wird? Klar, ne? Je größer N wird, warum ist es plausibel? Ok, jetzt Sie meinen Sie, warum ist es plausibel, dass das da immer kleiner, na das ist klar, ne? Das sehen wir ja sofort, weil eben der Exponent
55:40
größer Null ist, bis auf das Minuszeichen, ne? Ich meine, warum ist es plausibel, dass der erwartete L1-Fehler immer kleiner wird, je größer N wird? Warum wird der Fehler meiner Schätzung kleiner? Weil wir mehr Daten haben. Alles ist klar, also wird umso kleiner, je größer N ist. Klar, weil ich
56:09
mehr Daten hab. Wie sieht's mit D aus? Und wenn wir mal die Abhängigkeit von den ersten Termin C vielleicht vernachlässigen, sonst nur angucken, die Rate im Vergleich zu N,
56:23
wird die besser oder schlechter, wenn D größer wird? Also wird es umso kleiner, je größer D ist oder je kleiner D ist.
56:45
Also hier steht ja insbesondere eine Konvergenzgeschwindigkeit, wie verhält sich das für N gegen N endlich, wenn ich 10-mal festhalte? Das ist, konvergiert mit der Geschwindigkeit gegen Null, ne? Das heißt, wenn ich mit dem Kehrwert von N multipliziere, dann ist die obere Schranke irgendwie eine Konstante.
57:02
Also konvergiert mit dem Ding gegen Null der Geschwindigkeit. Und jetzt, wird es besser, wenn D größer wird, oder wird es schlechter, wenn D größer wird? So, eine Münze werfen.
57:20
Je größer D ist, einverstanden? Je kleiner D ist, einverstanden? Mal schauen, wo je kleiner D ist, ne? Gut, wenn Sie das sagen. Ist klar, weil je kleiner
57:41
D ist, wenn Sie den, oder je größer D ist, wenn Sie den wenn Sie den Exponenten angucken, ohne das Minuszeichen, P durch 2P plus D, wenn D gegen endlich geht, geht der Exponent gegen Null, ne? Der wird also immer kleiner. Und dann ist natürlich N hoch Minus das ganze Ding, geht immer langsamer gegen Null. Also je kleiner D ist,
58:03
umso schneller geht es gegen Null. Warum ist denn das plausibel, im Hinblick auf den erwarteten L1-Fehler von unserem Schätzer? Oder finden Sie das plausibel?
58:22
Dass unser Schätzer umso schneller konvergiert, je kleiner die Dimension ist? Oder je kleiner dieses D ist?
58:51
Kommentar?
59:05
Für eine größere Dimension brauchen Sie mehr Daten. Das ist genau richtig, damit Sie das Ding noch überschätzen können. Je größer die Dimension von den Punkten ist, oder von der, das ist ja die Dimension von unseren Datenpunkten. Je größer die Dimension ist, umso schwieriger wird das Schätzproblem.
59:21
Warum? Naja, stellen Sie sich mal an, vor, Sie haben irgendwie D gleich 1 und Sie haben hier irgendwie einen kompakten Bereich. Und dann legen Sie da mal irgendwie ein paar Datenpunkte rein. Vielleicht 4 Stück. Und jetzt machen Sie das Gleiche für D gleich 2.
59:45
Und Sie legen hier auch wieder 4 Datenpunkte rein. Irgendwie equidistant versuchen Sie. Und dann stellen Sie sich vor, wie Sie machen es für D gleich 3 oder D gleich 4. Und Sie können sich das nicht mehr vorstellen, aber Sie sehen schon, also wenn ich hier anfange mit 4,
01:00:00
dann ist der Abstand ein Viertel. Wenn ich hier anfange mit vier, dann habe ich pro Komponente aber nur noch zwei Unterteilungen. Der Abstand geht irgendwie hoch. Und das ist der sogenannte Flug der Dimension. Das Problem wird immer, Schätzprobleme werden immer schwieriger, je höher die Dimension ist. Im Eigenmeinen. Und das dritte, naja, also wir sehen mit einem Schlag, wie
01:00:29
es sich mit C verhält. Weil C geht ja direkt ein. Also die wird umso kleiner, je kleiner C ist. Ach so, ich habe die J's doppelt hingeschrieben. Kleiner C ist. Und jetzt muss ich mir noch überlegen,
01:00:51
größer oder kleiner P ist. Und bei P gucke ich wieder, gucke ich mir wieder an,
01:01:04
nur die Abhängigkeit von N. Wie wirkt sich denn das aus? Wie wirkt sich denn das P auf den, auf die Konvergenzgeschwindigkeit aus? Vorschlag?
01:01:40
Wenn P größer ist, wird es besser, als je größer P ist. Ist richtig. Weil
01:01:48
Sie sehen ja dieses, ich schreibe es vielleicht hier nochmal anders hin, was Sie hier ja eigentlich haben. Also schreiben Sie das mal nicht mit. Ist ja ein N hoch minus eins durch zwei plus D durch P. Und jetzt sehen Sie, wenn P größer wird,
01:02:10
dann wird der Nenner hier kleiner. Damit wird der Bruch wieder größer. Damit wird der Exponent wieder negativer und damit konvergiert das Ganze schneller. Wieder die Frage, warum ist es plausibel? Also warum wird der Fehler
01:02:30
kleiner, je größer P ist und kleiner C ist. Wenn ich öfter differenzieren
01:02:40
wird, dann kann ich irgendwie sagen, meine Funktion wird glatter. Je mehr Ableitung Sie haben, umso glatter wird die Funktion, dann ist es einigermaßen plausibel, dass das rauskommt. Und andererseits, das C beeinflusst ja unmittelbar, wie stark die Ableitung noch schwanken kann. Also es ist
01:03:00
auch klar, je kleiner C ist, umso glatter ist die Ableitung. Also größer N ist, heißt einfach, Sie haben mehr Daten zur Verfügung. Kleiner D ist, Sie haben eine kleinere Dimension. Die Stichprobe des Schätzproblems wird einfacher. Kleiner C und größer P ist, umso glatter wird die Funktion.
01:03:21
Das Schätzproblem wird auch einfacher. Und was wir jetzt im Folgenden zeigen, wir zeigen genau diese Rate, 2,7 für den kandichtigen Schätzer und wir zeigen dann, kein anderer Schätzer kann unter den Voraussetzungen was Besseres erzielen. Fragen soweit? Sie haben eine Frage? Die konstanten Klein-C und C
01:03:48
quer sind zwei verschiedene Konstanten. Ja, also wir spezifizieren eben hier die Bandbreite nur bis auf eine Konstante und die Konstante geht hier auch wieder ein. Und hier wird auch Eigenschaften vom Kern werden
01:04:03
auch in die Bandbreite eingehen. Dann könnten Sie sich als nächstes überlegen, was muss ich als Kern wählen, damit die, damit die Konstante möglichst klein wird. Und da gibt es gewisse Überlegungen, aber normalerweise nur für den L2-Fehler wird man sowas machen. Dann gibt es einen
01:04:21
optimalen Kern, aber der optimale Kern hängt wieder von ihrer Glattheitsvoraussetzung ab. So gesehen ist auch der optimale Kern eigentlich nicht unbedingt sinnvoll zu verwenden. Also da kommt der sogenannte Epanechnikow-Kern her, dass Leute irgendwie Fehlerabschätzungen machen und dann versuchen die Konstanten bezüglich dem Kern zu minimieren. Also Epanechnikow-Kern kennen Sie ja auch aus
01:04:45
der mathematischen Statistik. Okay, noch Fragen? Das erste, was Sie hier mitnehmen können, hier kommen eben
01:05:04
Konvergenzgeschwindigkeiten raus, aber die hängen von der Glattheit der zu schätzenden Funktion ab, Punkt eins. Und dabei muss ich Parameter in Abhängigkeit von der Glattheit wählen. Da ich die Glattheit der zu schätzenden Funktion im Allgemeinen aber nicht kenne in der Anwendung, weil ich will sie ja gerade erst schätzen, dann weiß ich auch nicht, wie glatze ist, brauche
01:05:20
ich dann später wieder Verfahren, die diese Parameter automatisch wählen. Das wird unser dritter Teil in der Vorlesung sein oder der Abschnitt 2.4 dann, also der vierte nach der Einführung, nämlich zur Adaption. Gut, dann fangen wir mal an mit Satz 2.4, da zeige ich 2.7 im Fall P klar nicht
01:05:40
gleich 1. Es gibt Satz 2.4 und der Beweis ist relativ simpel, wie Sie sehen werden. Wir haben x, x1, x2 usw. unabhängig identisch verteilt mit
01:06:04
Dichte f. Dann habe ich einen Kernlichtschätzer fn von x und ich
01:06:41
mache es jetzt für festes h, tue ich die Abschätzung herleitend, deswegen habe ich kein hn, sondern habe ich ein h, m mal h hoch d, fn von x
01:07:01
1 durch n mal h hoch d, Summe i gleich 1 bis nk von x minus xi durch h mit h größer 0 und dann haben wir einen Kern k und da setze ich jetzt erst mal
01:07:31
das übliche voraus. Kern ist integrierbar, also integral über Betrag von k von x dx ist klein unendlich und integriert zu 1. Dann
01:08:03
machen wir die Voraussetzungen unserer Dichte. Erstens unsere Dichte sei pc glatt für ein p zwischen 0 und 1 und ein c größer 0 und zweiten Support von p ist kompakt für f gelte und das mache ich jetzt hier
01:08:34
vielleicht noch rot, weil das ist jetzt noch momentan die starke Einschränkung, die wir drin haben, kleiner gleich 1, 1c größer 0,
01:09:03
zweiten Support von f kompakt und jetzt brauche ich noch weitere Voraussetzungen an den Kern, nämlich ich brauche, da ist auch das integral über k quadrat integrierbar oder existiert, also k ist sogar
01:09:21
quadratisch integrierbar und ich brauche, dass norm x hoch p mal Betrag von k von x ebenfalls integrierbar ist. Weiter gelte integral rd, also
01:09:43
norm von x hoch p mal Betrag von k von x klein unendlich und integral
01:10:03
über rd, k von x zum Quadrat x. Dann sind das soweit unsere Voraussetzungen,
01:10:26
die wir brauchen. Also Sie können ja für den Kern zum Beispiel, der naive Kern erfüllt das alles, ist klar. Naive Kern, Sie nehmen die
01:10:41
Indikatorfunktion zum Würfel mindestens halb, einen Halbbruch d, haben Sie es natürlich ganz klar erfüllt. Und dann ist die Aussage, dann gilt
01:11:06
der erwartete L1-Fehler, können Sie nach oben abschätzen durch eine Konstante c1 h hoch d plus eine Konstante c2 mal c mal h hoch p und ich könnte
01:11:38
jetzt noch hinschreiben, was ich für die Konstanten c1, c2 fordere. Für
01:11:42
Konstanten c1, c2, die hängen ab vom Support von f, von der Dimension d und von diesen Integralen, die ich da hingeschrieben habe. Da machen wir vielleicht vier Konstanten c1, c2, die von dem Support von f, eigentlich dem
01:12:09
Lebesmaß vom Support von f abhängen, von der Dimension d, vom Integral über rd, Norm von x hoch p, mal Betrag von k von x, dx und diesen zweiten
01:12:32
Integral hier. Ja und jetzt können Sie als nächstes, jetzt haben Sie eine
01:12:57
Abschätzung für den erwarteten L1-Fehler. Die können Sie jetzt minimieren
01:13:01
bezüglich der Bandbreite. Sie sehen, wenn Sie die Bandbreite sehr klein wählen, also wenn die Bandbreite gegen Null geht, dann geht der erste Term 1 durch c1 mal Wurzel aus n mal h hoch d gegen endlich. Umgekehrt, wenn die Bandbreite sehr groß wird, also h gegen endlich, geht der zweite Term c2 mal c mal h hoch b gegen endlich. Wir gucken uns gleich an, wie berechnen Sie das Minimum und dann kommt eben diese Bandbreite hier raus. Also
01:13:30
die Abschätzung 2,8 sollte ich noch dazu schreiben, insbesondere für h gleich c3
01:13:53
mal c hoch minus 2 durch 2p plus d mal n hoch minus 1 durch 2p plus d. Der
01:14:11
erwartete L1-Fehler. Und das ist jetzt so gewählt, dass beide Terme in
01:14:28
von groß c und klein n den gleichen Wert annehmen, also bis auf Konstanten und der Wert, der dann rauskommt. Kleiner Gleich in der Konstanten. C4 mal c hoch d durch 2p plus d
01:14:48
mal n hoch minus p durch 2p plus d. Das ist die Ungleichung 2,9. Okay, Fragen soweit?
01:15:30
Also Sie sehen vielleicht, wenn Sie dieses h da einsetzen, können Sie leicht ausrechnen, kommt in der Tat das raus. Aber wir machen uns noch klar, wie kommen wir auf dieses h? Das geht wie folgt. Bemerkung, wir betrachten mal
01:15:57
groß a, b, größer 0 und dann gucken wir uns an der Funktion f und u. Also
01:16:07
ich bezeichne jetzt die Bandbreite oben mit u und überlege mir, alles andere stecke ich in die a und bs rein. Also die Bandbreite in 2,8 bezeichnen mit u, alles andere in b. Dann sehen Sie, das ist ein a durch u hoch d
01:16:22
halbe. Dann haben wir b mal u hoch p und jetzt können Sie das minimieren bezüglich u größer 0. Wird minimal für und dann wissen Sie eben, da muss
01:16:49
die Ableitung gleich 0 sein. 0 muss f Strich von u sein. Das notwendige Bedingung fürs Minimum. Und dann leiten wir mal ab. Dann bekommen wir
01:17:04
ein a mal minus d halbe mal u hoch minus d halbe minus 1 plus b mal p mal u hoch p minus 1. Bringen Sie es auf verschiedene Seiten. Dann sehen Sie und schaffen
01:17:29
vielleicht das ganze u in die eine Richtung. Dann ist es insgesamt mit u, also bezüglich u bekommen wir ein u hoch p plus d halbe und das ganze
01:17:50
auf die andere Seite. Dann bekomme ich ein a mal d durch b mal 2p oder sowas.
01:18:00
Oder ich kann auch direkt ein d durch 2p rausziehen. Das sind eine Konstante. Und das a und b sind die interessanten Terme. a durch b und jetzt können wir noch die Wurzel ziehen. Dann oder das da ist ja 2p plus d durch 2.
01:18:21
Jetzt lösen wir auf nach u. Dann bekommen wir auf d durch 2p mal a durch b und dann habe ich gesagt, das war vorhin noch ein 2p plus d durch 2. Das heißt, ich komme auf ein 2 durch, das exponent ist 2 durch 2p plus d. Und dann sehen Sie, die
01:18:53
Funktion hat nur eine einzige Nullstelle. Andererseits für u gegen 0 geht der Funktionswert gegen endlich, für u gegen endlich geht der Funktionswert gegen endlich. Das heißt, die einzige Nullstelle muss auch die
01:19:02
Minimalstelle sein. Und jetzt setzen wir ein mit a gleich. Wir nehmen das
01:19:21
aus 2,8. Da ist a ist c1 durch Wurzel n und b ist c2 mal c. Und wenn Sie sich
01:19:53
dann das u angucken und sich überlegen, wie hängt das u von n ab und wie hängt das u von c ab, dann sieht man schon mal, das u hängt von n, geht dann nur in a ein.
01:20:02
Das heißt, es ist 1 durch Wurzel n hoch 2 durch 2p plus d. Das heißt, es ist n hoch minus 1 durch 2p plus d. Das ist das, was hier steht. Und das c wiederum geht nur in b ein. Das ist dann c hoch minus durch 2p plus d und
01:20:22
das ist auch das, was hier steht. Also mit a gleich d und b gleich c ergibt sich die Bandbreite aus Satz 2,4. Die Bandbreite aus Satz 2,4 ist eben
01:20:53
entstanden, indem Sie diese obere Abschätzung, die Sie haben, bezüglich der Bandbreite minimieren. Und dann ist es folgendes einfach, wenn Sie einsetzen,
01:21:04
was der Minimalwert, es gibt sich insbesondere von dieser, es gibt sich das hier als Größenordnung des Minimalwerts. Das heißt, letzten Endes, was Sie noch zeigen, was Sie eben zeigen müssen für den Satz 2,4, ist die Beziehung 2,8. Okay, Fragen soweit? Ja, da muss ich Ihnen zum Abschluss noch
01:21:37
gestehen, dass ich nächsten Mittwoch irgendwie Staatsexamenprüfung auf meine
01:21:42
Vorlesung gelegt habe, was ein bisschen schwierig ist, weil ich ja gleichzeitig in der Prüfung sitzen soll und meine Vorlesung halten. Aber die naheliegende Lösung ist natürlich, ich teile mich auf und ich schieke Ihnen dann meinen Double Herrn Müller vorbei und er hält wahrscheinlich gar nicht auf, oder so. Ja, und ich habe zwei Sachen gleichzeitig erledigt,
01:22:03
das war nicht schlecht. Okay, also nächsten Mittwoch, Herr Müller wird dann diesen Satz beweisen, damit haben Sie die Fragestellung erst mal erschlagen, für P kleiner gleich 1 und dann wird er Ihnen zeigen, was ist für P größer 1 im Fall D gleich 1. Okay, damit wäre ich für heute fertig.