We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Untere Minimax-Konvergenzrate, Teil 1

00:00

Formale Metadaten

Titel
Untere Minimax-Konvergenzrate, Teil 1
Serientitel
Teil
23
Anzahl der Teile
24
Autor
Lizenz
CC-Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
MengePrognoseVarianzWahrscheinlichkeitsverteilungZufallsvariableUnendlichkeitGleichverteilungLineare RegressionUntere SchrankeZahlenbereichVerteilungsfunktionVektorParametersystemGlattheit <Mathematik>Klasse <Mathematik>RegressionsschätzungKonvergenzgeschwindigkeitGrößenordnungSchätzfunktionWertevorratMinimumObere SchrankeKurvenschätzungGeschwindigkeitEinfach zusammenhängender RaumInhalt <Mathematik>SchätzungGradientRegressionsfunktionVorlesung/Konferenz
MathematikPrognoseZufallsvariableEinfach zusammenhängender RaumErwartungswertSummeDichte <Physik>RundungEnde <Graphentheorie>Vorlesung/Konferenz
MengeVarianzWahrscheinlichkeitstheorieQuadratZufallsvariableVariableIntegralEinfach zusammenhängender RaumErwartungswertRandverteilungTermSummeVektorAbleitung <Topologie>Dichte <Physik>ExponentialfunktionNormalverteilungDesintegration <Mathematik>VerteilungsfunktionParametersystemSeidelVorlesung/Konferenz
PrognoseVektorrechnungQuadratLokales MinimumNorm <Mathematik>SkalarproduktVektorGradientFormfaktorE-FunktionMinimumMeterIntegralAuswahlaxiomDichte <Physik>ExponentialfunktionVorlesung/Konferenz
QuadratZufallsvariableAlgebraisch abgeschlossener KörperMultiplikationSkalarproduktTermWinkelVektorDimension 3TermumformungAlgebraPhysikalische GrößeNorm <Mathematik>QuadratzahlRundungVorlesung/Konferenz
Folge <Mathematik>NormalverteilungPhysikalische GrößeVarianzFaktorisierungQuadratZufallsvariableZusammenhang <Mathematik>UngleichungEinfach zusammenhängender RaumErwartungswertIndexSkalarproduktVerteilungsfunktionSummeDichte <Physik>UmfangGewicht <Mathematik>MomentenproblemVektorVorlesung/Konferenz
ParameterschätzungWahrscheinlichkeitsverteilungFaktorisierungQuadratBetafunktionExponentIndexTeilmengeUntere SchrankeKonstanteLängeParametersystemAbleitung <Topologie>Klasse <Mathematik>RegressionsfunktionNatürliche ZahlZahlFunktion <Mathematik>Physikalische GrößeHausdorff-RaumLineare RegressionStichprobenumfangGlattheit <Mathematik>GradientSchätzfunktionVorlesung/Konferenz
VektorrechnungFunktion <Mathematik>WahrscheinlichkeitsverteilungBetafunktionEinfach zusammenhängender RaumGleichverteilungTeilmengeZahlenbereichSummeVektorLängeDichte <Physik>Klasse <Mathematik>RegressionsfunktionEnde <Graphentheorie>ParametersystemGradientWeg <Topologie>SeidelVorlesung/Konferenz
VerschlingungFinite-Elemente-MethodeRaum <Mathematik>Funktion <Mathematik>WahrscheinlichkeitsverteilungQuadratGleichmäßige BeschränktheitSchätzungSummeParametersystemRegressionsschätzungGrößenordnungSchätzfunktionObere SchrankeRegressionsfunktionFolge <Mathematik>Lineare RegressionWeg <Topologie>ComputeranimationVorlesung/KonferenzTafelbild
Gleitendes MittelApproximationMengeVektorrechnungFunktion <Mathematik>FaktorisierungQuadratKoalitionLineare RegressionMomentenproblemNorm <Mathematik>PositionSkalarproduktSummeOrthogonale ProjektionRechnenBasisvektorAbschätzungSchätzfunktionVorlesung/Konferenz
Transkript: Deutsch(automatisch erzeugt)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung in der Kurvenschätzung. Ich mache vielleicht das Mikro noch mal ein bisschen leiser, das ist wie immer, nein, das ist schon auf 50%, okay, ist schon leise.
Gut, wir sind stehen geblieben bei unteren Schranken zur Konvergenzgeschwindigkeit in der nicht-parametrischen Regression. Wir haben das im Minimax-Setting oder leiten die her im Minimax-Setting. Dazu haben wir die folgende Definition. Wir haben gegeben eine Klasse von Verteilungen von x, y und script D. Wir haben gegeben Zahlen a in größer Null.
Die Folge der a n heißt eine untere Minimax-Konvergenzrate für D. Falls, wenn Sie den L2-Fehler von einem beliebigen Schätzer nehmen, geteilt durch a n, dann das Supremum über alle Verteilungen aus der Klasse bilden, dann das Infimum über alle möglichen Schätzer, dann soll davon der Limes Inferior größer Null sein.
Das heißt, der erwartete L2-Fehler hat eine Teilfolge, die nicht schneller gegen Null geht als das a n. Dann sprechen wir von einer unteren Minimax-Konvergenzrate. Wir sprechen entsprechend von einer oberen Minimax-Konvergenzrate. Wenn wir einen konkreten Schätzer oder einen, zeigen können, es existiert einen Schätzer,
mit der Eigenschaft, dass wenn ich den erwarteten L2-Fehler von diesem Schätzer durch a n teile, dann das Supremum über alle Verteilungen bilde, dann ist davon der Limes Superior kleiner unendlich. Das heißt, der erwartete L2-Fehler konvergiert so in der gleichen Größenordnung wie a n gegen Null.
Und dann definieren wir eine optimale Minimax-Konvergenzrate, wenn es eben gleichzeitig untere und obere Minimax-Konvergenzrate ist. Wir haben uns dann eine spezielle Klasse von Verteilungen angeguckt, wo erstens ist die Klasse Script D, oben P, C,
wo erstens x eine Gleichverteilung auf 0,1 hoch D ist, zweitens y ist eine Funktion m von x plus ein von x unabhängigen standard-normal verteilter Fehler, und drittens und viertens diese Funktion m ist einerseits PC glatt und andererseits betragsmäßig durch 1 beschränkt.
Wir haben dann gerade noch formuliert beim letzten Mal den Satz 4, 16, den wir heute zeigen wollen. In diesem Fall ist n hoch minus 2P durch 2P plus D, also beachten Sie, das P ist dieses kleinen P von der Glattheit von der Regressionsfunktion, eine untere Minimax-Konvergenzrate für diese Klasse.
Und da wir in Corolla 4.1.2 gesehen haben, oder aus Corolla 4.1.4.12 folgt, dass n hoch minus 2P durch 2P plus D auch eine obere Minimax-Konvergenzrate für diese Klasse von Verteilungen ist, im Falle, dass klein P kleiner gleich 1 ist,
und zwar selbst dann, wenn wir erstens abschwächen zu nicht einer Gleichverteilung, sondern x nimmt nur Werte in 0, 1 hoch D an oder einem sonstigen Kompaktum, und zweitens abschwächen nicht dazu, dass y ist ein m von x plus eine standard-normal verteilte Zufallsvariable, die unabhängig ist, sondern nur die bedingte Varianz von y gegeben,
groß x gleich klein x ist beschränkt, zum Beispiel durch 1. Dann wissen wir, dass diese Rate für die Klasse DPC oder auch für die größere Klasse mit der entsprechenden Abschwächung optimal ist. Wir hatten untere Schranken zur Konvergenzgeschwindigkeit bereits in der Dichteschätzung,
und wir machen einen Beweis, der im gewissen Sinne ähnlich ist, nämlich wir definieren uns uns wieder eine Unterklasse von Verteilungen, die wir betrachten ganz speziell, die wird von einem Parameter abhängen und dann werden wir den Regressionsschätzer verwenden, um diesen Parameter vorherzusagen
und werden zeigen, das geht nicht beliebig genau. Dazu brauchen wir Lemma 4.17, was wir im letzten Mal noch formuliert haben und was ich jetzt direkt zeigen werde, das ist der erste Schritt heute.
Sie sehen nicht unbedingt sofort den Bezug, aber werden es dann heute im Lauf des Beweises irgendwann sehen oder wenn noch nicht heute soweit kommen, dann beim nächsten Mal. Sie haben gegeben ein Vektor u aus RL. Sie wissen, N ist eine RL-wertige standardnormal verteilte Zufallsvariable. Das heißt, die L-Komponenten von N sind unabhängig standardnormal verteilt.
Und Sie wissen, C ist eine Zufallsvariable, die nur die Werte minus eins und eins annimmt und zwei jeweils mit Wahrscheinlichkeit ein halb. Und so, dass C und N unabhängig sind. Dann kennen Sie u, aber Sie beobachten z, das ist C mal u plus N.
Also der zufällige Wert von C, also plus oder minus eins, mal u plus einen standardnormal verteilten Fehler. Und jetzt wollen Sie den Wert von C vorhersagen. Also Sie suchen im Prinzip eine Funktion g vom Wertebereich von z, das ist der R oben L, in die Menge minus eins eins, sodass g von z eine Vorhersage für C ist.
Und das wollen Sie so machen, dass die Wahrscheinlichkeit einer falschen Vorhersage möglichst klein ist. Dann definieren Sie 11 Sternen, das ist die optimale Fehlerwahrscheinlichkeit, die Sie hier machen können. Also das Minimum über alle g von RL nach minus eins eins. Eigentlich messbar, habe ich hier nicht dazugeschrieben von der Wahrscheinlichkeit, dass g von z ungleich C ist.
Und die Behauptung ist, dieses 11 Sternen können Sie ausrechnen, da kommt Verteilungsfunktion der standardnormal Verteilung raus an der Stelle minus Norm von u. Und wir haben auch beim letzten Mal schon gesehen, okay, wie würden wir das intuitiv machen?
Wir kriegen C mal u plus n, n schwankt irgendwie um die Null, also wir würden n vielleicht ignorieren. Wir würden sagen, unsere Beobachtung ist entweder minus mal u oder plus u, und wenn sie minus u ist, dann sagen wir minus eins voraus, wenn sie plus u ist, sagen wir plus eins voraus. Und jetzt bekommen wir aber nicht genau minus u oder plus u, also u kennen wir ja auch, sondern noch eine kleine Abweichung.
Daneben sagen wir eben minus eins vorher, wenn unsere Beobachtung näher an minus u ist als an plus u. Und das wird sich jetzt heute auch als richtig voraus oder als optimal heraustellen. Gut, dann fangen wir mal an mit dem Beweis.
Das war das erste, was ich heute machen wollte. Und die Idee ist, wir rechnen es einfach aus. Gibt Beweis von Lemma 4-17.
Wir gucken uns mal die Wahrscheinlichkeit für eine falsche Vorhersage an, für ein beliebiges g von rl nach minus eins eins. Also g, und naheliegenderweise g muss messbar sein,
sonst kann ich diese Wahrscheinlichkeit gar nicht hinschreiben. Wie uns interessiert die Wahrscheinlichkeit, dass g von z umgleich z ist. Und was z ist, wissen wir.
Setzen wir einfach ein. Das ist die Wahrscheinlichkeit. z war nach unserer Definition das c mal klein u plus n.
Und dann kommen wir auf die Wahrscheinlichkeit, dass g von c mal u plus n umgleich c ist. Hierbei ist c eine auf minus eins eins gleichverteilte Zufallsvariable. n ist eine standardnormalverteilte Zufallsvariable rl.
Beide sind unabhängig. Diese Wahrscheinlichkeit wollen wir ausrechnen. Und dann irgendwie g so wählen, dass diese Wahrscheinlichkeit so klein wie möglich wird. Wie können wir die ausrechnen? Na ja, wir spalten mal auf in den Fall, dass c gleich minus eins ist und dass c gleich plus eins ist. Zwei disjunkte Ereignisse. Ein von beiden tritt hier ein. Dann sehen Sie sofort,
ist entweder die Wahrscheinlichkeit, dass dieses g von c mal l plus n ungleich c ist und c ist gleich minus eins. Na gut, wir machen einen Zwischenschritt. c mal u plus n ungleich c. c gleich minus eins.
Und die Wahrscheinlichkeit, dass es gleiche eben eintritt, aber c ist gleich plus eins. Und klar ist die Wahrscheinlichkeit von diesen beiden.
Ist die Summe von diesen beiden Wahrscheinlichkeiten. Mir hat übrigens jemand in meine Vorlesensumfrage reingeschrieben
oder zwei oder drei Leute haben reingeschrieben, es wäre ästhetisch extrem störend, dass ich geschweifte Klammern manchmal schreibe, für beim Erwartungswert. Da haben Sie im Prinzip Recht. Als ich 1995 meinen Studienabschluss gemacht habe, habe ich das genauso gut gesehen wie Sie. Weil ich hatte mal gelernt, man schreibt eckige Klammern.
Nur dann habe ich mit der Mathematik irgendwie angefangen, Deutschland zu verlassen und festgestellt, dass wenn Sie Internationales machen, kein Mensch eckige Klammern schreibt. Und dann ist die Frage, wollen Sie wirklich Ihr Leben lang eckige Klammern bei Wahrscheinlichkeiten schreiben? Und da schreiben international eben doch die meisten geschweifte Klammern. Obwohl ich zugebe, es sieht echt schlecht aus.
Aber es ist halt so, das ist die Mehrheit. Okay, deswegen schreibe ich, also im Prinzip, ich schreibe abwöchentlich mal geschweifte eckige. Wir könnten auch runde Klammern schreiben, aber eigentlich, ich glaube, das international üblichste wäre, glaube ich, fast. Zumindest bei den Leuten, mit denen ich zusammen arbeite, sind geschweifte, sind Mengenklammern für Wahrscheinlichkeiten.
Gut, was machen wir jetzt? Ja, jetzt kann ich ja vorne den Wert von C einsetzen. Weil hier hinten, in diesem Ereignis, ist ja C gleich minus eins. Also ist minus eins, g von minus eins minus u minus eins mal u plus n soll ungleich minus eins sein. Da g nur Werte minus eins und plus eins annimmt, muss in dem Fall g gleich eins sein.
Das heißt, das erste Äquivalent dazu, das g von, soll jetzt ungleich minus eins sein, und ist genau das gleiche machen sie mit dem zweiten.
Dann sind sie so weit. Also am ersten Wahrscheinlichkeit, g von minus u plus n gleich eins und C gleich minus eins,
plus zweite Wahrscheinlichkeit, g von u plus n gleich minus eins und C gleich eins. Jetzt wissen Sie, C und n sind unabhängig. Dann ist die Wahrscheinlichkeit, diese gemeinsame Wahrscheinlichkeit, das Produkt der Einzelwahrscheinlichkeit, die Wahrscheinlichkeit, dass C gleich minus eins ist,
ist gleich die Wahrscheinlichkeit, dass D gleich eins ist, also mit der Unabhängigkeit, die Wahrscheinlichkeit, dass C gleich eins ist, kann ich das schön umschreiben, das ist ein halbmal die eine Wahrscheinlichkeit, plus ein halbmal die zweite Wahrscheinlichkeit.
Und schon sind wir unser Groß C los.
Soweit klar, oder Fragen?
Ich fasse das mal als keine Frage auf. Dann rechnen wir die Wahrscheinlichkeiten. Ach so, hier ist eine,
also war es natürlich international auch nicht üblich, wäre eine offene, runde Klammer auf und eine geschweifte zu. Der war neu. Aber so stimmt es da wieder. Jetzt rechnen wir die Wahrscheinlichkeit von uns aus. Wir kennen ja im Prinzip die Verteilung von n. n hatte l unabhängig standardnormal verteilte Komponenten.
Dann können Sie diese Wahrscheinlichkeit umformen. Weil Sie können das umschreiben als ein Integral bezüglich der Verteilung von n. Dann ausnutzen Sie kennen eine Dichte von n. Was ist eine Dichte von n? n hat Dichte phi von v
und v hat die Komponenten v, also phi von v1 bis vl. Ich schreibe es vielleicht noch mal einzeln hin.
Das ist einmal eine Bezeichnung für die Komponenten. Sie haben ein Vektor von unabhängigen standardnormal verteilten Zufallsvariabeln. Die Dichte von dem Vektor, wissen Sie, ist einfach Produkt der Dichten der Randverteilung. Das heißt, wir kommen auf ein Produkt hier gleich 1 bis l
und die einzelnen Terme ist die Dichte der standardnormal Verteilung ausgewertet an der lten Komponente. Also 1 durch Wurzel 2 pi mal e hoch minus v in dem Fall e der Komponente, vi zum Quadrat halbe.
Und jetzt können Sie die Summe, dieses Produkt, noch in die Exponentialfunktion ziehen. Das gibt einen, vom Vorfaktor haben Sie einen 2 pi hoch minus l halbe.
Und dann kommen Sie auf ein e hoch minus Summe i gleich 1 bis l, vi zum Quadrat halbe. Das ist gerade die Norm von v zum Quadrat, also Minusnorm von v zum Quadrat halbe. Sind wir so weit.
Und damit können wir das hinschreiben, aber ich schreibe es ein bisschen anders hin. Statt auszunutzen, dass ich eine Dichte von n kenne, nutze ich aus, dass ich eine Dichte von minus u plus n und von u plus n kenne. Also daraus folgt minus u plus n die Dichte
von u plus n. Haben Sie einen Vorschlag, wie die Dichte von minus u plus n aussieht oder die Dichte von u plus n? Wenn Sie die Dichte von u kennen, von n kennen,
die Antwort ist, ich muss sie einfach nur verschieben. Das ist also dann vi von v minus u bzw. vi von v plus u.
Das ist soweit richtig. Jetzt ist nur die Frage, was ist die Dichte von was? Ok, jetzt kommt die Antwort, vi von v plus u ist die Dichte von minus u plus n. Das ist richtig. Das hat die Dichte vi von v plus u
und der hat die Dichte vi von v minus u. Und jetzt ist die Frage, wie kommt man darauf? Also woran sehen Sie das? Entweder Sie sehen es intuitiv sofort oder Sie machen sich so etwas klar, Sie gucken sich mal an, wie groß ist die Wahrscheinlichkeit, dass
minus u plus n in einer Menge a drin liegt. Ja, das könnten Sie auch sagen, das n liegt in der Menge u plus a drin, also klein u plus a, wobei Sie u plus a definieren, Sie addieren zu jedem einzelnen Element aus der Menge a das u. Dann können Sie es umschreiben als ein Integral über die Menge u plus a über die Dichte
vi von v. Und dann ist die Frage, was passiert, wenn dieses plus von dem Integrant in die Dichte wandert? Und das ist unschön, ne? Aber eigentlich klar, es gibt eben plus vom, hier ein plus von dem Argument und hier ein minus von dem Argument.
Das ist eine Sache, was Sie sehen können. Das zweite, Sie können sich erinnern, es gibt einen Transformationssatz für Dichten, den wir in der Wahrscheinlichkeitstheorie nicht behandelt haben. Da ist es erinnern natürlich ein bisschen schlecht oder so. Ich glaube, ich habe sogar aus dem Skript rausgenommen, damit hätten Sie es mit einem Schlag. Das dritte, in dem Spezialfall, Sie machen sich klar,
also die dritte mögliche Begründung, was passiert denn mit minus u plus n? Da addieren Sie einfach die Komponenten von dem minus u zu jeder einzelnen Komponente von n. Dann bleibt natürlich diese Komponente normal verteilt. Die Varianz bleibt auch eins, nur der Erwartungswert verschiebt sich.
Der Erwartungswert wird auf einmal minus u. Was passiert mit der Dichte, wenn der Erwartungswert minus u ist? Naja, da ziehen Sie von dem Argument v von i noch minus u ab. Das heißt, die addieren eigentlich u dazu und das heißt, dass hier gerade die Norm von v plus u steht, was genau das gibt, wenn Sie hier v phi plus u
hinschreiben. Also in dem Spezialfall sehen Sie es auch. Das wäre eine dritte mögliche Begründung. Vierte mögliche Begründung gegenüber die Ableitung der Verteilungsfunktion, aber die lasse ich vielleicht weg. Also entweder man sieht es mit einem Schlag, das ist einfach nur eine Verschiebung, deswegen verschiebt sich die Dichte, aber phi ist eben, sie verschiebt sich nicht so
wie die Zufallsvariable, sondern genau entgegengesetzt. Oder man sieht es im Spezialfall, dass es ein Normalverteilt ist, falls Variable ist. Okay, ist das klar? Also ich habe es kapiert, schon mal einer.
Ja, dann ist aber klar, wie wir das umschreiben können. Jetzt können wir das umschreiben als Integrale. Dann hören wir ein halbmal. Also unser P, diese Wahrscheinlichkeit, die wir da unten haben, ist ja eigentlich ein Erwartungswert von der Indikatorfunktion. Wir schreiben es hier als Erwartungswert von der Indikatorfunktion und diesen Erwartungswert von der Indikatorfunktion. In der Indikatorfunktion taucht eine Zufallsvariable auf,
deren Dichte wir kennen. Das schreiben wir als ein Integral von diesem Argument mit Integrationsvariable anstelle der Zufallsvariable mal der Dichte. Okay, das gibt dann ein halbmal Integral, eigentlich über RL jetzt.
Dann kommt diese Indikatorfunktion mit dem Argument. Das Argument ist jetzt ein G von Z gleich. Im ersten Fall war es 1.
Dann kommt die Dichte. Die Dichte war V plus U. V ist jetzt mal ein Z. Also ein Z plus U. Und dann kommt es gleich noch mal. Nur jetzt mit der
zweiten Dichte und der Indikator war diesmal gleich minus 1.
Die Dichte ist dann viel von Z minus U, die U. Und wir haben das.
Stimmt es auch? Ja, ich finde, das sieht ganz gut aus. Ah,
sollten wir im zweiten Integral nicht auch bezüglich Z integrieren? Ja doch, eigentlich schon. Warum sollen wir bezüglich U integrieren? Das macht ja keinen so rechten Sinn hier. Da haben Sie schon recht. Nachdem ich Stimmts gesagt habe, naja, Stimmts, naja, ist gut. Also Z verloren, Z gefunden.
Ist ja super. Gut, sonst noch Anmerkungen. Jetzt fassen wir die beiden Integrale noch zusammen. Den halb lassen wir vielleicht mal stehen.
Halb mal Integral über RL. Dann haben Sie den Indikator G von Z gleich 1 ist.
Und wir integrieren wieder bezüglich Z.
Und dann überlegen wir uns, wann wird dieses Integral minimal? Wie muss ich G wählen, damit dieses Integral minimal wird? Die Aussage ist, diese ganze Wahrscheinlichkeit wird minimal für G gleich G Stern
mit, und jetzt die Frage, was ist G Stern? Und das könnten Sie an der Stelle eigentlich sehen. Weil wenn Sie sich mal überlegen, was passiert hier, an jeder einzelnen, Sie können dieses Integral minimieren, indem Sie den
Integranten minimieren an jedem einzelnen Z. Und wie minimiere ich den Integranten an dem einzelnen Z? Naja, bei jedem einzelnen Z kommt in dem Integral entweder Phi von Z plus U vor, dann ist G von Z gleich 1, oder Phi von Z minus U, dann ist G von Z gleich minus 1. Einer von beiden Werten
kommt vor. Minimal wird es, wenn ich immer den kleineren wähle. Also wähle ich G einfach so, dass ich immer den kleineren auswähle. Ja, für G gleich G Stern mit G Stern Stern von Z. Ich würde also sagen, ich wähle 1,
falls das erste Integral das kleinere ist. Phi von Z plus U, richtig? Ja, irgendwie schon. Phi von Z minus U, und ich wähle minus 1 sonst.
Also im Gleichheitsfall ist es im Prinzip egal, was ich wähle. Wenn es gleich ist, kann ich plus 1 oder minus 1 wählen, aber ich mach so. Und wir haben ja gesagt, mein U ist gegeben. Also ich kenne mein U. Und ich kenne ja auch Phi.
Das war mein Produkt von den standardnormal verteilten Dichten. Und damit kann ich das ausrechnen. Und wir haben unsere optimale Vorhersagefunktion gefunden. Und wir müssen jetzt nur noch ausrechnen, was kommt in diesem Fall raus.
Schon sind wir fertig. Das soweit klar. Oder Fragen, Anmerkungen.
Das war eigentlich relativ einfach. Wir haben einfach darauf losgerechnet. Und haben das eben schlau dargestellt. Und am Schluss konnten wir es punktweise minimieren. Das Integral. Wenn wir es punktweise minimieren, tatsächlich ging das ganz einfach. Gut, jetzt
schreiben wir das noch ein bisschen um. Was bedeutet es, dass Phi von Z plus U kleiner Phi von Z minus U ist?
Wir schreiben das mal äquivalent um, sodass es schöner dasteht. Ich setze einfach mal ein. Phi von Z plus U. Ich habe diesen Vorfaktor. Und ich habe den Vorfaktor auf beiden Seiten. Ja doch, ich schreibe es trotzdem hin. Also wir schreiben es hin. 2 Pi hoch minus L halbe mal dann haben wir eine Exponentialfunktion
von Minus Argument Norm zum Quadrat. Also Z plus U zum Quadrat. Norm von Z plus U zum Quadrat halbe. Das soll kleiner sein, als der gleiche Ausdruck nur das Plus-U durch Minus-U ersetzt. Sind wir so weit?
Ja, aber wollen wir uns umformen. Wir können den Vorfaktor komplett vergessen. Der steht auf beiden Seiten. Können wir rauskotzen. Dann soll E hoch minus die Norm von dem einen Vektor zum Quadrat. Soll kleiner eins E hoch minus die Norm von dem anderen Vektor
zum Quadrat sein. Ja, das ist klar. Dann muss diese Norm von dem Vektor muss größer sein. Wenn die hier größer ist als die, dann sind wir fertig. Das heißt, wir haben in dem Fall Norm von Z Z plus U zum Quadrat soll größer als
Norm von Z minus U zum Quadrat sein. Und dann sehen Sie, da sind wir da, was wir intuitiv sofort geraten
haben, weil das heißt ja nichts anderes, als das Z näher an U dran ist, weil der Abstand zu U ist kleiner als der Abstand zu minus U. Z ist näher als ein U, als ein Minus U. Wenn Z näher als ein U ist, dann sagen wir, das ist plus eins an das minus eins. Das war das Gleiche, was wir intuitiv geraten haben.
Okay, jetzt nutzen Sie aus die Norm zum Quadrat im Euklidischen. Das ist einfach das Skalarprodukt des Vektors mit sich selber. Sie rechnen das Skalarprodukt aus. Dann kommen Sie auf Norm von Z plus U zum Quadrat ist Norm Z Quadrat plus zwei mal Skalarprodukt von Z mit U
plus Norm U Quadrat. Während Norm von Z minus U zum Quadrat ist Norm Z Quadrat minus zwei mal Skalarprodukt von Z, U plus Norm U Quadrat. Schreiben Sie hin, bringen alles kurz, was auf beiden Seiten steht, bringen alles auf eine Seite, steht da Norm von Skalarprodukt Z, U größer als Null.
Und wir haben eine einfache Regel für unser G Stern folgt. Unser G Stern von Z
ist eins, falls die Norm von Z, U, falls Skalarprodukt von Z und U größer als Null ist und minus eins sonst.
Haben Sie Fragen? Ja, ich schreibe
es noch mal hin. Also Sie können das
äquivalent umformen in das hier, indem Sie Z plus also Z plus U Norm zum Quadrat ist einfach Skalarprodukt von Z plus U mit sich selber. Multiplizieren Sie das Skalarprodukt aus, kommen Sie auf Norm Z Quadrat plus zwei mal, das ist eine 2, andere ist ein Z. Skalarprodukt von Z, U plus Norm U Quadrat
soll größer sein als Norm Z Quadrat minus zwei mal Norm, das ist wieder eine 2. Das hier ist ein Z. Z, U plus U Quadrat. Sie sehen, warum ich es nicht hingemalt habe vorher, weil der Unterschied zwischen 2 und Z bei mir nicht erkennbar ist. Jetzt kürzen Sie das weg, was auf beiden Seiten gleich ist.
Das ist Norm Z Quadrat und das ist Norm U Quadrat. Dann bringen Sie alles auf eine Seite, und teilen durch 4. Okay? Gut. Dann sind wir da. Sonst noch Fragen? Und wahrscheinlich
kann man es geometrisch mit einem Schlag sehen. Der Vektor Z ist näher an U als an Minus U, wenn das Skalarprodukt von Z und U größer 0 ist. Na gut, das ist der Nachweis.
Intuitiv ist wahrscheinlich klar, wenn man verstehen würde, was Skalarprodukt im RL ist oder so. Okay, aber was zu sehen war da. Sie können sich auch um so ein Dreidimensional vorstellen. Sie haben Z und Sie haben U und Sie haben Minus U. Und wo sind die Näheren bei dem Skalarprodukt? Okay, aber
geometrisch kann man das vorstellen, weil das Skalarprodukt sich ja mit einem Cousin geschrieben lässt. Und dann je nachdem, ob der Winkel ja wie groß der Winkel ist. Da muss man sich aber erinnern, wie man das Skalarprodukt mit einem Cousin geschrieben lässt.
Jetzt kriege ich das auch noch gesagt. Es gibt ja auch so eine Informationsüberfütterung. Das ist ja nicht so gut, wenn Sie zu viel im Gehirn haben. Aber Sie haben recht. Wir können uns an unsere elementaren
Grundlagen erinnern. Was hat das Skalarprodukt im RL mit dem Cousin zu tun? Und fertig. Und es galt allgemein im L-Dimensionalen? Ich glaube nicht, oder? Also im vierten Dimensionalen wahrscheinlich nicht mehr. Weil ich habe so ein bisschen Probleme mit dem Winkel vorzustellen.
Aber ist egal. Gut, aber ich glaube, wir haben es kapiert. Und Sie wissen auch, wie es sich jetzt weiterkommt. Jetzt machen wir den Abschluss vom Beweis. Was folgt daraus? Jetzt kann ich L-Stern hinschreiben.
Meinen L-Stern weiß ich ja jetzt, ist die Wahrscheinlichkeit, dass mein G-Stern von Z umgleich C ist.
Und jetzt können wir die gleichen Umformungen nochmal machen.
Ich spaß mir hier vielleicht, sondern wir erinnern uns, also wir haben das ja allgemein für G ausgerechnet auf der anderen Tafel hier. Und wenn Sie mal die unterste Zeile betrachten von dieser Tafel Aber Sie wollten die unterste Zeile von dieser Tafel?
War der Vorschlag? Sie sehen die unterste Tafel von Ihrer Guttere. Also wir sehen jetzt die unterste Zeile von dieser Tafel und da setzen wir eben G-Stern eine. Das gilt ja für jedes G, also gilt auch diese Zeile für jedes G. Also gleich hier oben, kommen wir auf ein Halbmal, die Wahrscheinlichkeit,
dass G-Stern von minus U plus N gleich eins ist. G-Stern von minus U plus N war eins, wenn das Skalarprodukt von dem Argument, das ist minus U plus N mit U selber, wenn das größer Null ist. Und dann kommt ein Halbmal
die Wahrscheinlichkeit, dass jetzt brauchen wir G von U plus N gleich minus eins, das heißt das Skalarprodukt vom Argument, das war U plus N
diesmal, mit U soll kleiner gleich null sein. Dann sind wir so weit.
Dann multiplizieren wir die Wahrscheinlichkeit von das Skalarprodukt aus und stellen die Zufallsvariable mal Skalarprodukt auf die einen Seite,
größer als Minusnorm von U. Also auf der anderen Seite Norm von U zum Quadrat. Also da steht Skalarprodukt von minus U,U plus Skalarprodukt von N,U
soll größer als null sein. Das Skalarprodukt von minus U,U ist Minusnorm U zum Quadrat. Bringe ich auf die andere Seite. Und genauso mit dem zweiten Term Skalarprodukt N,U
kleiner gleich Minusnorm U Quadrat. Dann sind sie hier angelangt.
Und jetzt bräuchten wir nur noch die Verteilung von dem Skalarprodukt von N mit dem Vektor U. Dann wären wir fertig.
Was würden Sie denn sagen? Wie ist denn das Skalarprodukt von N mit einem Vektor U verteilt? N war eine d-dimensionale Standard-Normalverteilung. Das heißt, das war eine die Zufallsvariable, nein eine L-dimensionale, Entschuldigung, L-dimensionale
Standard-Normalverteilung. Das heißt, wir hatten eine Zufallsvariable, die hatte unabhängige Komponenten, die jeweils Standard-Normalverteilt sind. Was wissen Sie dann über das Skalarprodukt von dieser Zufallsvariable mit einem beliebigen festen Vektor U aus R?
Ist normal verteilt? Also wir gucken es uns nochmal genauer an. Ich schreibe es vielleicht nochmal. Wir können es ja auch als Summe hinschreiben.
Das wäre eine Summe I gleich 1 bis L. Dann würde ich so ein, ich fange mal mit dem Komponente von U an, Ui mal Ni. Und dann sehen Sie, das ist eigentlich eine Linearkombination von den N1 bis NL, aber die waren unabhängig Standard-Normalverteilt.
Wenn das eine Linearkombination von Standard-Normalverteilt und Zufallsvariable ist, ist es normal verteilt. Das heißt, ich kann sofort sagen, es ist normal verteilt. Und jetzt wäre nur die Frage, wie groß ist Erwartungswert und wie groß ist die Varianz?
Dann habe ich die ganze Verteilung. Vorschlag für Erwartungswert? Erwartungswert bleibt 0, weil die Einzelerwartungswerten sind ja 0. Wenn Sie Erwartungswert
davon ausrechnen, dann können Sie ihn reinziehen zum Einzelnen. Ist überall 0, gibt 0. Also Erwartungswert ist 0. Dann hat jemand einen Vorschlag für die Varianz? Wie groß ist die Varianz? Ok, vielleicht jemand anders noch? Vorschlag für die Varianz? Die Ui quadriert aufsummiert. Die Varianz von der Summe ist aufgrund
der Unabhängigkeit die Summe der Einzelvarianten. Bei den Einzelvarianten können Sie die Faktoren quadratisch rausziehen. Und die Varianten der Enni waren jeweils 1. Das ist also die Summe der Quadrate der Komponenten der Ui. Es gibt gerade die Norm von U zum Quadrat.
Aber damit sind wir fertig. Sehen Sie vielleicht. Wenn jetzt habe ich die Verteilung, dann kann ich die Wahrscheinlichkeiten ausrechnen. Ich kriege eigentlich die Verteilungsfunktion
oder das hier ist ja 1 minus die Verteilungsfunktion. Das ist die Verteilungsfunktion an der Stelle. Minus Norm U Quadrat. Von dieser Normalverteilung an diesen beiden Stellen kriege ich raus. Aber ich kann es jetzt zurückspülen auf die Verteilungsfunktion der Standard-Normalverteilung. Dazu teile ich diese Zufallsvariable einfach noch durch die Norm von U.
Dann sehen Sie, dann verändert sich der Erwartungswert nicht. Aber die Varianz ändert sich um einen quadratischen Faktor. Also geht auf 1. Das heißt, Sie teilen hier durch Norm von U. Dann steht hier eine Standard-Normalverteilte Zufallsvariable größer als Norm von U. Die Wahrscheinlichkeit davon ist ein halb Mal 1 minus Phi von
Norm von U. Und das andere ist ein halb Mal Phi von Minus-Norm von U. Und dann erinnern Sie sich dran, 1 minus Phi von Norm von U
gerade Phi von Minus-Norm von U ist. Und Sie kommen auf Phi von Minus-Norm von U. Und wir sind fertig. Weil jetzt vergleichen wir
mit der Behauptung. Und wenn wir Glück haben, erfahren das unsere Behauptung. So ein Dusel.
Okay, und Sie haben vielleicht gesehen, ich habe im Vergleich zum Skript irgendwelche Abkotzungen gemacht. Fiese, bursartige Abkotzungen. Weil das erste, ich kann natürlich nicht ohne Weiteres durch die Norm von U teilen, nämlich wenn die Norm von U gleich 0 ist, geht es ja gar nicht. Aber wenn die Norm von U gleich 0 ist, dann ist die Aussage trivial.
Weil dann ist diese Wahrscheinlichkeit ja einfach 0 größer als 0. Die ist 0. Diese Wahrscheinlichkeit 0 kleiner gleich 0, die wäre 1. Das heißt, da kommt ein Halb raus, aber ein Halb ist auch die Phi von Minus-Norm von 0. Umgekehrt stimmen aber diese ganzen Zwischenschritte auch. Auch für Norm von U gleich 0. Nur meine Begründung für die Zwischenschritte müsste ich ja nicht separat
machen. Also man könnte an der Stelle jetzt eine Fallunterscheidung machen. Norm von U gleich 0 und Norm von U ungleich 0. Die Norm von U gleich 0 wäre trivial. Dann gehen Sie in die Norm von U ungleich 0 an. Dann teilen Sie hier durch, durch die Norm von U. Dann haben Sie das hier das Quadrat jeweils weg. Dafür haben Sie hier durch U geteilt. Und dann steht hier die Begründung, warum das, was rauskommt,
eine standardnormal verteilte Zufallswariabel ist. Im Skript steht irgendwie, weil Konvexkombination von standardnormal verteilt und zufallsvariabel eine standardnormal verteilt ist. Das ist aber auch falsch. Weil eine Konvexkombination brauchen Sie nicht, sondern Sie brauchen eine Kombination,
wo die Summe der Gewichte zum Quadrat gleich 1 gibt. Weil es hier auch keine Konvexkombination ist. Deswegen habe ich es hier so ein bisschen anders gemacht, aber muss ich im Skript noch korrigieren. Und dann war halt hier diese fiese Sache, dass ich implizit durch Norm U geteilt habe und das dann gleich umgeschrieben habe. Und hier haben Sie noch diesen Zusammenhang von, ja, wir können nochmal
hinschreiben, phi von minus Z ist gleich 1 minus phi von Z. Was Sie kennen, könnte ich jetzt das Bild von der Verteilungsfunktion, von der Dichte der standardnormal Verteilung hinmalen. Dann sehen Sie es sofort. Das ist dieser Zusammenhang.
Aber mir ging der Platz aus, deswegen habe ich gedacht. Passt ja perfekt. Okay, haben Sie Fragen so weit?
War irgendwie vom Beweis ja nicht schwer, man muss halt nur irgendwie drauf kommen, ne? Muss auf die Idee kommen, dass man einfach ausrechnet. Fertig, ne? Und Sie sehen noch gar nicht, was es uns mit einem anderen Satz bringt, aber das kommt noch.
Gut, wenn Sie keine Fragen im Moment haben, dann würde ich 5 Minuten Pause machen, zum Tafel wischen. Und wir machen dann um 12 Uhr 32 weiter. Okay, würde ich ganz gern weitermachen. Dann kommen wir zum Beweis von Satz 416.
Wir machen das Ganze im Fall D gleich 1, also eindimensional. Den allgemeinen Fall machen Sie in Übungen. Im Fall D gleich 1.
Der allgemeine Fall geht genauso, ist nur technisch ein bisschen hässlicher zum Hinschreiben. Ja, es geht wirklich genauso.
Deswegen mache ich es hier mit D gleich 1. Wir wollen zeigen, für diese Klasse DPC von Verteilungen haben wir eine untere Minimax-Konvergenzrate. Für eine untere Schranke genügt zu zeigen, das ist eine untere Schranke für eine Teilklasse, also wir definieren uns eine geeignete Teilklasse. Also erster Schritt, in Abhängigkeit von
unserem Stichprobenumfang, definieren wir eine Unterklasse von DPC. In Abhängigkeit von N definieren wir Unterklasse von DPC.
Und diese Unterklasse wird dann von Parametern abhängen, und dann werden wir den Regressionschätzer dazu verwenden, um die Parameter zu schätzen, und werden dann zeigen, dass man bei dieser Parameterschätzung einen gewissen Mindestfehler macht. Dazu gehen wir folgt vor, wir partitionieren erstmal
0,1, Intervall von 0,1 in eine gewisse Anzahl von Intervallen, und diese Anzahl nenne ich M oben, Groß M, Index N, und dieses Groß M, Index N ist ein C-Quadrat mal N mit Exponent 1 durch 2P plus 1.
Und dann brauche ich eine natürliche Zahl, deswegen nehme ich eine obere Gaussklammer, also C-Quadrat mal N 1 durch 2P plus 1,
und dann partitioniere ich 0,1 in MN-Equidistante-Intervalle,
und partitioniere Intervalle von 0 bis 1 in MN-Intervalle, dieses J-Intervalle nenne ich dann ANJ, und dies sei ein Equidistant, das heißt,
die Länge sei jeweils 1 durch MN, der Länge 1 durch MN. Und dieses Intervall ANJ, davon den Mittelpunkt bezeichne ich mit klein ANJ.
Dann definiere ich mir meine Regressionsfunktion M so, dass sie auf jedem dieser Intervalle entweder einmal eine Funktion oder minus einmal eine Funktion ist,
und diese Funktion hat die Eigenschaft, dass sie PC glatt ist, nicht ganz PC, aber ich muss ein bisschen aufpassen mit dem, mit dem, mit der konstanten C bei der Glattheit,
also dass sie so eine gewisse PC-Querglattheit hat, was C ist, wird gleich kommen, und nicht identisch 0 ist, und das Integral über die Funktion soll, glaube ich, noch jeweils 1 ergeben, oder irgend so was, und das mache ich, indem ich eine feste Funktion reeskaliere. Fangen wir damit an.
Ich fange mit meiner festen Funktion an, setze G von X, meine feste Funktion, die ich habe, tue ich gleich nochmal reeskalieren, durch den C mal G quer von X,
wobei mein G quer ist eine Funktion von R nach R, mit den folgenden Eigenschaften, sie ist 0 außerhalb von minus ein halb halb, das Integral darüber ist größer als 0, also sie ist nicht identisch 0,
und sie ist P,2 hoch Beta minus 1 glatt, also Support von G quer, der Support ist eine Teilmenge von minus ein halben halb
auf einem Intervall, das Integral über G quer Quadrat sei größer als 0, also ich darf nicht die Funktion nehmen, die identisch 0 ist, und dritte Eigenschaft G quer hat eine Glattheitseigenschaft, nämlich
P,2 hoch Beta minus 1 glatt, also damit fange ich an,
das schaffen Sie, indem Sie eine C0-endlich-Funktion nehmen, die nicht identisch 0 ist, also eine Funktion unendlich oft differenzierbar mit kompakten Support, dann bezüglich dem Argument reeskalieren, um sicherzustellen, dass der Support im Argument minus ein halben halb landet, und dann ist die Funktion sicher
P, C quer glatt, mit dem geeigneten C quer, aber wenn ich sie jetzt einfach reeskaliere, das heißt, wenn ich einfach die Funktion durchteile durch eine große Zahl, geht diese Konstante C quer oder C bei der P, C-Glattheit runter, und ich lande irgendwann bei 2 hoch Beta minus 1. Ja, wenn ich das habe, kann ich mir
überlegen, welche Eigenschaften hat mein G, daraus folgt jetzt mein Support von G, ist natürlich der gleiche wie der Support von G quer, ist auch eine Teilmenge von minus ein halb,
mein Integral über G Quadrate X ist einfach C Quadrat mal das Integral über G quer von X,
das war größer 0, und jetzt, was passiert mit der Glattheit, wenn sie reeskalieren? Naja, der erste Faktor von der Glattheit, der sagt, wie viele Ableitungen existieren, der bleibt gleich, und was der Hölder-Exponent dann ist bei der Ableitung,
aber diese Konstante tut sich einfach entsprechend reeskalieren, also G ist P 10 mal 2 hoch Beta minus 1 Glatt.
Wenn Ihnen das Ganze jetzt so vorkommt, als hätten Sie sowas schon mal gesehen, dann haben Sie gerade kein Déjà-vu, sondern Sie erinnern sich nur an den Beweis von Satz 2.10, wo wir das Gleiche gemacht haben, oder ziemlich ähnlich.
Jetzt machen wir weiter das Gleiche, ich definiere meine Regressionsfunktion als eine Linearkombination von so reeskalierten Funktionen von G, also für Cn, für kleinen Cn, und das ist ein Vektor von Zahlen
minus 1, 1, und zwar mn viele, da habe ich einen Cn1,
minus 1, 1 auch mn, also ich habe mn verschiedene Plus- oder Minus-1, und das sei meine Parametermenge kaligraphisch Cn, da definiere ich jetzt einen mCn,
und das ist einfach die Summe J gleich 1 bis mn,
der Koffizient CnJ mal eine verschobene Funktion, G und diese verschobene Funktion, eine reeskalierte Funktion, ist ein GnJ,
dieses GnJ von X, mache ich so, dass es jetzt gerade einen Support hat, der im Intervall a nJ drin liegt, und dann wird so reeskaliert, dass das Ganze letzten Endes
PC glatt wird, und dann nehme ich ein mn hoch minus P mal G von mn von X minus a nJ.
Also was mache ich hier?
G hat einen Support, der war eine Teilmenge von dem offenen Intervall von minus ein halb bis ein halb, das heißt, das Ding, diese Funktion GnJ verschwindet, ja genau dann, wenn dieses Argument hier, und diese Funktion hier verschwindet, verschwindet dann, wenn mn
mal X minus a nJ nicht im Intervall von minus ein halben halb drin liegt, das heißt, wenn der Abstand von X zu a nJ größer gleich ein halb mal eins durch mn ist. Aber groß a nJ war ja ein Intervall mit Mittelpunkt klein a nJ
und Länge eins durch mn, das heißt, gerade außerhalb von dem a nJ, verschwindet das Ding. Dieses GnJ ist nur ist nur ungleich 0 auf dem Intervall a nJ. Das heißt, diese einzelnen Funktionen beeinflussen sich gar nicht.
Das heißt, dieses Koffizient cnj beeinflusst nur den Funktionswert von meiner Funktion auf dem Intervall a nj, auf einen dieser Intervalle. Und dann habe ich das Ganze so gemacht, dass es insgesamt p c glatt wird. Das heißt, ganz egal wie Sie die c nj wählen, ist die Funktion m c n p c glatt.
Das folgt aus dem Beweis von Satz 2.10. Daraus folgt m c n bis p c glatt, der gleiche Beweis von Satz 2.10.
Bei Satz 2.10 war es damals ein bisschen anders. Wir hatten so eine Funktion, die war konstant 1, und dazu haben wir diese g n j addiert oder abgezogen. Weil wir brauchen letzten Endes eine Dichte. Hier brauchen wir keine Dichte. Wir brauchen nur eine Funktion.
Die kann auch negative Werte annehmen, deswegen klappt es hier einfacher. Also beim Satz 2.10 haben wir hier noch irgendwie ein 1 dazu addiert und war 1 plus im Ganzen. Aber letzten Endes geht es genauso.
Ja, und damit definieren wir eine Unterklasse von unserer Klasse d p c. Das ist die Klasse d n p c.
Also wir haben d n, ich wollte das d n quer p c. Das ist die Klasse aller Verteilungen von x y mit den folgenden Eigenschaften.
Erstens x ist wieder eine Gleichverteilung auf 0 1, also wie auch bei der Klasse d p c.
Und zweitens mein y ist jetzt eine dieser Funktionen m c n. Von x plus n mit x n unabhängig, n Standard normal verteilt und c n aus c.
Also für ein c n aus unserem Vektor von c n und mit n ist Standard normal verteilt und unabhängig von x.
Und diese Klasse ist dann eine Unterklasse von unserer Klasse der Verteilungen d p c.
Schreiben Sie es mal ab, dann überlegen wir uns, ob es in der Tat stimmt.
Also ich mache jetzt eine Unterklasse aller Verteilungen von x y. Und zwar habe ich nur noch zwei hoch m n viele. Die sind parametrisiert bei diesen Vektoren c n aus Komponenten minus eins plus eins. Und zwar m n Komponenten minus eins plus eins.
Und von jedem einzelnen dieser Vektoren definiere ich mir x als gleichverteilt auf 0 1. y als diese Funktion m c n von x plus n, wobei x und n unabhängig sind und n Standard normal verteilt. Wenn Sie jetzt noch mal auf die Folie gucken, machen wir mal das Licht aus, dass man die Folie auch sehen kann. Dann wäre die Behauptung, diese drei Eigenschaften sind erfüllt, x ist ganz klar gleichverteilt.
y ist m von x plus n mit n Standard normal verteilt und n x unabhängig ist auch erfüllt. Dritte Eigenschaft m ist p c glatt und dummerweise steht noch eine vierte Eigenschaft, nämlich m von x ist klarer gleich als eins für x aus 0 1 hoch d. Müssen wir uns mal angucken, warum ist das hier erfüllt?
Ja, also wir haben vorhin schon gesehen, das m c n war ja p c glatt. Und jetzt gucken wir uns das m c n noch mal genauer an, das war das hier. Ist das Ding betragsmäßig durch eins beschränkt? Naja, wir haben schon gesehen, diese Funktionen verschwinden jeweils außerhalb vom Intervall a an j.
Das heißt immer nur eine ist ungleich 0. Dann ist diese ganze Summe eben gleich einer davon. Der Koffizient ist plus eins minus eins, das heißt wir müssen uns klar machen, dann ist das Ding durch eins beschränkt. Dann müssen wir uns angucken, was war g n j? g n j steht hier, g n j ist ein reeskaliertes g. Was wissen wir über die Beschränktheit von g?
Eigentlich nichts, abgesehen davon, dass die Funktion hatte einen kompakten Support und war glatt, p c glatt oder hatte irgendeine Glattheitseigenschaft. Damit ist sie beschränkt. Und jetzt sehen Sie unser m n, m n war aber so, dass es gegen endlich geht, für n gegen endlich. Also ich habe hier eine feste Schrenke auf die Supremumsnorm, dann wenn n groß ist, ist es irgendwann kleiner gleich eins, die Supremumsnorm.
Das heißt, ich muss hier eigentlich noch das Grün unterschreiben, ist eine Unterklasse von d p c für n genügend groß. Das kommt noch dazu und dann stimmt es. Ich schreibe nur n groß, das ist sogar noch einfacher als genügend groß.
Und dann ist der entschreibende Schritt, also genügt es zu zeigen.
Ich schreibe es mal hin, dann überlegen wir uns, warum das genügt zu zeigen. Ja, ich schreibe mal hier hin. Wir bilden den Liebesinferior, n gegen endlich. Dann das Infimum über alle Schätzer.
Supremum über alle Verteilungen. Und dann statt dem erwarteten L2-Fehler geteilt durch unser a n, schreibe ich das geteilt durch unser a n um in m n hoch 2 p durch c².
Mein erwarteter L2-Fehler. Und ich mache ein Riemannintegral über dem Mängel 0 1.
Das sei größer als 0. Das ist die Bedingung 421. Und das ist das, was ich im Folgenden zeigen muss. Und was ich dazu klar machen muss ist, was ist m n hoch 2 p?
Hat m n hoch 2 p die gleiche Größenordnung wie die Rate, die wir eigentlich haben? Beziehungsweise wie 1 durch die Rate, die wir eigentlich haben wollen? Nämlich das n hoch minus 2 p durch 2 p plus d. Ja, aber n hoch minus 2 p durch 2 p plus d. Wenn Sie da 1 durchrechnen, dann kommen Sie auf n hoch 2 p durch 2 p plus d. Und Sie sehen, m n war ungefähr ein n hoch 1 durch 2 p plus 1.
Das heißt, wenn ich das hoch 2 p nehme, komme ich auf n hoch 2 p durch 2 p plus 1. Aber das ist genau das Richtige, weil d war ja 1. Das heißt, das da hier ist ungefähr unser 1 durch a n.
Deswegen kann ich 1 durch a n hier ersetzen durch das hier. Und das ist das, was ich im Folgenden zeige. Und ich habe die Skalierung noch so gemacht, dass das Große C komplett aus dem Beweis rausfallen wird. Also irgendwann wird ein limes inferior rauskommen, der größer als Null ist und unabhängig von Groß C.
Deswegen, im Prinzip beweisen wir ein bisschen was genaueres als diese Minimax-Konvergenzrate. Wir gucken uns auch noch an, wie hängt dieser optimale L2-Fehler im Minimax-Sinn von dem Groß C bei der PC-Glattheit ab. Das kommt damit raus.
Okay, das war der erste Schritt. Fragen soweit? Wenn nicht, kann ich den Tageslichtprojekt über Seite räumen.
Und wir fangen mal munter mit dem zweiten Schritt an, der ein bisschen länger ist. Aber Sie haben ja ein bisschen mehr Zeit heute, ne? Und ich höre immer zu früh auf, ne? Das kann ich ja irgendwann wieder zurückholen, ne? Haben Sie nicht gedacht, ne? Mir hat jemand in meine Vorlesungsumfrage geschrieben,
stellen Sie mal das vor, Dozent holt jedes Mal bis auf zwei Mal zu früh auf oder so, ne? Das ist... Weiß gar nicht, wie auf die Idee kam, bis auf zwei Mal oder so, ne? War, glaube ich, immer oder so, ne? Bis auf heute, ne? Oder er meint die nächsten zwei Mal, kann auch sein, ne? Okay, also, zweiter Schritt. Das sieht nicht gut aus, aber es ist egal.
Wir verwenden den Regressionsschätzer, um den Parameter Cn aus Kryptzehen einer Verteilung x, y aus dn quer PC zu schätzen.
Wir verwenden den Regressionsschätzer, um den Parameter Cn aus Kryptzehen
von einer Verteilung von dn quer PC quer zu schätzen.
Also, was ich mache dazu, ich gebe meinen beliebigen Regressionsschätzer vor, Mn beliebiger Regressionsschätzer,
und ich verwende den jetzt, aufgrund der Schätzung der Regressionsfunktion, diese Parameter von meiner Regressionsfunktion M, die ja durch Cn parametrisiert ist, zu schätzen.
Das heißt, ich möchte irgendwie das Integral von 0,1 von Mn von x minus Mcn von x zum Quadrat d x nach unten abschätzen. Also wir schätzen, ich schreibe es mal hin,
von 0 bis 1, Mn von x minus Cn von x Quadrat d x nach unten ab.
Und zwar werden wir ausgehend von dem Regressionsschätzer
uns irgendwelche Schätzungen von dem Parameter Cn basteln und zeigen, der L2-Fehler ist dann größer als ein geeigneter Fehler von diesen Schätzungen. Okay, wie machen wir das? Gucken Sie sich nochmal das Mcn an.
Dabei wie sah unser Mcn aus? Das war ja so eine Summe, j gleich 1 bis Mn Cnj mal unser Gnj von x.
Und der Trick ist jetzt erstens zu sehen, wenn diese Gnj haben einen Disjunktensupport. Also der Support von den Gnj, die waren da jeweils null außerhalb von den A nj.
Die A nj war unsere Partition, das heißt der Support von den Gnj ist disjunkt. Wenn wir aber Funktionen mit einem Disjunktensupport haben, dann sind die orthogonal in L2. Diese Gnj sind orthogonal in L2.
Also unser Gnj wird gleich 1 bis Mn, sind orthogonal in L2 von 0,1.
Da eben die Supports disjunkt.
Wenn ich ein orthogonales System in L2 habe, dann kann ich die orthogonale Projektion auf den Spann dieses orthogonalen Systems sofort hinschreiben. Das definiere ich mir als Gn als Mn quer
oder ich habe einen Mn-Hut gemacht. Eine orthogonale Projektion kennen Sie, wenn Sie eine Otto-Normalbasis haben. Sie schreiben einfach die Linearkombination der Otto-Normalfunktion hin und die Koffizienten sind dann jeweils das Skalarprodukt zwischen der Funktion,
die Sie projizieren wollen, und den Basisvektoren. Also machen wir das. Wir tun erstmal so, als wäre es ein Otto-Normalsystem. Dann hätte ich ein Cnj, Cnj-Hut,
mal mein Gnj mit Cnj-Hut. Wer jetzt im Fall, dass ich ein Otto-Normalsystem hat, einfach das L2-Skalarprodukt zwischen Mn und Gnj.
Da ich kein Otto-Normalsystem habe, muss ich das Ding eigentlich erst in ein Otto-Normalsystem verwandeln, indem ich hier durch die Wurzel aus der Norm L2-Norm teile. Und damit dann das Skalarprodukt rechnen. Aber diesen Faktor Wurzel aus der L2-Norm,
den schiebe ich zu meinen Koffizienten hin. Und dann sehen Sie, dann kommen Sie auf das Integral von 0,1 Mn von x mal Gnj von x, dx. Und haben jetzt einerseits von dem Skalarprodukt her diesen Reskalierungsfaktor,
andererseits von der Funktion den Reskalierungsfaktor. Deswegen taucht dieser Reskalierungsfaktor jetzt nicht als Wurzel auf, sondern einfach als Integral Gnj² von x, dx. Und das ganze Ding ist dann die orthogonale Projektion
von unseren Mn auf den Raum, der von dem Gnj aufgeschwandt wird.
Den nenne ich einfach mal Spann von Gnj gleich bei 1 bis. Und jetzt will ich aber eigentlich das Integral von 0 bis 1 Mn von x
minus Mcn von x²x abschätzen. Machen wir das?
Wenn Sie dieses angucken, das ist ja gerade der L2-Abstand zum Quadrat zwischen dieser Funktion Mcn von x und meinem regressiven Schätzer Mn von x.
Und diese Funktion Mcn von x ist ja eine der Funktionen, die in dem Spann von dem Gnj drin sind. Dieser Spannsinn ist die Menge aller Linearkombinationen jetzt nicht die Koffizienten beschränkt auf –1,1. Aber natürlich die mit Koffizienten –1,1 drin, ist drin. Und dann ist klar, die Bestabroximation
oder die Projektion von dem Ding hat einen kleineren Abstand als die ursprüngliche Funktion. Deswegen komme ich hier aufs Größergleich Integral 0,1 Mn Hut von x.
Und das ist der entscheidende Schritt. Und ich habe das Ganze zurückgeführt. Na gut, Sie sehen es noch nicht ganz, aber wenn ich folgendes einsetze, werden Sie sehen, dass ich gleich die Koffizienten geschätzt habe.
Okay, ist der Schritt klar? Also ich habe eben – das da ist eine Linearkombination der Gnj.
Ich projiziere meine ursprüngliche Funktion auf die Menge aller Linearkombinationen. Das ist ein endlichdimensional abgeschlossener Teilraum von dem L2. Und die Formel für die Projektion kann ich direkt hinschreiben.
Und dann ist klar, das projizierte Element ist näher dran als mein Mn von x. Jetzt setzen Sie einfach ein.
Also eher – ja, wir schreiben es vielleicht nochmal. Integral 0 bis 1, dann kommt der Quadrat. Dann haben Sie ja einerseits j gleich 1 bis Mn.
Dann haben Sie ein Cnj Hut. Und dann ziehen Sie eigentlich davon ein Cnj a Gnj von x ab. Vielleicht so.
Dann wissen Sie, die Gnj waren orthogonal. Das ist ja jetzt eine Linearkombination der Gnj. Davon die Norm zum Quadrat ist die Summe der einzelnen Normen.
Das heißt, ich kann diese Summe einfach rausziehen. Oder anders ausgedrückt, ich habe halt einen dessenten Support. Dann kommen Sie auf die Nj Dach minus Cnj zum Quadrat mal Integral über Gnj 0 bis 1.
Und dann nutzen Sie noch aus, wie das Gnj zusammenhängt mit –
na ja, ich mache es vielleicht beim nächsten Mal. Wir hören vielleicht an der Stelle auf. Jetzt können Sie das Integral ausrechnen von Gnj. Da ist eine Reeskalierung drin. Und das dann folgendes hinschreiben. Und dann können Sie folgendes einen Schätzer für die Cnj basteln,
indem Sie eben die Cnj Huts künstlich minus 1, 1 wertig machen. Und dann führen Sie es zurück auf einen – oder Sie haben hier schon einen Schätzer für die Cnj, aber das ist eine Summe von Quadraten, Quadratischen Abständen. Und ich möchte eine Summe auf zurückführen auf eine Summe von Indikatorfunktionen, was relativ einfach gehen wird.
Okay, aber es ist vielleicht ein ganz schöner Moment, um aufzuhören. Und wir beenden den Beweis dann am Freitag. Gut, wäre ich für heute fertig.