Nichtparametrische Regression bei festem Design - Teil 2
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Part Number | 26 | |
Number of Parts | 28 | |
Author | ||
License | CC Attribution - NonCommercial - ShareAlike 3.0 Germany: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/19664 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
1
2
3
4
5
6
7
8
9
10
12
13
14
15
16
19
21
22
23
24
00:00
Mathematical statisticsAverageReal numberStudent's t-testCylinder (geometry)Film editingEstimationRandom variableField (mathematics)Linear regressionExpected valueMaximum (disambiguation)VarianceFunction (mathematics)SquareStatisticsSummationDegrees of freedom (physics and chemistry)EstimatorMathematicianComputer programmingAbsolute valueContent (media)Probability theoryGreatest elementApproximationNumberLength of stayDimension nVector spacePerimeterFunction spaceRegressionsschätzungRegressionsfunktionComputer animationLecture/Conference
09:18
Vector graphicsBasis (linear algebra)VarianceMatrix (mathematics)FactorizationBerechnungCoefficientTransformationDot productMaxima and minimaTable (information)Point (geometry)EstimatorDepictionExpected valueSquareSummationDiagonalEquationBlock matrixDiagonal matrixComputer animationLecture/Conference
18:02
Expected valueVector graphicsCoefficientEuclidean vectorMatrix (mathematics)SquareMatrix (mathematics)TermumformungReal numberSummationDepictionNumberZahlMusical ensembleLecture/Conference
26:24
Vector graphicsExpected valueSquareSummationDiagonalMatrix (mathematics)VarianceDiagonal matrixNullTerm (mathematics)RegressionsmodellRoundingLecture/Conference
34:45
SquareSummierbarkeitSummationDot productExpected valueWell-formed formulaAbschätzungLecture/Conference
39:08
Dot productMatrix (mathematics)DiagonalSummationLecture/Conference
40:37
Partition (number theory)IntegerSquareNatural numberSet (mathematics)PolynomialExpected valueVarianceGradientMaximum (disambiguation)Computer animationLecture/Conference
45:54
Partition (number theory)Maximum (disambiguation)SupremumExpected valueEstimatorVelocitySampling (statistics)GradientPolynomialSet (mathematics)SquareSummationNatural numberOrder of magnitudeRegressionsfunktionTerm (mathematics)RegressionsmodellFunction spaceGreatest elementApproximationVarianceSocial classSupremumSample (statistics)Function (mathematics)Lecture/Conference
51:12
LengthDerived set (mathematics)SquareArithmetic meanDifferentiable functionVelocityPartition (number theory)Continuous functionFunktionenalgebraSupremumMittelungsverfahrenLogical constantFunction (mathematics)SummationOrdnungsmaßLecture/Conference
55:35
ApproximationSet (mathematics)Variable (mathematics)NumberPartition (number theory)Ende <Graphentheorie>SquareFunction (mathematics)EstimationPolynomialInequality (mathematics)AbschätzungTheoryAbsolute valueMittelungsverfahrenRaum <Mathematik>Similarity (geometry)Entire functionVector spaceCoalitionFunktionenalgebraFunction spaceRegressionsfunktionSummationLecture/Conference
01:05:08
SummationSquareFactorizationAbschätzungTerm (mathematics)EquationSign (mathematics)Function spaceMittelungsverfahrenExpected valueInequality (mathematics)Cost curveCoefficientRandom variableAdditionApproximationLecture/Conference
01:12:25
Term (mathematics)Inequality (mathematics)EquationSquareSummationApproximationLecture/ConferenceMeeting/Interview
01:19:42
EquationSquareSummationVelocityAbschätzungDurchschnitt <Mengenlehre>Greatest elementTerm (mathematics)Expected valueOrder of magnitudeFunction spaceInequality (mathematics)Negative numberMittelungsverfahrenApproximationSample (statistics)Function (mathematics)Lecture/Conference
01:26:59
Computer animation
Transcript: German(auto-generated)
00:07
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung. Ich habe am Anfang eine Folie aufgelegt. Wir suchen gerade Hilfskräfte, wenn jemand Interesse hat. Es sind Programmierarbeiten im Rahmen des Sonderforschungsbereichs zur Umformtechnik.
00:25
Es geht insbesondere um Programmieren MATLAB oder AIRFORN nicht parametrischen Regressionsschätzern. Vorkenntnisse sollten Sie eben in mathematischer Statistik haben, was Sie eigentlich alle hätten. Und eine gewisse Programmiererfahrung bzw. auch eine Bereitschaft, sich da in öffentliche neue Programme,
00:44
weil Sie sie nicht schon kennen, einzuarbeiten. Umfang wäre eigentlich frei vereinbar. Zum Beispiel 40 Stunden pro Monat Standardstunden und 11 Euro pro Stunde. Beginn im Prinzip ab sofort oder auch ab später. Wenn Sie Interesse haben, melden Sie sich an die Frau Härtel. Das finden Sie auf unserer Homepage, ansonsten www.härtel.at-mathematik.de
01:06
Erste Vorbemerkung, zweite Vorbemerkung. Ich habe einige Folien von der Vorlesungsumfrage zur mathematischen Statistik. Teilgenommen haben so um die 40, wenn ich das hier rechts sehe.
01:21
Es wurde eigentlich alles so einigermaßen gelobt. Also Ziele wurden verständlich dargelegt. Mittelwert war 1,9. Die Lehrveranstaltungen sprachen den Voraussetzungen, Inhalten und Zielen, dem Modulhandbuch. Nicht ganz, weil ich habe es ja erweitert im Vergleich zum Modulhandbuch, aber im Prinzip klar. Klare Struktur war vorhanden. Voraussetzungen, erforderliche Grundlagen waren eigentlich auch klar.
01:40
Die Wahrscheinlichkeitstheorie. Stoff wurde gut erklärt, da war der Mittelwert 1,88. Natürlich wichtige Lehr- und Lernmaterialien zur Veranstaltung sind über das Internet verfügbar, weil es gibt ja die Vorlesungsaufzeichnung. Also es gibt kein komplettes Skript. Es wurden auch ein paar mal angemerkt, aber immerhin die Vorlesungsaufzeichnung komplett. Komplettes Skript mache ich wahrscheinlich im Laufe der Zeitführungs, aber das dauert noch.
02:04
Ansonsten nächste Seite. Das sind irgendwie viele Seiten. Die Vorlesungen und Übungen waren gut aufeinander abgestimmt. Das haben auch die meisten so gesehen. Also momentan sind die Übungen ein bisschen hinten rein. Die Übungsaufgaben waren für mich bei entsprechender Vorbereitung bewältigbar.
02:23
Das anscheinend nicht bei allen so ganz, aber so einigermaßen. Eine kritische Frage ist immer Frage Nummer 12. Ich habe in der Lehrveranstaltung viel gelernt. Mit 2,13 im Schnitt eigentlich nicht unbedingt so ganz super. Hätte ich Ihnen noch mehr beibringen können, aber okay.
02:40
Sie konnten der Vorlesung bei entsprechender Vorbereitung gut folgen. Das ging auch gerade noch so. Ansonsten Gesamteindruck der Veranstaltung. Durchschnittsnote wäre 1,78, was ja gar nicht mal so schlecht ist. Es gibt noch so eine Profillinie, wo man die ganzen Mittelwerte in der Übersicht sieht.
03:02
Man sieht, es ist eigentlich nichts aus völlig Ausreisern, eine einzelne Frage. Ach so, ihr Leistungsstandard. Mit welcher Note? War 2,28. Das ist immer die Frage, ob die Studenten ihre Noten selber richtig einschätzen können.
03:22
Aber Sie werden es ja sehen in der Prüfung. Was hat Ihnen besonders gut gefallen? Na ja, kam vor allem die Videoaufnahme, die Videoaufnahme, die Videoaufnahme. Also nochmal die Videoaufnahme, nochmal die Videoaufnahme. Hier ein Ausreißer. Der Kleidungsstil des Dozenten.
03:43
Es wurde gleich noch eine Verbesserung vorgeschlagen. Nämlich Zylinder und Frack wäre noch besser. Das war aber auch der einzige, der meinen Kleidungsstil gut fand. Also nach und nach noch ein paar andere Anmerkungen. Beweise wurden schrittweise erklärt, besser verständlich. Und ansonsten die Vorlesungsaufzeichnung, Vorlesungsaufzeichnung.
04:04
Wiederholungsfolien, didaktisch guter Vorlesungsstil. Vorlesungsaufzeichnung, Vorlesungsaufzeichnung, Videos. Dann was hat Ihnen an der Veranstaltung nicht gefallen? Verbesserungsvorschläge? Das sind kritische Fragen.
04:23
Also ich habe jetzt gelernt, woran man eigentlich eine wirklich schlechte Vorlesungsumfrage erkennt. Dieses Semester habe ich die Statistik für Omanwissenschaftler gehalten. Und habe dann die Vorlesungsumfrage mir angeguckt und habe hinterher erkannt, warum die so richtig schlecht ist. Und so richtig schlecht war, weil es fehlten Bemerkungen wie die schwarze Kleidung des Dozenten oder so.
04:42
Also hier sind dauernde Bemerkungen drin, was ihr nicht gefallen habt. Die schwarzen Klamotten. Die bunte Krawatte hat gefehlt. Mal was Buntes anziehen. Die schwarze Kleidung unnötig eintönig und so weiter. Muss zugeben, wäre ich nie selber drauf gekommen. Danke für den Tipp. Ich hatte mir vorhin noch überlegt, ob ich alte Vorlesungsaufzeichnung raussuchen soll
05:01
und Ihnen mal zeigen soll, wie oft ich sowas schon gelesen habe. Aber ich war dann doch zu faul. Anmerkung kam, Vorlesung zum Teil nicht synchron zum Skript, ist richtig. Ich habe die Vorlesung eben umgebaut. Der Skript war deswegen auch nicht vollständig. Und der Dozent sollte etwas Buntes klagen, die schwarze Kleidung.
05:20
Sie haben wahrscheinlich voreinander abgeschrieben. Eine originelle Idee habe ich nicht ganz verstanden. Bitte Frage und Übungsvorlesung machen. Offenbar sollten die Fragen anonym auf Zettel gestellt werden können. Sie können mich eigentlich durchaus direkt fragen, weil ich vergesse alles direkt wieder.
05:41
Das ist gar kein Problem. Mein Personengedächtnis ist so schlecht. Ich glaube das Beste war mal, morgens hat jemand einen Seminarvortrag. Mittags kommt dann meine Sprechstunde und ich kenne ihn nicht mehr. Und ich war in dem Seminar. So gesehen können Sie auch direkt fragen.
06:02
Ansonsten kam ein Ausreißer. Keine verständlichen Erklärungen des Stoffes. Völlig unfähige Übungsleiter. Ich weiß nicht, ob das mich trifft. Noch eine letzte Bemerkung. Ich habe die Beispiele des Skriptes öfters weggelassen.
06:23
Als ich die Vorlesungen zum letzten Mal gehalten habe, haben mir die Leute reingeschrieben. Ich habe viel zu viele Beispiele gemacht. Sie haben natürlich Recht. Jetzt habe ich sie weggelassen. Soweit zur Vorlesungsumfrage.
06:43
Wiederholungsfolie. Regressionsschätzung bei festem Design. Gegebener Daten sind x1, y1 bis xn, yn. Die x1 bis xn sind deterministische Punkte. Meistens reelle Zahlen. Hier allgemein aus Rd. yi ist ein m von xi plus ein epsilon i.
07:00
Wobei die epsilon 1 bis epsilon n unabhängige reelle Zufallsvariablen sind mit Erwartungswert 0. Und m ist eine Funktion von Rd nach R, die eigentlich gesucht ist. Also ausgehend von diesen Daten wollen wir m schätzen. Mn ist durch den Schätzer eine Funktion von den ganzen Daten. Und im weiteren Argument geht sie aus Rd.
07:24
Und sie geht nach R. Ich habe Ihnen dann den kleinsten Quadrateschätzer vorgestellt. Mn ist diejenige Funktion aus einem vorgegebenen Funktionenraum. Von Funktionen f von Rd nach R. Die 1 durch n mal Summe i gleich 1 bis n f von xi minus yi zum Quadrat minimiert.
07:42
Wir haben gesehen, ist Fn ein endlich dimensionaler linearer Vektoraum, so kann der kleinste Quadrateschätzung durch Lösen eines linearen Gleichungssystems berechnet werden. Und wir sind dann stehen geblieben beim Beweis von Satz 9.1. Ist Fn ein linearer Vektoraum der Dimension Kn,
08:02
so gilt der Erwartungswert von dem mittleren quadratischen Fehler von dem Schätzer. Also 1 durch n mal Summe i gleich 1 bis n Mn von xi minus m von xi zum Quadrat. Kann ich nach oben abschätzen durch Sigma Quadrat mal K1 durch n plus Minimum F aus Fn
08:21
1 durch n mal Summe i gleich 1 bis n f von xi minus m von xi zum Quadrat. Das zweite ist ein Approximationsfehler. Deterministisch beschreibt, wie gut ich mit Hilfe von Funktionen aus diesem Funktionenraum meine Regressionsfunktion m approximieren kann. Und das erste da ist Sigma Quadrat das Maximum der Varianten der Fehler
08:45
und Km die Vektoraumdimension. Also Sigma Quadrat mal Anzahl Freiheitsgrade geteilt durch n. Wir haben bereits gesehen, es genügt dafür zu zeigen Erwartungswert von 1 durch n mal Summe i gleich 1 bis n Mn von xi minus
09:01
Erwartungswert von Mn von xi zum Quadrat ist kleiner gleich als Sigma Quadrat mal Kn durch n. Und das möchte ich im Folgenden beweisen. Okay, ich mach vielleicht mal Licht an. Ich glaube, die Folie kann man vielleicht fast liegen lassen. Ist die Frage, sehen Sie noch was davon? Ja doch, das ist genügt zu zeigen. Immerhin.
09:23
Ich mach mal die Leinwand ein bisschen hoch. Dann machen wir das mal.
09:54
Also dazu, ich weiß mein Fn ist ein Linearer Vektoraum der Vektoraum Dimension Kn.
10:07
Ich nehme jetzt Basisfunktionen, die seien B1 bis Bkn. Das ist eine Basis von Fn.
10:25
Ich führ dann wie beim letzten Mal bei der Berechnung des Schätzers die Matrix B ein. Die Matrix B enthält alle Funktionswerte von den Basisfunktionen an den Punkten, um die es geht.
10:41
x1 bis xn. Das ist ein Bj von xi. i läuft von 1 bis n und j von 1 bis kn.
11:01
Das heißt, in den einzelnen Spalten stehen die Funktionswerte der einzelnen Basisfunktionen an den x1 bis xn. Also in einer festen Spalte habe ich eine feste Basisfunktion und von der stehen alle Funktionswerte drin.
11:25
Wir haben dann beim letzten Mal schon gesehen, wenn ich diese Basis autonormalisiere, in Anführungszeichen, dann kann ich für B eine spezielle Form voraussetzen, also Obda.
11:42
Nämlich B ist eigentlich mehr oder weniger eine Einheitsmatrix, bis auf die Sache, dass unter Umständen, wenn ich die Basisfunktionen nur an den x1 bis xn angucke, dann hat der Vektoraum nicht mehr die Dimension Kn, sondern nur an diesen Punkten kann sein,
12:02
einzelne Basisfunktionen stimmen überein oder werden abhängig. Deswegen kriege ich nicht ganz eine Einheitsmatrix, sondern ich bekomme hier so einen Einheitsblock und da unten auch nochmal eine Null in der Diagonalen irgendwann rein. Den Schätzer kann ich dann folgendermaßen schreiben.
12:24
Wenn ich die Form habe, haben wir auch beim letzten Mal gesehen, der Schätzer ist eine Linearkombination der Basisfunktion, also Summe j gleich 1 bis n, und Kn, Koffizient mal Bj von x, und die Koffizienten sind gerade 1 durch n,
13:03
die Koffizienten sind jeweils gerade 1 durch n mal Summe i gleich 1 bis n, y mal Bj von xi. Okay, und die spezielle Darstellung nutze ich nun aus, um das, was mich hier interessiert,
13:21
also ich kann ja bei dem, was mich hier interessiert, den Erwartungswert in die Summe reinziehen, dann steht der Erwartungswert von Mn von xi minus Erwartungswert von Mn von xi zum Quadrat, das ist eigentlich die Varianz von Mn von xi, um das auszurechnen. Ich mache noch eine Abkürzung, ich setze, wie beim letzten Mal auch schon,
13:46
das B von x ist der Vektor, bestehend aus dem B1 bis Bk von x.
14:23
Okay, wenn wir es soweit haben, dann gilt, was ich jetzt angucke, ist nochmal Mn von x, also ich schreibe erstmal nochmal Mn von x kompakter hin,
14:42
und ich kann Mn von x da oben abschreiben, und dann sehen Sie, dann kann ich das auch so machen, dass ich erstmal den liegenden Vektor, also das B von x, transponiere und diesen Vektor dann multipliziere mit dem Vektor, bestehend aus den ganzen Koeffizienten,
15:04
und diesen Vektor, bestehend aus den ganzen Koeffizienten, bekomme ich, wenn ich 1 durch n mal B transponiert, mal y nehme, wobei y gerade die y1 bis yn ist,
15:24
sollte ich vielleicht noch dazuschreiben, setze. Okay, also wenn Sie jetzt überlegen, was passiert, wenn Sie B transponiert mal y ausrechnen,
15:45
B selber hatte in den Spalten, oder die J-Spalte, das ist Bj von x1 bis Bj von xn, das heißt bei B transponiert, die J-Zeile ist Bj von x1 bis Bj von xn, wenn Sie das als liegende Zeile mit dem Vektor da oben y multiplizieren,
16:04
kommen Sie gerade auf Summe i gleich 1 bis n, yi mal Bj von xi, und davor habe ich noch ein Faktor 1 durch n. Das heißt in der Tat, an der Stelle kommt ein Vektor raus, der als stehender Vektor, der als Einträge gerade die Koeffizienten da oben von der Linearkombination hat.
16:23
Und wenn ich diesen Vektor dann mit dem liegenden Vektor B von x multipliziere, kommt die obelge Summe raus. Fragen? Sie haben vollständig recht.
16:46
Also Frage war, ich habe natürlich nicht, dass B die Blockmatrix ist, sondern ich habe B mal B transponiert, und davor noch 1 durch n ist die Blockmatrix. Also ich habe es falsch hingeschrieben.
17:01
Also abstreiten scheint nicht mal eine Stärke zu sein, gebe ich zu. Also hier steht eigentlich 1 durch n mal B transponiert mal B. Das ist diese Blockmatrix.
17:21
Weil dieses B transponiert mal B hat als Einträge gerade das, was ich beim letzten Mal als Semiskalarprodukt eingeführt habe. Und das kann ich in eine Blockstruktur bringen, aber natürlich nicht das B selber.
17:40
Und wenn Sie eben diese Darstellung haben, also beim letzten Mal hatten Sie das Gleichungssystem 1 durch n mal B transponiert B mal Koeffizientenvektor ist gleich 1 durch n mal B transponiert y. Und dann ist eben die Matrix bei diesem Gleichungssystem eine Diagonalmatrix. Und Sie können die Lösung der Koeffizienten unmittelbar hinschreiben.
18:05
Okay, noch Fragen? Gut, das war das erste. Das zweite, wenn ich den Erwartungswert mir angucke,
18:28
also Erwartungswert von Mn von x, nehmen wir mal die oberige Darstellung bei dem Erwartungswert von Mn von x als eine Summe von diesen Koeffizienten mal Bj von x. Können Sie den Erwartungswert unmittelbar reinziehen zu den yi.
18:41
Der Erwartungswert von den yi ist ein M von xi. Dann sehen Sie, dann bekomme ich hier eigentlich die gleiche Darstellung, wie wenn ich diese Zeile nehme und einfach den Vektor y ersetze durch ein Vektor bestehender aus dem M von x1 bis M von xn. Das heißt, das da ist B von x transponiert,
19:03
mal eins durch n, B transponiert, M von x1 bis M von xn.
19:26
Okay, soweit. Und damit rechne ich jetzt um.
19:40
Das heißt, wir gucken uns jetzt den Erwartungswert von Mn von x minus Erwartungswert von Mn von x zum Quadrat.
20:02
Das ist die Größe, die mich eigentlich nachher interessiert. Wenn ich das mit dem x ersetze durch die x1 bis xn, dann muss ich es noch aufaddieren und durch n teilen. Das ist die Größe, die ich abschätzen möchte. Die Größe gucke ich mir jetzt an. Wir setzen jetzt die Darstellung ein. Dann sehen Sie, das eine ist das, das andere ist das. Dann kann ich einfach den Vektor und die Matrix da vorneweg ausklammern.
20:25
Und es bleibt noch yi minus M von xi als Vektor hinten übrig. Das heißt, ich komme auf sowas. Der Erwartungswert von B von x transponiert jetzt durch n.
20:41
B transponiert mal y1 minus M von x1 bis yn minus M von xn.
21:05
Das Ganze muss ich quadrieren.
21:26
Also einfach nur eingesetzt und das vordere rausgezogen. Ja, und jetzt kommt ein fieser kleiner Trick, muss ich sagen, den wir noch nie gesehen haben. Weil jetzt nütze ich aus, dass wenn Sie z aus R haben,
21:43
dann kann ich z² schreiben als z mal z. Und statt z mal z schreibe ich z mal z transponiert. Wobei das transponiert für die reelle Zahl ja gar nichts macht. Für z aus R.
22:03
Also wenn Sie eine reelle Zahl transponieren, bleibt die reelle Zahl gleich. Klar. Nur, die reelle Zahl hat jetzt hier eine spezielle Bauart. Ich nehme diese reelle Zahl. Das heißt, hier kann ich transponieren und dann transponiere ich alles durch. Mit den rechten Regeln fürs transponieren. Das heißt, dann komme ich hier auf Erwartungswert von,
22:22
naja, ich schreibe erst mal ab. B von x transponiert. 1 durch n mal die Matrix B transponiert. Mal den Vektor.
22:49
Und jetzt schreibe ich das Ganze transponiert hin und nütze gleich aus. Also A mal B für Matrizen A mal B transponiert ist B transponiert mal A transponiert. Das heißt, ich transponiere alles einzeln und dann multipliziere ich in der umgekehrten Reihenfolge.
23:04
Das heißt, ich fange mit dem Ding transponiert an, dann kommt das Ding, dann kommt das Ding.
23:24
Dann kommt jetzt 1 durch n mal B transponiert. Transponieren gibt 1 durch n mal B. Und dann kommt noch ein B von x dran.
23:44
Und schon haben Sie diesen kleinen Ausdruck viel länger hingeschrieben. Sieht gut aus, ne? Okay. Ja, jetzt sehen Sie aber. Jetzt kann ich hier ausmultipizieren. Ich habe hier einen stehenden Vektor mal einen liegenden Vektor.
24:02
Das gibt eine Matrix. Eine quadratische Matrix. Also ich kriege da eine Endmatrix in der Mitte. Und die Einträge sind gerade y i minus m von x i mal y j minus m von x j. Als Eintrag an der Stelle i j. Dann sehen Sie, ich habe hier ein Erwartungswert stehen. Der Erwartungswert ist linear. Das ganze andere, was hier steht, sind irgendwelche Matrizen oder Vektoren mit festen Koeffizienten.
24:24
Die sind nicht zufällig. Stellen Sie sich vor, ich multipiziere alles aus. Dann bekommen Sie so eine große Linearkombination. Und dann ist ganz viel nicht zufällig. Bis am Schluss steht eben irgendwo so ein y i minus m von x i mal y j minus m von x j. Kann ich den Erwartungswert an die Stelle hier reinziehen?
24:41
Und dann mache ich die ganze Umformung wieder rückgängig. Was bedeutet, ich kann den Erwartungswert unmittelbar an diese Stelle hier ziehen. Das heißt, ich bekomme eigentlich, also Linearität des Erwartungswertes.
25:14
Also ich bekomme eigentlich, na ja, ich schreibe mal alles ab, b von x.
25:24
Dann die Matrix in der Mitte, multipiziere ich aus und schreibe gleich den Erwartungswert rein.
25:51
Für i j zwischen 1 und n. Und dann schreibe ich wieder, ach so, hier müsste irgendwo eine geschweifte Klammer wieder zugehen. Und hier geht nochmal die eckige Klammer wieder zu.
26:01
Und dann erst kommt die Matrizenklammer. Okay, und den Rest schreibe ich wieder ab.
26:30
Okay, Fragen soweit? Also ich habe ausgenutzt. Sie multipizieren alles aus. Dann haben Sie eine Linearkombination.
26:42
Wobei die zufälligen Terme da drin sind eben y i minus m von x i mal y j minus m von x j. Dann ziehe ich den Erwartungswert zu diesen zufälligen Termen. Und dann mache ich das Aus-Multipizieren wieder rückgängig. Dann steht die Sache hier da.
27:02
Eben weil der Erwartungswert linear ist. Und weil dieser Vektor b von x und diese Matrix b gar nicht vom Zufall abhängt. Deswegen geht es. Ja, jetzt sehen Sie auch, dass das Ganze eigentlich ganz schön wird. Weil die Dinger hier kann ich jetzt einfach ausrechnen. Den Erwartungswert von y i minus m von x i mal y j minus m von x j.
27:23
Können wir ausrechnen. Wir sind ja im Regressionsmodell. Da war das y i gleichen m von x i plus epsilon i. Das heißt hier steht eigentlich Erwartungswert von epsilon i mal epsilon j. Und die epsilon i und epsilon j haben Erwartungswert 0 und sind unabhängig.
27:40
Das heißt, wenn i ungleich j ist, ist es der Erwartungswert von epsilon i mal Erwartungswert von epsilon j. Also gleich 0. Und für i gleich j ist es die Varianz von epsilon i. Also mit, wenn ich mir diesen Erwartungswert angucke.
28:10
Das ist die Varianz von epsilon i. Oder ich kann auch den Erwartungswert von epsilon i zum Quadrat schreiben.
28:31
Damit sehen Sie, was da eigentlich rauskommt, ist eine Diagonalmatrix. Die Diagonalmatrix hat auf der Diagonalen eben diese Erwartungswerte von epsilon i.
28:47
Erwartungswerte von den Fehlern zum Quadrat stehen. Und was ich dann mache, da nehme ich so ein Vektor b. Also das ganze b von x transponiert mal 1 durch n mal b transponiert.
29:00
Gibt einen liegenden Vektor. Das 1 durch n b mal b von x gibt einen stehenden Vektor. Und ich habe den gleichen Vektor. Also den multipliziere ich von der einen Seite stehend, von der anderen Seite liegend an. Wenn wir uns jetzt überlegen, was passiert, wenn Sie einen liegenden Vektor nehmen. Ich nenne vielleicht mal klein b 1 bis klein b n.
29:25
Dann habe ich so eine Matrix. Die ist der Erwartungswert von epsilon i zum Quadrat mal delta i j. Delta i j sei das Kroneckerdelta. Also 1 für i gleich j, 0 sonst.
29:43
Dann mach ich den stehenden Vektor. Dann sehen Sie, was da rauskommt. Das sind eben die Einträge von dem Vektor b 1 bis b n quadriert. Multipliziert mit den Einträgen von der Diagonalen hier. Das heißt, hier kommt Summe i gleich 1 bis n.
30:14
b i Quadrat mal Erwartungswert von epsilon i zum Quadrat.
30:26
Naja, das ist aber nichts anderes als der Erwartungswert von epsilon i zum Quadrat, war ja kleiner gleich als unser Sigma Quadrat nach Voraussetzung.
30:43
Dann ist das Ganze hier kleiner gleich als Sigma Quadrat. Summe i gleich 1 bis n, b i Quadrat.
31:11
Und dann sehen Sie, in dem Ganzen folgt das, was uns eigentlich interessiert.
31:33
Der Erwartungswert zum Quadrat.
31:53
Naja, dieser Term hier in der Mitte hat den Einfluss,
32:00
dass ich eigentlich nur noch die euklidische Norm von dem Vektor hinten zum Quadrat ausrechnen will. Und das ist ja das Gleiche wie, sollte ich vielleicht auch noch hinschreiben, Sigma Quadrat mal der liegende Vektor, b 1 bis b n mal der stehende Vektor.
32:22
Das heißt, ich kann eigentlich die Matrix in der Mitte einfach weglassen, durch Sigma Quadrat ersetzen und schreibe den Rest ab. Dann ist das Ganze hier kleiner gleich als Sigma Quadrat mal b von x transponiert,
32:43
mal 1 durch n mal b transponiert, transponiert b. Ich schreibe das 1 durch n mal dahinter, ist ja egal, an welcher Stelle ich das hinschreibe, mal b von x.
33:04
Ja, und jetzt muss ich doch den Tageslichtprojekt da wegräumen. Hilft alles nichts.
33:53
Ja, jetzt sehen Sie, diese Matrix, die hier steht, 1 durch n mal b transponiert b, war ja nach Voraussetzung ganz oben OBDA, diese Matrix-Diagonalmatrix,
34:04
wo eigentlich auf der Diagonal nur Einsen oder Nullen steht. Das heißt, wenn ich diese Diagonalmatrix mit einem, jetzt habe ich hier einen liegenden Vektor,
34:21
die Matrix, dann den stehenden Vektor wieder, dann ist es kleiner gleich als die Summe der Quadrate der Einträge von dem Vektor. Das heißt, das Ganze ist kleiner gleich als Sigma Quadrat mal b von x transponiert,
34:40
mal b von x, mal 1 durch n. Und was dann steht, da steht es Sigma Quadrat durch n, mal Summe, also wenn wir uns angucken, was war b, b enthielt die b1 von x bis bkn von x, Summe j gleich 1 bis kn, bj von x zum Quadrat.
35:08
Und hier steht ein Sigma.
35:34
Okay, Fragen soweit?
35:50
Dann gucke ich mal, ob das auch in meinem Skript so da steht. Doch, in der Tat.
36:04
Okay, damit sind wir eigentlich fertig. Aber was mich jetzt interessiert, war ja der Erwartungswert 1 durch n mal Summe i gleich 1 bis n.
36:27
Erwartungswert von 1 durch n mal Summe i gleich 1 bis n, mn von xi minus m von xi zum Quadrat. Ich kann den Erwartungswert reinziehen.
36:53
Dann kann ich für jeden einzelnen der Ausdrücke, Erwartungswert von mn von xi minus m von xi zum Quadrat, kann ich die obige Abschätzung machen, mit x ersetzt durch xi.
37:03
Das heißt, das ist dann kleiner gleich als, wir haben 1 durch n, Summe i gleich 1 bis n. Dann kommt Sigma Quadrat durch n, Sigma Quadrat durch n, mal Summe j gleich 1 bis n, j gleich 1 bis kn, bj zum Quadrat,
37:31
bj von xi zum Quadrat.
37:43
Und was wir jetzt brauchen, das soll kleiner gleich sein als Sigma Quadrat mal kn durch n. Dann sind wir fertig. Und das sieht man auch ganz schnell. Wir vertauschen die beiden Summen. Das ist das Gleiche wie,
38:02
ich lasse mal Sigma Quadrat, ziehe ich noch raus, n lasse ich stehen, die Summen vertausche ich. Also ich mache draußen j gleich 1 bis kn. Dann kommt 1 durch n, Summe i gleich 1 bis n, bj von xi zum Quadrat.
38:32
Und ich weiß nicht, sieht jemand von Ihnen, warum diese hintere Summe 1 ist? Also warum das maximal 1 ist?
38:41
Und damit sind wir fertig.
39:01
Das ist das Skalarprodukt von bj mit sich selber und das hatten wir auf 0 oder 1 gesetzt. Das heißt, wenn Sie sich angucken, diese Matrix, 1 durch n mal b transponiert mal b, da stehen die ganzen Skalarprodukte, also Skalarprodukte im Sinne, was ich beim letzten Mal hatte, das Skalarprodukt von der Funktion f mit der Funktion g war 1 durch n mal Summe i gleich 1 bis n,
39:23
f von xi mal g von xi. Diese ganzen Skalarprodukte von den bj mit den bk stecken drin für alle möglichen Indizes. Und auf der Diagonal sind gerade die Skalarprodukte von dem bj mit sich selber.
39:41
Und die sind entweder 1 oder 0. Also ich könnte hier eine Stadt klarer gleich 1 genauer schreiben. Das ist Element 0,1. Da eben dieses 1 durch n b transponiert b diese Bauart hatte.
40:09
Und dann sehen Sie, das Ganze ist klarer gleich als Sigma-Quadrat mal k1 durch n. Also ich summiere maximal immer 1 auf und es sind k1 Summen, also kommt k1 bei der Summe heraus.
40:26
Um das wahr zu zeigen.
40:46
Fragen soweit? Wenn nicht, dann machen wir 5 Minuten Pause zum Tafelwischen und ich mache dann um 15.11 weiter.
41:13
Ja, würde ich ganz gern weitermachen.
41:23
Ich formuliere ein Korrelar dazu, das ist Korrelar 9.2. Wir sind in unserem üblichen Regressionsmodell, also sei in yi gleich m von xi plus epsilon i mit x1 bis xn,
41:44
nämlich jetzt Punkte aus 0,1, m Funktion von r nach r sei p-fach stetig differenzierbar.
42:31
Und meine Fehler epsilon 1 bis epsilon n seien unabhängig mit der Wartungswert 0, eine Variante ganz kleiner gleich Sigma-Quadrat für i gleich 1 bis n.
43:08
Ich bilde dann einen kleinsten Quadrateschätzer. Ich nehme mal konkret eine Menge von stückweisen Polynomen bezüglich einer equidistanten Partition. Ich nehme grad, wenn p eine ganze Zahl ist, oder p ist eine ganze Zahl hier, ich nehme grad p minus 1.
43:27
Und wenn p minus 1 kleiner als 0 wäre, würde ich 0 nehmen, also Maximum von 0 und p minus 1. Also Fn, das sei Menge aller stückweisen Polynome vom Grad Maximum 0 bis p minus 1.
44:11
Ich nehme das Ganze bezüglich einer equidistanten Partition und ich nehme gleich eine Anzahl von Intervallen abhängig von n, dass da was Sinnvolles rauskommt, werden Sie nachher sehen.
44:23
In Bezug auf eine equidistante Partition von 0,1 in, und die Anzahl der Intervalle ist n hoch 1 durch 2p plus 1.
45:01
Und damit ich da eine natürliche Zahl rauskomme, runde ich anschließend drauf in viele Intervalle. Dann setze ich Mn als zugehörigen kleinsten Quadrateschätzer, weil die Aussage ist für Mn als kleinsten Quadrateschätzer,
45:55
also F aus Fn, 1 durch n, Summe i gleich 1 bis n, f an x i minus y i zum Quadrat gilt.
46:10
Der erwartete durchschnittliche quadratische Fehler konvergiert für n gegen endlich gegen 0,
46:30
und zwar mit der Geschwindigkeit n hoch minus 2p durch 2p plus 1. Also ist von der Größenordnung her gleich O von, Groß O von n hoch minus 2p durch 2p plus 1.
46:59
Also ich habe ein Regressionsmodell mit festem Design, also y i gleich m von x i plus epsilon i.
47:06
Ich nehme an meine Designpunkte, n Stück liegen in Intervalle von 0 bis 1. Ich nehme an die Regressionsfunktion erfüllt eine gewisse Glattheitsbedingung, nämlich sie ist p-fach stetig differenzierbar, und meine Fehler sind wie üblich unabhängig,
47:21
Erwartungswert 0, Variants nach oben beschränkt durchs Signalquadrat. Ich baste mir dann einen Funktionenraum passend dazu. Ich nehme eine Menge von stückweisen Polynomen vom Grad, also ich brauche einen Grad mindestens so groß, dass ich nenne Grad Maximum 0, p minus 1 in Bezug auf eine equidistante Partition von 0, 1 in eine gewisse Anzahl von Intervallen.
47:42
Diese gewisse Anzahl von Intervallen hängt vom Stichprobenumfang ab. Damit hier eine möglichst kleine obere Schranke rauskommt, melde ich das als n hoch 1 durch 2p plus 1. Und dann muss ich noch entsprechend runden, damit ich eine natürliche Zahl rausbekomme.
48:01
Dann betrachte ich den kleinsten Quadratenschätzer. Und die Aussage ist, der erwartete durchschnittliche quadratische Fehler von meinem kleinsten Quadratenschätzer konvergiert mit dieser Geschwindigkeit gegen 0. Man kann zeigen, was da rauskommt, also diese Rate n hoch minus 2p durch 2p plus 1 ist optimal in einem geeigneten Sinne.
48:22
Das heißt, ganz egal wie Sie den Schätzer wählen, in einem geeigneten Sinne schaffen Sie es nicht besser. Und das Resultat möchte ich. Das Resultat zeigen wir nicht, das wäre tiefergehend. Aber was wir zeigen ist, dass diese Rate hier rauskommt. Okay, Fragen soweit?
48:55
Ja, Beweisgang ist klar. Wir wenden den Satz 9, 1 an. Da können wir diesen Erwartungswert abschätzen.
49:00
Einerseits durch Sigma-Quadrat mal Vektoraum-Dimension von dem Funktionraum durch n plus zweitens den Approximationsfehler. Und beides schätzen wir separat ab. Also Beweis wegen, das eine wäre die Dimension des Vektoraums.
49:25
Also ist klar, Menge von stückweisen Polynomen bezüglich äquidistanter Partitionen ist ein binnaher Vektoraum. Wie groß ist die Vektoraum-Dimension hier? Sehen Sie das?
49:45
Intervalle mal Grad. Intervalle mal Grad plus eins. Also für Polynome von Grad, von einem festen Grad haben Sie eben Grad plus eins viele freie Koffizienten pro Intervall. Das heißt, wir kommen hier auf, ja Sie nehmen das Maximum von 0,p minus eins plus eins.
50:15
Dann mal die Intervalle. Das wäre das n hoch eins durch 2p plus eins geteilt durch n.
50:31
Dann sehen Sie, die Gaussklammer spielt keine Rolle. Der Vorfaktor ist auch konstant. Bei der O-Nation spielt keine Rolle. Dann bleibt eben noch n hoch minus eins plus eins durch 2p plus eins übrig.
50:44
Das gibt n hoch minus 2p durch 2p plus eins. Das heißt, der Term hat schon mal die richtige Größenordnung. Dann brauche ich den zweiten.
51:03
Der zweite war der Abroximationsfehler. Minimum f aus fn.
51:24
Eins durch n mal Summe i gleich eins bis n f von xi minus m von xi zum Quadrat. Ich schätze es nach oben ab, indem ich dieses armetische Mittel einfach durch den maximalen Wert nach oben abschätze.
51:41
Und statt dem maximalen Wert schreibe ich das Supremum über x aus 0,1 von der Differenz. Dann ist es kleiner gleich als das Infimum über alle f aus fn vom Supremum. Über x aus 0,1.
52:02
f von x minus m von x zum Quadrat. Dann haben Sie eine p-fach stetig differenzierbare Funktion. Sie können sich überlegen, wie gut ich die Funktionen aus meinem fn in der Supremumsnorm abroximieren. Auf dem Intervall von 0 bis 1.
52:30
Was Sie da machen, Sie nehmen auf jedem einzelnen der Intervalle einen Taylor-Pollinom von der entsprechenden Ordnung.
52:42
Also Taylor-Pollinom auf jedem Intervall der Partition.
53:06
Dann sehen Sie dieses Taylor-Pollinom abroximiert. Sie bekommen eine Abhängigkeit der Ableitung, also eine Konstante von m. Eigentlich Quadrat noch.
53:21
Und dann bekommen Sie die Intervallänge hoch p und das auch noch quadriert. Das heißt wir haben Intervallänge ist 1 durch dieses n hoch 1 durch 2p plus 1.
53:43
Und das Ganze noch hoch p. Und vielleicht schreibe ich es besser so, dass wir das Ganze anschließend noch quadrieren. Das kommt vom Quadrat, weil ich den quadratischen Abstand hier angucke. Und dann sehen Sie da kommt auch ein großen Ordnungsmäßig n hoch minus 2p durch 2p bis 1 raus.
54:13
Und wegen dem und dem folgt die Behauptung aus Satz 9.1.
54:42
Okay, Fragen soweit?
55:14
Also wir hatten jetzt mal einen speziellen linearen kleinsten Quadrateschätzer. Und da konnten wir recht schön eigentlich die Geschwindigkeit abschätzen,
55:22
mit dem der erwartete durchschnittliche quadratische Fehler gegen Null konvergiert. Und was ich jetzt machen möchte, ich möchte Techniken vorstellen, mit denen man das Ganze nicht für lineare Vektorräume, also lineare kleinste Quadrateschätzer analysieren kann, sondern für nicht lineare Funktionenräume.
55:43
Wenn Sie da einen nicht linearen Funktionenraum zugrunde legen, haben Sie häufig bessere Approximationseigenschaften. Also sobald Sie zum Beispiel hier anfangen würden, statt Prolinomen bezüglich einer equidistanten Partition, Prolinomen bezüglich einer datenabhängigen Partition, eigentlich freien Partition.
56:01
Sie können die Intervalle auch verschieden lang machen und auch in Abhängigkeit der Daten verschieden lang machen. Also Sie nehmen vielleicht die Menge aller Funktionen, die stückweise Prolinome sind, bezüglich einer beliebigen Partition, bestehend aus einer gewissen maximalen Anzahl von Intervallen.
56:20
Dann bekommen Sie deutlich bessere Approximationseigenschaften raus, ohne dass die Komplexität des Funktionenraums groß steigt. Also die Komplexität des Funktionenraums wird hier gemessen durch die Vektorraumdimension. Da brauchen Sie natürlich dann einen anderen Begriff statt dem, weil Sie dann keinen linearen Vektorraum mehr haben, aber Sie kommen dann unter Umständen insgesamt auf bessere Abschätzungen.
56:43
Und da möchte ich Techniken dafür vorstellen. Okay, gibt Abschnitt 9.3, letzten Abschnitt von dieser Vorlesung, also wird uns eine Weile beschäftigen. Nicht lineare kleinste Quadratenschätzer.
57:23
Ich fange an mit einer Motivation, 9.3.1, Motivation. Wir haben eine beliebige Menge von Funktionen Fn.
57:57
Und es geht eben darum, dass diese Menge eigentlich, also dass ich
58:00
Techniken haben möchte, soll das zu analysieren, wenn diese Menge nicht linear ist. Wir betrachten den kleinsten Quadratenschätzer Mn, der sei als existent vorausgesetzt im Folgenden.
58:35
Dann, ich betrachte weiter eine Funktion, die die zugrunde liegende Regressionsfunktion M am besten approximiert.
58:49
Aus diesem Funktionenraum, das sei das Mn-Stern, das ist diejenige Funktion, die M im quadratischen Mittel an der Stelle nix 1
59:19
bis xn am besten, diejenige Funktion aus Fn, die M im quadratischen Mittel an der Stelle nix 1 bis xn am besten,
59:33
das heißt, wenn Sie sich angucken, 1 durch n mal Summe i gleich 1 bis n Mn-Stern von xi minus m von xi, ist das der sogenannte Approximationsfehler.
01:00:11
Also das ist der sogenannte Approximationsfehler.
01:00:30
Das heißt, wenn ich sage, ich schätze meine unbekannte Funktion m, für die ich meine Daten beobachtet habe, jetzt mit einer Funktion aus fn, dann wird die nie besser sein als dieses m in Stern.
01:00:45
Also der durchschnittliche quadratische Fehler auf den Datenpunkten kann nie besser sein als der von m in Stern, weil das ist die beste Funktion hier drin. Und diesen Fehler mache ich bei der Schätzung, sobald ich mich für diesen einen Funktionenraum entschieden habe.
01:01:00
Und um was es jetzt geht, ist, wie gut ist dieser kleinste Quadrateschätzer, der ja die Kenntnis von dem m eigentlich nicht hat, sondern nur die fehlerbehafteten Daten hat, im Vergleich zu diesem m in Stern. Also ich möchte irgendwie zeigen, der Fehler von diesem kleinsten Quadrateschätzer,
01:01:21
dass der größer ist als das, das geht irgendwie gegen null in einem geeigneten Sinne möglichst schnell. Okay, ich fange an, das erste, was wir machen werden, also ich werde jetzt die nächsten 20 Minuten
01:01:40
ein bisschen drauf losrechnen, immer wieder Beziehungen hinschreiben, und am Schluss steht eine Ungleichung da. Und diese Ungleichung brauchen wir eigentlich. Und also was ich letztendlich abschätzen werde, ist die Wahrscheinlichkeit, dass eins durch n mal Summe i gleich eins bis n mn von x i minus m von x i zum Quadrat
01:02:02
größer als der entsprechende Ausdruck mit dem m in Stern plus einem Delta ist. Und zwar größer als irgendwie dreimal der entsprechende Ausdruck plus einem Delta ist. Und das werde ich zurückführen auf ein Stichprobenmittel, das definiert ist mithilfe der epsilon i
01:02:21
und wo auch die ganzen Funktionen aus fn noch mit eingehen. Und dann werden wir letzten Endes so eine uniforme Exponentialungleichung, wie wir schon mal hatten, als wir das Theorem von Pollard behandelt haben. Ja, der Pollard haben wir gar nicht behandelt, als wir Clivenco-Cantelli bewiesen haben
01:02:42
mithilfe der Technik, die man beim Theorem von Pollard eigentlich braucht. Also da die entsprechende Abschätzung, so etwas ähnliches brauchen wir ja noch mal. Nur diesmal ein bisschen feiner und ein bisschen fortgeschrittener von der Technik. Ok, also ich fange mal an, es gilt.
01:03:06
Also erstens was ich behaupte ist, wenn ich den mittleren quadratischen Fehler von dem mn mir angucke, also eins durch n, Summe i gleich eins bis n,
01:03:24
dann ist dieser Ausdruck leider gleich als den entsprechenden Wert, wenn ich mn durch m in Stern ersetze.
01:03:49
Sieht das jemand von Ihnen, warum das gilt?
01:04:17
Genau, das m in Stern ist aus fn, aber das mn minimiert ja unter allen Funktionen aus fn diesen Ausdruck.
01:04:23
Also wegen mn Stern aus fn und der Definition von mn. Das ganze schreibe ich jetzt umständlich um, indem ich mn von xi minus yi ersetze durch mn von xi minus m von xi plus m von xi minus yi.
01:04:49
Genauso mache ich es mit mn Stern von xi minus yi. Ersetze ich durch mn Stern von xi minus m von xi plus m von xi minus yi und batteriere beides mal aus.
01:05:01
Ok, ja Sie lachen, ich könnte alles auf einmal machen, aber dann würden Sie nicht mehr lachen. Wir machen es schrittweise. Ok, also wir machen es hier und hier. Das heißt ich bekomme hier eine Summe von drei Termen.
01:05:50
Dann noch der dritte Term.
01:06:08
Also von der linken Seite bekomme ich eins durch n mal Summe i gleich eins bis n mn von xi minus m von xi zum Quadrat plus zwei mal eins durch n mal Summe i gleich eins bis n mn von xi minus m von xi mal m von xi minus yi
01:06:20
plus eins durch n Summe i gleich eins bis n m von xi minus yi zum Quadrat. Von der rechten Seite her bekomme ich das gleiche, nur mit mn ersetzt durch mn Stern. Das heißt ich kann es noch einmal abschreiben und die linke Seite ist kleiner gleich die rechte Seite.
01:07:36
Ok, dann sehen Sie, der letzte Summe ist jeweils gleich, also hebt sich weg.
01:07:44
Und dann leite ich daraus eine Abschätzung für eins durch n mal Summe i gleich eins bis n mn von xi minus m von xi zum Quadrat her. Also das lasse ich links stehen, alles andere bringe ich auf die rechte Seite.
01:08:09
Der Ausdruck ist dann kleiner gleich als, ja wir schreiben den ersten Ausdruck ab.
01:08:34
Und dann muss ich noch etwas dazu addieren. Und was ich dazu addiere, ist die Differenz von diesen beiden gemischten Termen.
01:08:43
Und da hebt sich auch vieles weg. Da sehen Sie, da kann ich eigentlich den einen vom anderen abziehen. Beide haben den Faktor m von xi minus yi. Das heißt da bleibt eigentlich noch mn Stern von xi minus mn von xi stehen. Und dann drehe ich noch das Vorzeichen um. Ich möchte nämlich eigentlich nicht m von xi minus yi haben, sondern ich möchte yi minus m von xi haben, was ja gerade der Fehler epsilon i wäre.
01:09:08
Also ich modifiziere beide mit minus eins. Dann komme ich auf zwei mal yi minus m von xi mal, ja, jetzt bleibt noch mn von xi minus mn Stern von xi übrig.
01:09:45
Und die Gleichung nenne ich dann 9.5.
01:10:22
Okay, soweit. Das ist schon mal gar nicht mal so schlecht. Warum ist das nicht schlecht? Naja, nehmen Sie mal an, der erste Term ist größer gleich dem zweiten Term. Wenn der erste Term größer gleich dem zweiten Term ist, dann ist das der Fehler, der uns interessiert.
01:10:45
Also umgekehrt, wenn der erste Term kleiner als der zweite Term ist, dann ist das kleiner als viermal diesen Ausdruck. Was ist das hier? Naja, wenn Sie das angucken, hier stehen eigentlich die yi minus m von xi. Das sind die epsilon i.
01:11:01
Das sind Zufallsvariabeln, die haben Erwartungswert 0. Ich bilde ein Mittel darüber und ich modifiziere noch mit einer Funktion aus dem Funktionenraum. Das heißt, wenn ich hier eine geeignete Überdeckung mit meinem Funktionenraum mache, kann ich das Ganze vielleicht zurückführen auf eine feste Funktion. Und dann ist es schon mal ganz schön. Dann könnte ich mit der Ungleichung von Höfting da reingehen und würde schon ziemlich viel rausbekommen.
01:11:24
Kleines Problem an der Sache ist noch, dass die Koffizienten, die hier auftauchen, nichts zu tun haben mit dem Term, der hier links steht. Nicht wirklich. Also da steht nämlich mn minus m und da steht mn minus m in Stern. Und das möchte ich eigentlich noch hinbekommen. Deswegen mache ich eine weitere Abschätzung.
01:11:40
So wie, also es gilt, oder wir machen jetzt weiter gilt. Wir gucken uns eins durch n i gleich eins bis n mn von xi minus mn Stern von xi an.
01:12:05
Und das ist der Ausdruck, den ich gerne auf der linken Seite stehen hätte anstelle von dem, was da steht. Das mache ich folgendermaßen. Ich nutze aus a plus b Quadrat ist kleiner gleich zwei a Quadrat plus zwei b Quadrat.
01:12:25
Und dann schreibe ich mn von xi minus mn Stern von xi umständlich um als mn von xi minus m von xi plus mn von xi minus mn Stern von xi. Und wende diese Ungleichung an.
01:12:59
Jetzt bleibt da noch mn Stern von xi minus m von xi minus mn Stern von xi übrig.
01:13:17
Und dann setze ich, der zweite Term ist zwei mal eins durch n Summe i gleich eins bis n mn Stern von xi minus m von xi zum Quadrat.
01:13:25
Der zweite Term ist wieder mein Approximationsfehler, der ist schön. Für den ersten Term setze ich die Abgleichung 9,5 ein. Dann sehen Sie von 9,5, ich bekomme zweimal 9,5.
01:13:42
Also ich bekomme zweimal die rechte Seite von 9,5. Und der erste Term auf der rechten Seite von 9,5 ist auch der letzte Term da hinten. Das heißt, ich bekomme insgesamt vier Mal mn Stern von xi minus mn von xi zum Quadrat.
01:14:12
Und dann bekomme ich das von oben noch vier Mal.
01:14:44
Und es gibt dann Gleichung 9,6.
01:15:09
Okay, Fragen soweit? Also die Ungleichung gefällt mir jetzt besser.
01:15:20
Weil, also wie gesagt, wenn der Term größer ist als den Term, dann sind wir gleich fertig. Wenn der Term größer ist als den Term, kann ich in die Ungleichung rein. Ich kann das ersetzen durch acht Mal den Term.
01:15:40
Und habe dann hier, und hier, die Koffizienten tauchen eigentlich auf der linken Seite auch wieder auf, was sich als günstig erweisen wird. Jetzt machen wir ein paar Überlegungen. Nun gilt, ist also der erste Term auf der rechten Seite von 9,5 größer als der zweite Term auf der rechten Seite von 9,5 im Falle.
01:16:46
Nun gilt also das, verfolgt aus 9,5. Naja, die linke Seite von 9,5 ist leider gleich als dreimal der Term hier oben, dreimal der Approximationsfehler.
01:17:35
Das nennen wir 9,7. Und ist das nicht der Fall, dann wende ich 9,6 an.
01:17:44
Dann ist der Term hier größer als der Term. Und ich kann das abschätzen durch acht Mal diesen Term.
01:18:10
Andernfalls gilt nach 9,6. 9,6 war dieser Term hier.
01:19:04
Also folgt schon mal 9,8. Okay, und jetzt tun wir vielleicht ein bisschen abkotzen.
01:19:22
Oder ich versuche mal, ob ich hier ein bisschen abkotzen kann, und Sie sehen es immer noch. Also daraus folgt, was mich eigentlich interessiert, ist folgende Wahrscheinlichkeit.
01:19:52
Also ich möchte ausrechnen, dass die Wahrscheinlichkeit, dass dieser durchschnittliche quadratische Fehler von meinem kleinsten Quadratenschätzer mir gewisse Größe überstreikt.
01:20:00
Diese Größe ist eine konstante Delta plus irgendwas proportional zum Approximationsfehler. Und ich nehme dreimal den Approximationsfehler.
01:20:27
Und die Abschätzung, die Wahrscheinlichkeit möchte ich nach oben abschätzen. Und dann zeigen für Delta mit einer gewissen, oder dann im weiteren Verlauf der Vorlesung zeigen, für Delta mit einer gewissen Geschwindigkeit gegen Null. In Abhängigkeit von N geht das Ding immer noch gegen Null.
01:20:41
Also wir würden, wenn das ein linearer Vektoraum ist, würden wir zum Beispiel vermuten, wenn da die Vektoraumdimension geteilt durch N mal die Variant steht, dann sollte das Ding immer noch gegen Null gehen. Oder so, von der Größenordnung her. Und auf oben sowas möchten wir auch hinaus. Okay, ich möchte diese Abschätzung durch was anderes ersetzen.
01:21:15
Ja, Sie haben gesehen, die Gleichung 9,5 gilt immer, die wir hatten. 9,5, 9,6 gilt immer.
01:21:22
Wenn jetzt der hier, der Term hier größer als der ist, dann gilt diese Abschätzung. Wenn aber diese Abschätzung gilt, dann kann das hier nicht sein, kann dieses Ereignis nicht eintreten. Weil dann wäre ja dieser Ausdruck kleiner gleich als dreimal diesen Ausdruck, aber der ist größer als ein positives Delta.
01:21:40
Also dann folgt für Delta größer Null, für Delta größer Null beliebig. Wenn ich noch eine positive Zahl dazu addiere, dann bin ich hier drüber. Das heißt, ich weiß auf alle Fälle, das kann nicht sein.
01:22:00
Das heißt, ich bin beim anderen Fall. Das heißt, diese Gleichung hier gilt. Und ich lasse ganz vorne noch ein bisschen Platz, weil da kommt gleich noch was. Also ich bin so weit. 1 durch N, Summe I gleich 1 bis N, kleiner gleich 8 mal 1 durch N.
01:22:52
Das müssten Sie jetzt eigentlich sehen, weil wenn dieses Ereignis hier eintritt, dann kann eben das nicht sein, weil sonst würde 9,7 gelten und 9,7 ist ein Widerspruch zu diesem Ereignis.
01:23:06
Also gilt 9,8. Und was jetzt ein bisschen schwierig zu sehen ist, ist der zweite Teil. Ich behaupte, die Ungleichung ist auch noch größer als Delta halbe.
01:23:30
Und das sehen Sie da, wenn wir das da oben, die linke Seite da oben, 1 durch N, Summe I gleich 1 bis N,
01:23:49
MN von XI minus M von XI zum Quadrat ist kleiner gleich, gleicher Trick wie gerade eben, a plus b zum Quadrat, kleiner gleich 2a Quadrat plus 2b Quadrat.
01:24:01
Ich schiebe ein Minus-MN-Stern, ein Plus-MN-Stern hier ein.
01:24:33
Kommen wir auf diese Beziehung. Also 1 durch N, Summe I gleich 1 bis N, MN von XI minus M von XI zum Quadrat ist kleiner gleich als 2 mal 1 durch N,
01:24:45
plus 2 mal 1 durch N, Summe I gleich 1 bis N, MN-Stern von XI minus M von XI zum Quadrat. Wenn nun diese Gleichung gilt, dann können Sie die linke Seite hier nach oben abschätzen durch die rechte Seite da. Schreiben Sie die rechte Seite hin. Dann können Sie dieses MN-Stern von XI minus M von XI mit diesem Ausdruck hier verrechnen.
01:25:08
Also dieses Minimum über alle F aus FN ist gerade dieses, diese durchschnittliche Fehler von diesem, durchschnittliche quadratische Fehler von dem MN-Stern. Dann bleibt er noch zweimal auf der rechten, noch einmal auf der rechten Seite stehen.
01:25:20
Hier bleibt zweimal der Ausdruck stehen. Da muss insbesondere der zweimal der Ausdruck größer als Delta sein. Das heißt der Ausdruck größer als Delta halb. Und wir sind fertig. Okay, also der Trick war, wenn dieses Ereignis eintritt, dann landen wir automatisch bei 9,8,
01:25:42
weil 9,7 kann nicht sein. Und wenn dieses Ereignis eintritt, dann kann ich die linke Seite hier noch mit dem abschätzen und lande auch noch bei der Abschätzung hier.
01:26:00
Und das ist die entscheidende Ungleichung, die wir im Folgenden dann weiter analysieren werden. Weil jetzt kann ich als nächstes schreiben, nach oben abschätzen durch kleiner Gleich. Existiert eine Funktion aus meinem Funktionenraum, nämlich dieses MN, die diese Eigenschaft hat. Und dann sind wir so weit, dass wir einen Stichprobenmittel haben,
01:26:23
was wir gleichmäßig über einen Funktionenraum beschränken wollen. Also beachten Sie, wir hatten bisher immer so Häufigkeiten minus Wahrscheinlichkeiten. Jetzt haben wir eigentlich Stichprobenmittel minus Erwartungswerte. Aber der Erwartungswert ist hier gleich Null. Das heißt, das Minuserwartungswert taucht gar nicht mehr auf.
01:26:44
Okay, damit habe ich überzogen, aber ich nehme an, Sie kurzens beim Video wieder runter. Ich bin mir recht sicher. Ja, ich habe ja auch schon mal früher aufgehört. Okay, gut, dann sehen wir uns am Montag. Dankeschön.
Recommendations
Series of 13 media