Der Satz von Stone
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Part Number | 16 | |
Number of Parts | 24 | |
Author | ||
License | CC Attribution - ShareAlike 3.0 Germany: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/34283 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | |
Genre |
Kurvenschätzung16 / 24
1
2
7
9
10
11
12
15
16
19
20
23
24
00:00
Expected valueRandom variableRegressionsschätzungPredictionVariable (mathematics)KurvenschätzungEstimatorEstimationLinear regressionConditional probabilityCurveComputer animation
03:30
Conditional expectationPositionExpected valueEstimatorFunction (mathematics)SquareWeightMittelungsverfahrenDurchschnitt <Mengenlehre>Local ringPredictionAbsolute valueRegressionsfunktionStarke KonsistenzLogical constantPhysical quantityProbability distributionLecture/Conference
11:14
EstimatorMittelungsverfahrenEnde <Graphentheorie>WeightExpected valueProbability distributionSummationAbsolute valueArithmetic meanBounded setLogical constantSquarePressure volume diagramMaxima and minimaPhysical quantityDecision theoryLecture/Conference
18:58
Direktes ProduktWeightAbsolute valueSummationIteriertes IntegralRandom variableTerm (mathematics)Expected valueEstimatorTermumformungMilitary rankSquareLecture/Conference
26:42
Maxima and minimaSquareTerm (mathematics)Convex setRandom variableSummationFactorizationExpected valueAbsolute valueEnergy levelInequality (mathematics)Lecture/Conference
36:24
Conditional expectationExpected valueIntegrierbarkeitSummationAbsolute valueRandom variableProduct (category theory)FactorizationWeightProbability theoryTermumformungTrailBounded setInequality (mathematics)Lecture/Conference
46:06
Conditional expectationProduct (category theory)Expected valueSummationSquareRandom variableLogical constantTermumformungTerm (mathematics)SummierbarkeitFactorizationGradientMittelungsverfahrenTrailLecture/Conference
55:49
Conditional expectationExpected valueSummationSquareLogical constantTerm (mathematics)Integrierbare FunktionDichtheitFunction (mathematics)Absolute valueSummierbarkeitRandom variableNumerisches GitterIntegrierbarkeitLecture/Conference
01:05:31
SummationSquareWeightExpected valueAbsolute valueAbgeschlossenheit <Mathematik>Term (mathematics)SummierbarkeitLogical constantMaximum (disambiguation)Product (category theory)SupremumDeath by burningLecture/Conference
01:15:13
Term (mathematics)SummationWeightSquareExpected valueIntegrierbare FunktionBounded setPropositional formulaConditional expectationReal numberAbsolute valueProduct (category theory)ZahlSet (mathematics)Zufällige FolgePhysical lawGradientCalculationRandom variableLecture/Conference
Transcript: German(auto-generated)
00:08
Ja, dann begrüße ich Sie mal recht herzlich zur heutigen Vorlesung, in der Vorlesung Kurvenschätzung. Ich habe hier in dem Hörsaal so ein kleines technisches Problem heute, die Steuerkonsole tut überhaupt nicht. Das heißt, ich kann die Leinwand nicht runterfahren, was eigentlich nichts macht,
00:21
aber ich kann auch das Licht nicht verändern, was ein bisschen doof ist. Aber wir müssen mal gucken, wie viel Sie erkennen können, sonst könnte ich vielleicht noch den Tageslichtprojektor hin und her schieben und gucken, ob ich immer einen Teil der Tafel mit dem Tageslichtprojektor beleuchte. Also, okay, kommen wir zu dem, was wir beim letzten Mal gemacht haben. Wir waren bei der Anwendung der Regressionsschätzung in der Mustererkennung.
00:41
Da haben wir eine RD-Kreuz 0,1-wertige Zufallswariable x, y. Wir wollen eine Funktion f von RD nach 0,1 finden, mit der wir ausgehend vom Wert von x den Wert von y, also dieses Label 0 oder 1, vorhersagen können. Das wollen wir so machen, dass die Wahrscheinlichkeit einer falschen Vorhersage, die Wahrscheinlichkeit, dass f von x ungleich y möglichst klein ist.
01:03
Wir können die optimale Vorhersagefunktion g Stern unmittelbar hinschreiben. Es ist die Funktion, die 1 ist, falls die bedingte Wahrscheinlichkeit, dass y gleich 1 ist. Da fehlt y gleich 1 in der Folie, gegeben x gleich x. Oder in der Folie müsste ich eigentlich einen Erwartungswert von y, also in der Folie steht ein p statt einem Erwartungswert.
01:24
Also hier müsste eigentlich ein Erwartungswert von, ja, ich glaube, ich habe einen Stift, ich habe doch immer einen Folienstift für Notfälle. Normalerweise sehe ich dabei. Das heißt, da steht gleich ein Erwartungswert. Erwartungswert verloren und wieder gefunden.
01:42
Aber dieser Erwartungswert ist, da die Zufallsvariable y ja 0, 1 wertig ist, eigentlich die Wahrscheinlichkeit, dass y gleich 1 ist, gegeben x gleich x. Wenn diese Wahrscheinlichkeit größer ein und halb ist, entscheiden Sie sich für 1, ansonsten für 0. Und diese Funktion minimiert dann die Wahrscheinlichkeit, dass f von x ungleich y ist.
02:01
Das führt dann automatisch auf eine Schätzung, nämlich zur Schätzung von dieser Funktion g Stern ausgehend von beobachtenden Daten x1, y1 bis xn, yn. Schätzen Sie zuerst m, da gehört wieder der Erwartungswert hin, von y gegeben x gleich x durch m quer von r d nach r und verwenden dann einen sogenannten Plug-in-Schätzer, wo Sie einfach den unbekannten Wert m ersetzen durch die Schätzung.
02:27
Also ich mache vielleicht nochmal den Erwartungswert hin. Erwartungswert schon wieder verloren, aber auch wieder gefunden. Also gute und die schlechte Nachricht, wir verlieren einen Erwartungswert, wir finden ihn aber auch.
02:41
Erwartungswert. Und dann gilt, wenn Sie sich angucken, wie groß ist die Wahrscheinlichkeit einer falschen Vorhersage bei dieser Funktion g quer im Vergleich zum optimalen Wert. Das ist natürlich größer gleich 0, weil g Stern war ja die optimale Funktion. Das ist aber auch kleiner gleich als den 2 mal den L1 Abstand zwischen m quer und m,
03:03
der wieder mit Cauchy-Schwarz kleiner gleich als die Wurzel aus dem L2 Abstand ist, wobei integriert wird bezüglich der Verteilung von x. Und damit können Sie mit Verfahren der Regressionsschätzung auch ein Mustererkennungsproblem lösen.
03:21
Gut. Dann kommen wir als nächstes zu Satz 4.4. Also wir gucken mal, wie viel Sie sehen, wenn ich ohne Licht schreibe.
03:42
4.4 Satz. Stow 1977. Wir betrachten einen lokalen Durchschnittsschätzer.
04:02
Mn von x, dieser lokalen Durchschnittsschätzer haben wir im letzten Mal eingeführt. Guten Morgen. Sie gucken mal schnell nach dem Licht. Also ich kriege die Konsole nicht an. Die reagiert auch nicht. Dann machen wir vielleicht eine kleine Pause. Also das würde ich insbesondere anhaben, das wäre ganz schön.
04:21
Aber die reagiert auf gar nichts.
05:20
Und das können Sie extra irgendwie versuchen.
05:24
Gut, dann geben Sie Bescheid und ich halte einfach die Vorlesung weiter. Gut, also das war der Versuch mehr Licht zu bekommen. Wir bekommen aber nicht mehr Licht. Dann können wir mal gucken, können Sie das denn so lesen? Die Alternative wäre, dass ich diesen Tageslichtprojektor einschalte und es anstrahle. Dann können Sie es besser lesen.
05:41
Jetzt ist die Frage, sollen wir das so machen oder ohne Tageslichtprojektor? Ohne geht auch. Dann fahre ich den beiseite. Dann steht er Ihnen nicht im Weg rum. Also sei mn von x ein lokaler Durchschnittsschätzer. Den haben wir beim letzten Mal eingeführt.
06:05
Das ist ein lokales Mittel der yi Werte, wobei die Gewichte gewichtet werden mit Gewichten, die von der Stelle x, an der ich vorhersage, abhängen und noch von den x1 bis xn. Das ist also ein wni von x mal yi.
06:28
Und diese wni von x sind wni von x, x1 bis xn.
06:44
Und das Ding ist ein lokaler Durchschnittsschätzer.
07:02
Und was wir zeigen wollen, der konvergiert gegen die Regressionsfunktion, also gegen m von klein x, also den bedingten Erwartungswert von Großy gegen Groß x gleich klein x. Und zwar in dem Sinne, dass der L2-Fehler, das Integral von mn von x minus m von x zum Quadrat, integriert bezüglich der Verteilung von x gegen 0 konvergiert für n gegen n endlich.
07:22
Und zwar in dem Sinne, dass dessen Erwartungswert gegen 0 konvergiert. Wir zeigen eine sogenannte schwache Konsistenz. Eine starke Konsistenz wäre, wenn wir fast sicher zeigen würden, laut Sprachgebrauch, dass der Erwartungswert davon gegen 0 konvergiert für n gegen n endlich. Und das zeigen wir jetzt nicht nur für einige Verteilungen von x, y,
07:43
sondern erstaunlicherweise, wir sind in der Lage, und das war die Leistung von Charles Stone, das zu zeigen für alle Verteilungen von x, y, wo der Erwartungswert von y² klein und endlich ist. Das heißt, Sie können jetzt hier einen Schätzer angeben, nämlich so einen lokalen Durchschnittsschätzer. Da müssen die Gewichte gewisse Bedingungen erfüllen.
08:00
Das sind fünf Stück, die schreibe ich gleich hin. Und wenn die fünf Bedingungen erfüllt sind, dann konvergiert der L2-Fehler gegen 0 für alle Verteilungen von x. Der erwartet der L2-Fehler gegen 0 für alle Verteilungen von x, y. Was damals, im Jahr 1977, ziemlich überraschend war für die Leute, hatte mir mal Laszto-Giorfi erzählt.
08:21
Die konnten sich jetzt vorher nicht vorstellen, dass es überhaupt geht. Wir machen das jetzt in zwei Schritten, diesen Nachweis. Das erste ist dieser Satz hier. Wir zeigen, ich schreibe jetzt hier fünf Bedingungen an die Gewichte hin, und dann beim nächsten Mal zeigen wir, beim Kernschätzer, beim nächsten, übernächsten Mal eigentlich, sind diese fünf Bedingungen erfüllt. Also, sei m ein so lokaler Durchschnittsschätzer.
08:44
Für jede Verteilung von x gelte fünf Bedingungen.
09:04
Die erste sagt, ist eine technische Bedingung, die besagt, wenn Sie yi durch ein F von xi ersetzen, und Sie machen noch Beträge um den Erwartungswert, dann ist der Erwartungswert von dem, was rauskommt, beschränkt durch eine Konstante mal den Erwartungswert von F von x.
09:23
F ist eine nicht negative Funktion. Also, die Aussage ist, existiert ein C großer Null, sodass für alle N aus N, und für alle F von Rd nach R plus, also für alle nicht negativen Funktionen,
09:43
und die muss natürlich messbar sein. Ja, das passt noch hin, das ist messbar, also ich schreibe es mal hin. Ich gucke mir an, was passiert, wenn ich yi durch F von xi ersetze, bilde davon noch den Erwartungswert.
10:04
F von x mal F von x. Wenn das jetzt in L2, also Sie sehen, wenn ich, also F von xi hier, sorry, ne? F von xi.
10:21
Wenn der Fehler, wenn der Schätzer hier in L2 gegen die Regressionsfunktion konfigiert, die wahre Regressionsfunktion ist ja jetzt, wenn yi gleich F von xi ist, der bedingte Erwartungswert von yi gegeben, xi ist einfach F von xi, ne? Also ist F die Regressionsfunktion. Dann sollte es gegen F konvergieren, und wir fordern hier,
10:43
das da soll kleiner gleich als eine Konstante mal F sein, und ich mache zusätzlich noch Beträge an den Gewichten. Das ist jetzt gerade nicht ganz logisch, warum ich Beträge mache, aber das brauche ich im Beweis. Werden Sie dann sehen. Erste Bedingung.
11:00
Diese erste Bedingung ist primär technischer Natur. Dann kommt die zweite Bedingung. Ja, was war die zweite Bedingung? Die zweite Bedingung war, die Gewichte sollen beschränkt sein. Im Skript steht, es existiert eine Konstante d kleiner gleich 1,
11:20
aber wir können doch allgemein d größer 0 fordern. Existiert d größer 0, macht eigentlich mehr Sinn. So dass für alle n aus n die Gewichte mit Wahrscheinlichkeit 1, die Summe der Gewichte kleiner gleich d ist, und ich nehme wieder den Betrag der Gewichte.
11:58
Das wäre also Beschränktheit der Gewichte.
12:01
Sie können schon die Lautstärke verändern. Sie machen Fortschritte. Das wäre Beschränktheit der Gewichte. Dritte Bedingung. Wir wollen so einen lokalen Durchschnittsschätzer machen. Das heißt wir mitteln alle die
12:20
mittel über alle yi und wir wollen vor allen den yi ein großes Gewicht geben, wo xi nahe bei x ist. Und wir fordern so was wie eine asymptotisch eine lokale Entscheidung. Nun das machen wir, indem wir sagen,
12:44
ja, und vielleicht mal für alle a größer 0 soll ich gucke mir den Erwartungswert an von der Summe der Gewichte wieder mit Betrag.
13:01
Ich mache einen Indikator an und zwar nur in dem Fall, dass xi von x mehr als a entfernt ist. Und ich fordere, dass es gegen 0 geht für n all die ganzen Gewichte,
13:28
wo xi minus x einen gewissen festen Abstand haben, spielen asymptotisch keine große Rolle. Zumindest wenn das yi beschränkt wäre. Sehen Sie ihn Schätzer.
13:43
Vierte Bedingung. Wir machen arithmetisches Mittel der yi und ein lokales Mittel. Letzten Endes machen wir das so, dass wir so Gewichte
14:01
auf die y1 bis yn verteilen, aber die Summe der Gewichte soll 1 sein. Das heißt, ich fordere diese Summe der Gewichte ohne Betrag jetzt diesmal kontergiert nach Wahrscheinlichkeit gegen 1.
14:21
Und fünfte Bedingung. Ich sollte es eigentlich auf eine Tafel schreiben, möglichst. Aber ich glaube, ich schaffe es nicht ganz. Ich möchte noch sicherstellen, dass ein einzelnes Gewicht keinen großen Einfluss hat. Dafür nehme ich die Summe der Quadrate der Gewichte und fordere, dass deren Erwartungswert gegen 0 kontergiert.
14:59
Und das
15:01
sind unsere Voraussetzungen. Und dann kommen wir zur eigentlichen Aussage. Was ist die Aussage? Ich schreibe es mal hier weiter.
15:23
Der erwartete L2-Fehler von unserem Schätzer kontergiert gegen 0 für n gegen endlich für jede Verteilung von xy.
15:44
Für jede Verteilung von xy
16:04
mit der Erwartungswert y² klein und endlich und wir sprechen hier von universeller Konsistenz des Schätzers. Das heißt, der Schätzer ist universell konsistent.
16:31
Konsistenter Schätzer haben Sie immer dann, wenn der Fehler asymptotisch gegen 0 geht. Universell konsistent heißt hier, er geht für alle Verteilungen von xy gegen 0. Was natürlich eine schöne
16:41
Sache ist, weil wenn Sie jetzt eine Anwendung haben, ganz egal was die Verteilung ist, solange y² integrierbar ist, geht der Fehler zumindest asymptotisch gegen 0. Eigentlich wäre es eine schwache universelle Konsistenz, weil wir hier einen Erwartungswert haben und keine fast sichere Konsistenz, wäre der Sprachgebrauch, aber den mache ich in der Vorlesung nicht. Ich unterscheide
17:01
in der Vorlesung nicht zwischen schwacher und starker universeller Konsistenz. Konsistenz. Fragen soweit.
17:36
Also ich habe es jetzt auswendig angeschrieben. Können Sie mal gucken, ob ich es richtig angeschrieben habe, wenn jemand einen Skript
17:40
da hat? Also im Skript steht noch d kleiner gleich, groß d kleiner gleich 1 bei 2 drin, aber das ist egal. Also eigentlich, ich verstehe nicht, warum da d kleiner gleich 1 steht. Macht irgendwie Sinn, d kleiner gleich 1, aber weil die Gewichte ja sowieso zu einsummieren. Aber ich glaube, also wenn ich d, wenn ich es für c größer 0 zeige, gilt es natürlich auch für d kleiner gleich 1.
18:02
Und wir brauchen es später nicht. Danke schön. Da fängt es schon an. Hätte ich natürlich auch so geschafft, aber das kann ja anders nicht funktionieren. Wenn Sie eine Funktion haben,
18:21
beziehungsweise, okay, eigentlich kann es schon funktionieren, dann ist die Aussage trivial. Aber naheliegenderweise würden wir noch dazuschreiben mit der Erwartungswert von f und x kleiner und endlich. Also es ist im Prinzip das gleiche, ob ich es weglasse oder nicht.
18:42
Aber ich schreibe es mal dazu. Macht irgendwie mehr Sinn. Noch eine Sache, die abweicht. Also beim zweiten, das d kleiner gleich 1, aber das ist egal.
19:04
Und Stone ging damals noch deutlich über die Arbeit hinaus. Er hat auch gezeigt, unter gewissen Voraussetzungen sind Modifikationen von diesen Bedingungen auch hinreichend, nicht nur notwendig. Damit er universell konsistent ist. Und das wäre, wenn die Gewichte nicht negativ sind, dann sind die ganzen Beträge fallen weg. Und die Gewichte summieren zu 1,
19:20
wie es bei den meisten Schätzern ist. Also es ist auch 4, würde wegfallen. Dann sind die verbleibenden 1, 3 und 5 notwendig. Nicht nur hinreichend. Aber das machen wir eh auch nicht.
19:47
Okay, Fragen soweit zur Aussage? Dann stellen wir uns jetzt vor,
20:01
Sie wären in Ihrer mündlichen Vertiefungsprüfung oder aber auch in der schriftlichen Ergänzungsprüfung und der erstaunliche Fall ist eingetreten. Sie haben die Aufgabe gezogen, den Satz von Sohn zu zeigen. Das ist eine der Prüfungsfragen. Sie haben keinerlei Hilfsmittel außer der Formulierung des Satzes. Und die Frage ist, was machen Sie jetzt?
20:21
Mal gucken, ob ich es hinbekomme. Und wenn ich es nicht hinbekomme, müssen wir nochmal darüber diskutieren, ob wir das wirklich auf die Prüfungsfragen stellen können. Aber ich glaube, ich bekomme es hin. Schauen wir mal. So ein kleiner Intelligenztest vom Dozenten. Beziehungsweise Sie wissen vielleicht, oder Sie wissen wahrscheinlich nicht, aber Sie werden es irgendwann feststellen,
20:41
wenn Sie so ein bisschen älter werden, dann werden Sie sich vielleicht irgendwann mal fragen, funktioniert Ihr Gehirn noch richtig? Ist irgendwie klar, mit zunehmendem Alter irgendwann funktioniert es nicht mehr so gut wie früher. Und wie stellen Sie sowas fest? Und als Mathematikprofessor geht es relativ einfach. Sie gehen einfach in die Vorlesung, legen Ihren Aufschrieb beiseite und beweisen einen Satz von Sohn.
21:01
Dann gucken Sie mal, wie weit Sie kommen. Aber die Satz anschreiben, es zählt nicht wirklich. Das ist ja reines auswendiges Lernen. Aber weiß ist eine andere Sache. Okay, fangen wir an. Also für mich Intelligenztest, für Sie eine Prüfungsfrage.
21:20
Wir fangen mit der linken Seite an. Wir gucken uns diesen erwarteten L2-Fehler an. Das ist ein Erwartungswert.
21:43
Also das ist ein Erwartungswert von einem Integral. Den können Sie einfach schreiben als ein Integral dp. Dann ist die Frage, auf was bezieht sich der Erwartungswert überhaupt? Naja, auf die Zufallsvarianten, die da noch drin stehen. Bei dem mn von x stecken ja die x1, y1 bis xn, yn
22:01
noch drin. Darauf bezieht es ja sich. Dann können Sie es mit einem Transformationssatz umschreiben als ein Integral bezüglich der Verteilung von x1, y1 bis xn, yn. Gemeinsame Verteilung. Integriert bezüglich dem x1, y1 bis xn, yn. Dann können Sie mit
22:21
dieses iterierte Integral umschreiben als ein Integral bezüglich der Produktverteilung. Dann haben Sie die Produktverteilung von px. Also die Verteilung von px. Direktes Produkt mit der Verteilung von x1, y1 bis xn, yn. Also jetzt hatten wir was haben wir schon alles genommen? Wir haben einen Transformationssatz genommen. Wir haben Phobini genommen.
22:53
Dann wissen wir, die Zufallsvariablen sind unabhängig. Deswegen ist das Produkt der Verteilung die gemeinsame Verteilung der Zufallsvariablen.
23:01
Also jetzt kommt noch die Unabhängigkeit. Dann machen Sie nochmal den Transformationssatz. Schreiben das um als ein Integral bezüglich dp. Und dann sehen Sie, das Ganze ist ein globaler Erwartungswert. Nämlich der Erwartungswert von
23:26
Betrag von mn von x minus m von x². Das wäre der erste Schritt in Ihrer Prüfung. Und die naheliegende Frage, die ich stellen könnte, aber nicht stellen müsste, wäre, warum gilt diese Umformung? Okay, wir sind
23:42
hier. Dann setzen Sie mal ein, was mn von x war. Einfach in die Formel. Dann kommen wir auf die Summe i gleich 1 bis n.
24:05
Das ist mn von x. Und davon müssen wir m von x abziehen. Das mache ich jetzt noch nicht, um mir ein bisschen Platz zu sparen. Ich mache gleich den zweiten Schritt mit.
24:27
Also wenn ich jetzt hier noch minus m von x schreibe und Betrag zu und Quadrat, dann sehen Sie das. Und jetzt füge ich noch ein paar Mal eine Null ein. Ich gehe über von den yi zu dem m von xi.
24:40
Das heißt, ich ziehe hier m von xi ab. Dann korrigiere ich das wieder. Ich muss insgesamt noch m von x abziehen. Das mache ich jetzt erstmal in den Gewichten. Dann habe ich
25:04
immer noch einen Fehler gemacht. Und der Fehler ist dann wn i von x mal
25:23
m von x eigentlich. Und ich ziehe gleich minus 1 ab. Und mache noch m von x dran. Und dann mache ich hier den Betrag zu. Ich mache das Ganze hin. Und dieses
25:43
Summenzeichen bezieht sich hier nicht auf die minus 1. Weil das ist der Trick, den Sie sich merken müssen in dem Beweis. Sie gehen von dem yi zu dem m von xi über. Dann von dem m von
26:00
xi zum m von x. Und dann gehen Sie zu dem über, was eigentlich da steht. Und diese Umformung gilt, weil die beiden Terme heben sich weg. Und die beiden Terme heben sich weg. Und hier bleibt noch ein minus m von x übrig.
27:02
Ja, würde ich ganz gern weitermachen. Ich mache vielleicht das Mikro nochmal ein bisschen leiser. Wir haben jetzt auch einen Minusschalter. Okay. Gut. Also Sie merken, bisher läuft die Prüfung noch ganz gut. Jetzt haben Sie eine Summe von drei Termen. Davon
27:21
das Quadrat. Und Sie nutzen aus a plus b plus c Quadrat ist gleich 3a Quadrat plus 3b Quadrat plus 3c Quadrat.
27:40
Und dann können wir es zerlegen in 3 mal den ersten Erwartungswert. Also Erwartungswert von der Summe ist die Summe der Erwartungswerte. Plus 3 mal
28:13
den zweiten Erwartungswert. Plus 3
28:37
mal den dritten Erwartungswert.
29:02
Und diese drei Terme gucken wir uns jetzt einzeln an und zeigen, dass alle drei gegen null konvergieren. Den ersten definiere ich als i n, den zweiten als j n, den dritten als l n. Ohne Faktor 3 jeweils. Also es ist 3 i n bis 3 j n bis 3 l n.
29:23
Und der weitere Beweis ist dann zu zeigen, i n konvergiert gegen null für n gegen unendlich, j n konvergiert gegen null für n gegen unendlich, l n konvergiert gegen null für n gegen unendlich. Sie können sich vielleicht denken,
29:41
was ich an der Stelle bei der Prüfung von der Summe nachfragen würde, um zu vermeiden, dass Sie eine Sache nur rein auswendig gelernt haben, ohne es kapiert zu haben. Vorschlag?
30:03
Das eine, was sich irgendwie provoziert als Nachfrage, ist dieser Übergang von dem Betrag zum Quadrat, in Klammern zum Quadrat. Aber das wissen Sie ganz klar, das ist das Gleiche. Trivial. Und das Zweite ist, wo kommt die Ungleichung her? a plus b plus c Quadrat gleich 3a Quadrat plus 3b Quadrat plus 3c Quadrat.
30:20
Dann könnten Sie sagen, Sie multiplizieren die linke Seite aus und dann steht es irgendwie da. Dann würde ich Sie aber fragen, wie sieht es denn aus mit a plus b plus c plus d Quadrat kleiner gleich 4a Quadrat plus 4b Quadrat plus 4c Quadrat plus 4d Quadrat? Dann sagen Sie wieder, ich muss mich nicht aus, aber dann gehe ich das ganze Alphabet durch und irgendwann lasse ich Sie ausmultiplizieren.
30:40
Aber wenn Sie nicht ausmultiplizieren können, wie machen Sie es dann? a plus b plus c Quadrat kleiner gleich 3a Quadrat plus 3b Quadrat plus 3c Quadrat, wie kommt man darauf? Oder haben Sie sowas überhaupt schon mal gesehen?
31:01
Aber Sie glauben es einfach so. Ich erzähle es Ihnen und Sie glauben es. Das ist gut. Teilen Sie die Ungleichung mal durch 9 und dann ziehen Sie die 9 in die Klammer auf der linken Seite rein.
31:21
Als ein Drittel. Dann steht da ein Drittel a plus ein Drittel b plus ein Drittel c in Klammern zum Quadrat ist kleiner gleich ein Drittel mal a Quadrat plus ein Drittel mal b Quadrat plus ein Drittel mal c Quadrat. Sagt Ihnen das irgendwas? Sie gucken so, als ob ich irgendwie Spanisch rede. Dabei kann ich gar kein Spanisch.
31:40
Lustig hier. Ein Drittel a plus ein Drittel b. Mein Vorschlag war ja schon lange angesichts unserer internationalen Studiengänge, dass wir unsere Vorlesungen eigentlich auf Latein halten. Dann hätten alle die gleiche faire Sache.
32:00
Keiner hätte bevorzugt, weil es Muttersprache wäre. Wenn Sie mal das angucken, könnten Sie sowas verstehen. Ist ja äquivalent. Ich meine, Sie multiplizieren die Ungleichung mit 9 durch oder teilen durch 9.
32:24
Welche Eigenschaft hat die Quadratfunktion?
32:40
Konvex. Sie kennen die Ungleichung von Jensen. Elementarer Fall. Ungleichung von Jensen. Und Quadrat ist Konvex. Und damit sehen Sie sofort, wie Sie es hochziehen würden zu ein Viertel mal a plus ein Viertel mal b plus ein Viertel mal c plus ein Viertel mal d in Klammern zum Quadrat kleiner gleich ein Viertel mal a Quadrat
33:01
Viertel mal b Quadrat und so weiter. Das ist Jensen. Alternativ, man könnte es wirklich ausmodifizieren, dann steht es auch da. Alles auf eine Seite bringen, aber so sieht man es eigentlich schneller. Okay, jetzt haben wir also drei Terme und wollen zeigen, dass Sie drei Terme gegen null konvegieren.
33:21
Fragen soweit? An der Stelle der mündlichen Prüfung wäre natürlich ein gewisser Teil schon rum. Das heißt, Sie könnten eigentlich nicht mehr die ganzen restlichen Beweise machen.
33:43
Das würde die provokante Frage aus provozieren, wenn Sie einen dieser Terme sich raussuchen können, um zu zeigen, dass er gegen null konvegiert. Welchen würden Sie nehmen? Und da Sie Masochist sind, würden Sie wahrscheinlich den ersten nehmen. Aber wenn Sie nicht Masochist sind, was würden Sie da nehmen?
34:05
Aber die Frage, die korrekte Frage müsste eigentlich sein, wenn jemand nicht masochistisch veranlagt ist und er hat jetzt die Möglichkeit, einen dieser drei Terme auszuwählen. Welchen der Terme soll er dann wählen? Sie würden den letzten wählen, warum?
34:30
Also der Vorschlag ist, weil das M von X mit allen WnI multipliziert wird. Ja klar, das haben wir ausgeklammert. Das sehen Sie ja. Der sieht irgendwie schöner aus.
34:40
Das M von X steht nicht mehr einzeln da. Hat jemand eine andere Begründung? Der erste Faktor geht nach Wahrscheinlichkeit gegen null. Und daraus folgen Sie ganz recht schnell den Rest mit dem Satz von der majorisierten Konvergenz. Aber gucken wir uns am Schluss an. Also der dritte geht ganz schnell, aber wir sind Masochisten, wir fangen mit dem ersten an.
35:01
Also Betrachtung von In. Wenn Sie In sich mal angucken, das ist ja ein Erwartungswert von Quadrat und der Term da dasteht, ist die Summe
35:20
i gleich 1 bis N WnI von X mal yi minus M von Xi. Wenn Sie sich diese Zufallsvariablen angucken, die sind sicherlich unabhängig. Aber Sie können sich mal überlegen, wie groß ist der Erwartungswert von diesen Zufallsvariablen? Und dann sehen Sie relativ schnell, der Erwartungswert ist null.
35:42
Also was ich gerne machen möchte, ich möchte die Summe aus dem Quadrat rausziehen. Ich möchte sagen, das ist der Erwartungswert der Summe der einzelnen Quadrate. Und wenn der Erwartungswert schon null ist, brauche ich dazu eine Unkorreliertheit und die Zufallsvariablen sind unkorreliert. Und das sehen wir wie folgt, für i ungleich
36:00
j gilt, ich gucke mir einfach mal den Erwartungswert von so einem Produkt an. Erwartungswert von WnI von X mal yi minus M von Xi. Und ich behaupte,
36:40
dieser Erwartungswert, der dasteht, ist gleich null.
36:42
Für i ungleich j. Was wissen wir? Wir wissen unsere x1, y1 bis xn, yn
37:01
und das x waren unabhängig. Das heißt, wenn wir hier konditionieren würden auf alle x-Werte, dann könnten wir irgendwie vermuten, dass die Zufallsvariablen, die dastehen, bedingt unabhängig sind, dann ist der Erwartungswert vom Produkt gleich Produkt der Erwartungswerte und die einzelnen bedingten Erwartungswerte, das M von Xi ist ja gerade so ein bedingter Erwartungswert, sind vielleicht
37:21
auch noch schön null. Nur bräuchte man sowas bei der bedingten Verteilung, gilt der gleiche Satz, der bei der nicht bedingten Verteilung gilt. Das ist nicht so ganz schön, aber Sie sehen es eigentlich relativ einfach und der Trick ist hier, wir bedingen nicht nur auf x bis x1 bis xn, sondern wir bedingen auch noch auf einen von den beiden yi dazu. Welches ist egal? Ich nehme mal das erste.
37:41
Also wir nehmen den ganzen Erwartungswert. Davon nehmen wir den bedingten Erwartungswert, der gleiche Ausdruck. Und dann bedingen wir auf alle x und xi, also auf x, x1 bis xn und dann auf yi auch noch.
38:00
Und das ist klar das Gleiche, weil der Erwartungswert vom bedingten Erwartungswert ist der Erwartungswert. Das wirft die Frage auf, hat mich jetzt irgendwas gebracht? Na ja, bei den bedingten Erwartungswert kann ich jetzt die Faktoren, die messbar sind bezüglich der Zufallsvariabeln, auf die ich hinten bedinge,
38:21
oder auf der Sigma-Algebra, die davon erzeugt wird, die kann ich alle rausziehen. Das ist insbesondere das Wn i von x. Das ist eine Funktion von x, x1 bis xn, habe ich alle festgehalten. Das ist das yi, habe ich festgehalten. Das ist das m von xi, habe ich festgehalten. Das ist das Wn j von x. Aber nicht die hier. Das heißt ich ziehe raus.
38:42
Satz aus der Wahrscheinlichkeitstheorie. Dann haben Sie Wn i von x mal yi minus m von xi.
39:03
Und den Rest lasse ich mal stehen. Der Rest ist noch yj minus m von xj. Und ich bedinge auf x, x1 bis xn und yi.
39:44
Okay, soweit? Dann ist Ihnen sicherlich auch klar, welche Nachfrage würde denn jetzt in einer mündlichen Prüfung kommen. An dieser Stelle.
40:01
Im Hinblick auf diese Umformung. Sind die Voraussetzungen erfüllt? Wir haben einen Satz aus der Wahrscheinlichkeitstheorie angewandt. Sind die Voraussetzungen erfüllt? Was waren denn die Voraussetzungen? An der Stelle müssten Sie sich jetzt erinnern. Wir haben so einen Satz aus der Wahrscheinlichkeitstheorie. Den wenden Sie gerade an, der hatte Voraussetzungen. Was waren die Voraussetzungen?
40:28
Ich brauche die Messbarkeit von den Faktoren, die ich rausziehe. Und die ist alles erfüllt. Und eigentlich, meinen Sie, und uneigentlich. Das sind die uneigentlichen Voraussetzungen noch. Die Integrierbarkeit.
40:41
Die Integrierbarkeit von was? Von dem gesamten Produkt. Das ist meistens der Hammer. Und dann noch von dem Einzelnen. Und jetzt wäre die Frage, wie sieht es aus mit der Integrierbarkeit? Warum sind die integrierbar?
41:01
Insbesondere das gesamte Produkt. Warum ist das gesamte Produkt integrierbar?
41:24
Aufgrund von Voraussetzungen eins, die wir hatten, das war die hier. Und das andere schreiben Sie als ein F.
41:40
Was messbar ist. Das heißt, Sie bilden den Betrag von dem Ganzen. Ziehen den Betrag dann zu den WNI und WNJ rein. Haben natürlich ein kleines Problem, weil hier nur ein Betrag von WNI steht.
42:01
Und nicht ein Betrag von der Summe von zwei. Sie haben noch ein größeres Problem, weil das nächste ein F von XI sein muss. Aber das hängt ja von Y in Y ab. Das klappt nicht. Das ist nicht, wo Sie eins brauchen. Aber Sie haben recht, wir nehmen eine der Voraussetzungen. Welche nehmen wir dann stattdessen?
42:34
Nehmen Sie zwei, drei, vier oder fünf.
42:48
Also nochmal, wir wollen die Integrierbarkeit von dem gesamten Produkt hier zeigen. Welche der Voraussetzungen hilft uns hier weiter?
43:05
Zwei, drei, vier oder fünf. Das ist irgendwie klar, wenn dann zwei.
43:21
Die Summe der Gewichte ist beschränkt, dann sind auch die Einzelgewichte beschränkt. Wenn die Einzelgewichte beschränkt sind, dann kann ich das bei der Frage der Integrierbarkeit vernachlässigen. Dann kommt es nur noch darauf an, ob YI minus M von XI mal YJ minus M von XJ integrierbar ist.
43:40
Aber das ist einfach, weil die Einzelzufallsvariablen sind quadratisch integrierbar. YI war quadratisch integrierbar. Wir wissen schon, dann ist M von XI als bedingte Erwartung aufgrund der jändischen Ungleichung für bedingte Erwartungen auch quadratisch integrierbar. Und wenn zwei Einzelzufallsvariablen quadratisch integrierbar sind, dann ist der Produkt nach Koji-Schwarz integrierbar. Dann sind Sie fertig.
44:04
Also hier müsst Ihr ein bisschen was dazuschreiben, aber ich habe so ein bisschen wenig Platz. Steht auch ein Skript drin. Ich lasse es vielleicht mal weg und Sie haben es jetzt ja auch gehört. Aber das wäre die naheliegende Frage gewesen. Also Sie argumentieren, der Faktor, den Sie rausziehen, ist messbar.
44:20
Das gesamte Produkt ist integrierbar, weil die Gewichte beschränkt sind nach Voraussetzung 2. Also wir schreiben vielleicht noch Messbarkeit plus 2.
44:40
Und 2, das impliziert dann die Integrierbarkeit. Ich schreibe es mal in der Kurzform hin.
45:03
Fragen jetzt soweit? Gut, dann machen wir weiter. Jetzt müssen wir den inneren
45:25
bedingten Erwartungswert noch ausrechnen. Ich schreibe mal nochmal alles ab. Wir haben VNI von X.
45:46
Jetzt nutzen wir die Linearität des bedingten Erwartungswerts aus. Das heißt wir haben den bedingten Erwartungswert von Y und J gegeben. Minus den bedingten Erwartungswert von M von X und J gegeben. Das M von X und J war messbar, deswegen ist der gerade M von X und J.
46:00
Aber es ist die Frage, was ist der bedingte Erwartungswert von Y und J gegeben. Dann nutzen wir die Unabhängigkeit der Daten aus. Wir wissen, dass X J, Y, J das ist unabhängig
46:22
von X X1 bis XJ minus 1 XJ plus 1 bis XN. Und wenn ich bei einer bedingten Erwartung noch auf mehr, auf etwas unabhängiges bedingen, kann ich es eigentlich weglassen. Das heißt ich komme hier eigentlich auf einen bedingten Erwartungswert
46:41
von Y und J gegeben, XJ minus M von XJ. Also ursprünglich steht der bedingte Erwartungswert von YJ gegeben X, X1 bis XN und YI
47:02
da. Ach so, und YI muss ich auch noch reinmachen. YI ist auch noch unabhängig von den ganzen. Und dann haben Sie eigentlich die Form, dass Sie einen
47:21
bedingten Erwartungswert der Form G von X,Z haben. Oder wie bezeichne ich das hier vorne?
47:46
Oder ich bezeichne das als bedingten Erwartungswert von Z gegeben X,Y wobei X,Z und Y unabhängig sind. Dann können Sie das Y bei der Bedingung rausstreichen. Und genau das haben wir hier.
48:11
Also Sie haben hier eine zufallsvariable Z. Das ist YJ minus oder wir machen es dann nur mit YJ. Das ist nur YJ. Ist Z. Wir haben gegeben ein
48:21
X. Das X ist das XJ. Und wir haben gegeben ein Y. Das Y ist der Rest. Das Y ist unabhängig von dem X,Z. Deswegen ist es der bedingte Erwartungswert von Z gegeben X. Z gegeben Y. Andersrum. Was ist denn mit dem
48:43
Minus M von XJ passiert? Meinen Sie? Oh, ja das wäre auch eine gute Frage in der Prüfung. Was ist denn mit dem Minus M von XI passiert? Das gehört hier irgendwie rein.
49:02
Das hat jemand weggelassen. Was nicht ganz überzeugend wirkt. Was aber nichts ausmacht, weil der Term sowieso null ist, aber trotzdem ist die Umformung nicht mehr logisch. Also ich habe natürlich weiterhin YI minus M von XI mal WNJ.
49:21
Ich muss die ersten Terme genau so abschreiben. Und dann sind wir hier. Oder Fragen? Fragen?
49:50
Also Sie gucken so. Also was ich gerade ausgenutzt habe, war ja der bedingte Erwartungswert von YJ hat schon da eigentlich ursprünglich gegeben. Das Ganze da hinten. X1 bis XN
50:05
und YI. Der ist eben der gleiche bedingte Erwartungswert von YJ gegeben. Das hatte ich hier gerade noch ausgenutzt.
50:40
Ja, aber damit sind wir fertig.
50:41
Weil jetzt machen wir uns klar, wenn wir uns den Erwartungswert von YJ geben XJ angucken. Das ist ja das gleiche wie wenn Sie den faktorisierten bedingten Erwartungswert angucken und darin
51:09
für X wieder XJ einsetzen. Also nach Definition des faktorisierten bedingten Erwartungswerts.
51:20
Können Sie einen bedingten Erwartungswert ausrechnen, indem Sie einen faktorisierten bedingten Erwartungswert nehmen und dann die Zufallsvariable auf diese Bedingen für den Wert wieder einsetzen. Und jetzt erinnern Sie sich, ja, dieser faktorisierte bedingte Erwartungswert hängt aber eigentlich nur von der gemeinsamen Verteilung der Zufallsvariablen ab.
51:41
Sie machen sich klar, nämlich XJ, YJ. Und das ist natürlich das gleiche wie der bedingte Erwartungswert von Y gegeben X gleich XJ aufgrund der identischen Verteiltheit. Ja, aber das ist wieder, das war ja gerade M. Dann kommt hier M von XJ raus.
52:01
Dann sehen Sie, der ganze Erwartungswert, der hier steht. Wir schreiben den ersten Term noch mal ab. Dann steht da
52:28
M von XJ minus M von XJ, das gibt 0. Und Sie sehen, das Ganze ist gleich 0. Und das war das, worauf ich eigentlich hinaus wollte.
52:57
Und hier ging eben die identische Verteiltheit der XY und der XYY rein.
53:17
Also Sie sehen, der Erwartungswert vom
53:20
Produkt von zwei Termen, die in der Summe bei dem IN auftauchen, ist gleich 0. Jetzt kann ich die Summe ausmultiplizieren. Da steht ja ein Quadrat von der Summe da. Das gibt dann einfach eine Doppelsumme von den ganzen gemischten Produkten. Dann kann ich die Doppelsumme mit der Linearität aus dem Erwartungswert rausziehen.
53:40
Dann sind aber die ganzen Erwartungswerte der gemischten Terme verschwinden. Dann sehen Sie, dann bleiben nur noch die Summe der Quadrate bleibt übrig. Also damit haben wir gezeigt, unser IN ist eigentlich das Gleiche wie die Summe I gleich 1 bis N,
54:09
werden I von X zum Quadrat mal YI minus M von XI. Das wäre der
54:33
Sinn von dem ersten Schritt.
54:46
Also Sie nehmen die Definition von IN, multiplizieren die Doppelsumme aus, ziehen die doppelten Summen, dann multiplizieren Sie die Summe aus. Beim Quadrat kriegen Sie eine Doppelsumme, ziehen die Summen mit der Linearität des Erwartungswertes aus dem Integral heraus.
55:01
Der Erwartungswert von den gemischten Termen verschwindet, wenn I ungleich J ist, bleiben nur noch die Terme übrig, wo I gleich J ist. Und das sind gerade die WNI von X zum Quadrat mal YI minus M von XI zum Quadrat als Produkt. Sind wir hier.
55:23
Jetzt überlegen Sie sich, wenn dieser Term nicht dastehen würde, YI minus M von XI zum Quadrat, dann wären Sie fertig. Weil Sie wissen, nach Voraussetzung 5 der Erwartungswert von der Summe der WNI von X zum Quadrat konvergiert gegen Null.
55:41
Das heißt, insbesondere, falls unsere Zufallsvariablen beschränkt wären, könnten wir das durch eine Konstante abschätzen, wir wären fertig. Unsere Zufallsvariablen sind aber nicht beschränkt. Was wir jetzt machen, wir konditionieren nochmal auf alle X in dem Erwartungswert, also alle XI,
56:14
Sie sind so weit. Dann machen Sie den gleichen Trick wie vorher, Sie ziehen das Messmal raus,
56:20
Sie machen sich wieder klar, ja, die Integrierbarkeitsvoraussetzung ist klar erfüllt, weil YI minus M von XI zum Quadrat ist ja integrierbar. Weil YI quadratisch integrierbar war, WNI zum Quadrat ist beschränkt. Dann kommen wir also auf die Summe, YI gleich 1 bis N, Erwartungswert von
56:41
WNI von X zum Quadrat. Und dann haben wir noch übrig den bedingten
57:05
Erwartungswert gegen XI 1 bis XN. Ja, und jetzt machen wir das
58:02
gleiche wie gerade eben nochmal, wir haben hier XI, YI, dann haben wir da hinten noch bedingt auf Zufallsvariabeln, die komplett unabhängig sind von XI, YI, nämlich X, X1 bis XI minus 1, XI plus 1 bis XN, die kann ich wieder weglassen. Das heißt, ich komme aufgrund
58:21
der Unabhängigkeit auf den bedingten Erwartungswert von, also Summe YI gleich 1 bis N, Erwartungswert von
58:41
WNI von X zum Quadrat mal bedingter Erwartungswert von YI minus M von XI zum Quadrat. Und ich muss nur noch auf XI bedingen. Okay, soweit.
59:27
Das, was hier hinten steht, ist eine Funktion von XI. Die bezeichne ich mit Sigma Quadrat von XI. Das heißt, das da hier ist
59:52
eigentlich erst mal eine Funktion, die auch Fi von XI, aber wir sehen gleich, das ist das Gleiche. Was ist das Sigma Quadrat?
01:00:03
sigma quadrat von klein x, das sei einfach der bedingte Erwartungswert von y i minus m von x i. Wir nehmen direkt den bedingten Erwartungswert von y minus m von x, x gleich x.
01:00:22
Und dieser bedingte Erwartungswert von y minus m von x zum Quadrat gegeben, groß x gleich klein x, da kann ich eben wieder das x y ersetzen durch das x i y i. Und dann sehen Sie, wenn ich das mache, aufgrund der gleichen identischen Verteiltheit von x y und x i y i,
01:00:43
und wenn ich das mache und dann darin wieder x i einsetze, dann kommt gerade dieser bedingte Erwartungswert von da oben raus. Also gleich direkt wie gerade eben.
01:01:18
Gibt es einen Grund, warum ich von Anfang an nur mit x i bedingen, sondern auch mit x?
01:01:22
Ja, den gibt es, wenn ich nur mit x i bedingen würde, kann ich nicht w n i von x rausziehen, weil das nicht messbar bezüglich x i ist. W n i von x hängt natürlich ganz klar von groß x ab, aber auch noch von x 1 bis x n. Ich bedinge auf alle Zufallsvariablen, also hier bei den Quadraten, die da drin stecken.
01:01:42
Und da steckt nicht nur x i drin, sondern da steckt groß x drin, x 1 bis x n. Insbesondere dieses x 1 bis x n ist allerdings in der Schreibweise unterdrückt. Aber danke für die Frage. Okay, noch eine Frage?
01:02:09
Ja, jetzt sind wir ein bisschen weiter im Beweis, weil wenn jetzt dieses Sigma-Quadrat eine beschränkte Funktion ist, sind wir auch fertig. Dann kann ich das hier durch eine Konstante abschätzen, dann habe ich immer noch den Erwartungswert von der Summe i gleich 1 bis n w n i Quadrat von x stehen,
01:02:23
der nach Voraussetzungen 5 gegen 0 konvergierte. Jetzt wird es aber in Allgemeinen keine beschränkte Funktion sein, allerdings wissen wir, diese Funktion ist integrierbar bezüglich der Verteilung von x. Weil wenn Sie das bezüglich der Verteilung von x integrieren, kommt gerade der Erwartungswert von y minus m von x zum Quadrat raus,
01:02:45
was ein Wert klein und endlich ist. Jetzt approximieren Sie diese integrierbare Funktion durch eine C0-und-endlich-Funktion, die insbesondere beschränkt ist. Dann sehen Sie, also wir nehmen epsilon größer 0 beliebig,
01:03:05
wir wählen eine beschränkte Funktion Sigma-Schlange,
01:03:23
die diese Funktion Sigma-Quadrat in L2 von px bis auf epsilon approximiert mit Integral von...
01:03:47
Und das ist eben möglich, weil die C0-und-endlich-Funktion dicht in L2 sind und dieses Sigma-Quadrat in L2 ist.
01:04:00
Da eben Sigma-Quadrat von x, px dx. Das ist gerade der bedingte Erwartungswert von y minus m von x zum Quadrat. Das ist klein und endlich.
01:04:20
Dann brauchen Sie halt noch ein Dichtheitsresultat für L2 von px, wobei die Dichtheit von beschränkten Funktionen zeigen Sie trivial. Aber Sie können sogar voraussetzen, dass die C0-und-endlich-Funktion dicht sind. Oder es geht sogar.
01:04:42
Ja, was bringt uns das Ganze? Der Term, der uns eigentlich interessiert, das sollte irgendwie das i n sein, den haben wir ja gerade umgeschrieben, schreibe ich jetzt nochmal um, indem ich nämlich das Sigma-Quadrat von xi ersetze durch Sigma-Quadrat von xi
01:05:01
minus Sigma-Schlange-Quadrat von xi plus Sigma-Schlange-Quadrat von xi, dann den Term in zwei Summen aufteile und irgendwo noch zusätzlich einen Betrag einfüge. Deswegen kleiner gleich.
01:05:21
Dann haben wir ein WnI von x. Dann mache ich einen Betrag. Sigma-Quadrat von xi.
01:05:46
Jetzt habe ich eine Summe zu viel. Ich habe eine Summe zu viel hingemalt, sorry. Das ist der eine. Dann kommt die zweite Summe.
01:06:07
Und hier habe ich ein Quadrat vergessen.
01:06:22
Dann bin ich so weit.
01:07:16
Also was habe ich hier gemacht? Ich habe den Term hingeschrieben.
01:07:21
Ich habe ein Sigma-Schlange-Quadrat von xi abgezogen und wieder dazu addiert, das Ganze in zwei Summen aufgespaltet und dann bei der ersten Klammer, die erste Klammer noch nach oben abgeschätzt durch einen Betrag, damit dann eine nicht negative Funktion von xi steht. Weil da werde ich nachher die Bedingungen 1 drauf anwenden.
01:07:42
Die Funktion, der zweite Term, ist jetzt beschränkt. Damit kann ich das Sigma-Schlange-Quadrat nach oben durch eine Konstante abschätzen. Beim ersten Term bin ich auch ganz schnell fertig, wenn da kein Quadrat stehen würde. Aber das Quadrat stört mich nicht, weil die Gewichte beschränkt sind mit Wahrscheinlichkeit 1 nach Voraussetzung 2.
01:08:01
Also ich kann jetzt die Voraussetzung 2 anwenden. Nach Voraussetzung 2 kann ich das WnI zum Quadrat abschätzen durch D mal Betrag von WnI von x. Das D ist eine obere Schranke für die Summe.
01:08:22
Also auch eine obere Schranke für die Einzelgewichte. Oder Sie haben eine Frage? Haben Sie eine Frage? Fragen Sie nur. Passt schon. Ja gut, dann noch. Kann ich jetzt auch nicht weiterhelfen.
01:08:42
Also ich wollte gerade das WnI durch seinen Betrag, das WnI-Quadrat abschätzen durch das Maximum der WnI, was sicherlich kleiner oder gleich ist als die Summe der Beträge der WnI, was eben kleiner oder gleich ist, mein Demit-Wahrscheinlichkeit 1. Das machen wir mal, dann kommen wir auf D mal.
01:09:00
Dann ziehe ich die Summe wieder in den Erwartungswert rein. Dann steht da noch ein Sigma-Quadrat von xi, davon der Betrag.
01:09:29
Dann in der zweiten Summe tue ich das Sigma-Schlange durch seine Supremumsnorm abschätzen.
01:09:40
Das war ja beschränkt nach Voraussetzung. Dann habe ich noch den Erwartungswert von der Erwartungswert und Summe vertausche ich wieder. Dann wähle ich noch die WnI zum Quadrat.
01:10:02
Dann haben wir das. Und jetzt gucken sich die beiden Terme an. Auf den ersten Term auf der rechten Seite wenden wir die Voraussetzung 1 an. Der Erwartungswert von Summe i gleich 1 bis n Betrag von WnI von x mal f von xi.
01:10:23
Unser f von xi, diese nicht negative Funktion, ist jetzt Betrag von Sigma-Quadrat von xi minus Sigma-Schlange-Quadrat von xi. Das ist kleiner gleich als 10 mal den Erwartungswert von f von x. Auf den der zweite Term, da geht der Erwartungswert der Summe der Quadrate der Gewichte gegen 0.
01:10:42
Also mit 1 und 5 folgt, ich betrachte den Liebesuperior von dem i n. Der ist dann sicherlich kleiner gleich 10 mal den Erwartungswert.
01:11:03
D habe ich auch noch. Erwartungswert von Sigma-Quadrat von x. Und der zweite ist 0.
01:11:22
Und für den Erwartungswert des Sigma-Quadrat habe ich ja gerade so gewählt, Sigma-Schlange-Quadrat, dass es kleiner als Epsilon ist. Dann ist es kleiner gleich d mal c mal Epsilon. Das gilt für ein beliebiges Epsilon größer 0, mit Epsilon gegen 0 folgt.
01:11:47
Und ich glaube, das ist die Bedingung 4. 5, wenn ich es noch recht weiß, i n konvegiert gegen 0, 4 n gegen n.
01:12:01
Und wir haben den ersten machsischsten Teil des Beweises abgeschlossen. Und der erste Term konvegiert gegen 0. Fragen soweit?
01:12:40
Ja, dann kommen wir zu dem nächsten Term.
01:13:36
Also wir haben noch zwei übrig. Wir können den Erwartungswert von Quadrat von dem Term hier angucken.
01:13:41
Das war J oder der Erwartungswert von Quadrat von dem Term. Wenn wir auf die Uhr gucken, dann ist es klar, der zweite dauert auch ein bisschen länger. Das wäre keine sinnvolle Möglichkeit in 10 Minuten, also machen wir den letzten. Also Betrachtung von Ln.
01:14:02
Und Ln, wir erinnern uns noch mal, das war der Erwartungswert von dieser Klammer. I gleich 1 bis n WnI von x.
01:14:21
Und dann noch mal m von x. Auch zum Quadrat. Ich habe vorhin das Ganze in Klammern zum Quadrat geschrieben, aber natürlich das Quadrat des Produkte bei den einzelnen Quadraten.
01:14:50
Und wir haben vorhin schon kurz darüber gesprochen. Wie machen wir diesen Term? Das ist der einfache Term. Wir nehmen die Voraussetzung 4, dass die Gewichte nach Wahrscheinlichkeit gegen 1 konvegieren.
01:15:02
Das heißt, die Differenz hier konvegiert gegen 0. Und wir folgern daraus, dass der ganze Integrant gegen 0 konvegiert. Also nach 4.
01:15:39
Und das wird natürlich in der Prüfung sofort die Frage provozieren.
01:15:44
4 besagt doch eigentlich nur, dass die Summe der Gewichte minus 1 nach Wahrscheinlichkeit gegen 0 konvegiert. Wie folgern Sie daraus, dass das Quadrat mal m von x zum Quadrat auch gegen 0 konvegiert? Haben Sie einen Vorschlag?
01:16:12
Also was wir da abstrakt machen, sind so reichen Regeln wie a n konvegiert nach Wahrscheinlichkeit gegen a. Dann konvegiert a n Quadrat nach Wahrscheinlichkeit gegen a Quadrat. Und wenn b n auch noch nach Wahrscheinlichkeit gegen b konvegiert, dann konvegiert auch a n mal b n nach Wahrscheinlichkeit gegen a mal b.
01:16:27
Wenn wir solche Rechenregeln hätten, wären wir fertig. Haben wir solche Rechenregeln?
01:17:01
Das haben wir in W-Theorie mal gezeigt. Und das ist eine gute Sache. Das haben wir mal gezeigt. Aber jetzt haben wir so einen gewissen Grundlagen wissen. Das wäre die Frage, wie ging das denn damals in W-Theorie? Und wenn Sie sich erinnern, es geht ganz schnell mit fast sicherer Konvergienz. x n konvegiert gegen x fast sicher.
01:17:20
y n konvegiert gegen y fast sicher. Dann konvegiert x n mal y n gegen x mal y n fast sicher. Und x n Quadrat konvegiert gegen x Quadrat fast sicher. Diese Aussagen sind trivial. Weil mit der fast sicheren Konvergienz können Sie reichen Regeln wie mit der Rechenregel, wie mit der normalen Konvergienz. Wir real zahlen. Was hat die fast sichere Konvergienz mit der Konvergienz nach Wahrscheinlichkeit zu tun?
01:17:48
Die fast sichere Konvergienz impliziert die Konvergienz nach Wahrscheinlichkeit richtig. Und die Konvergienz nach Wahrscheinlichkeit impliziert auch die fast sichere Konvergienz? So rum auch? Nur eine Teilfolge, ja. Jetzt kommt ein Teilfolgenargument. Und wenn Sie jetzt Ihr Teilfolgenargument noch erweitern auf ein Teilteilfolgenargument.
01:18:05
Kennen Sie ein Teilteilfolgenargument? Genau, richtig.
01:18:21
Eine Zufallfolge von Zufallvariablen x n konvegiert nach Wahrscheinlichkeit gegen x. Dann und nur dann, wenn für jede Teilfolge eine Teilteilfolge konvegiert, die fast sicher konvegiert. Aber für die Teilfolgen und Teilteilfolgen haben Sie ja diese fast sichere Konvergienz gegen Null. Weil Sie schnappen sich eine beliebige Teilfolge. Dann finden Sie eine Teilteilfolge, die, wo die Konvergienz, also für die Teilfolge liegt natürlich auch die Konvergienz nach Wahrscheinlichkeit vor.
01:18:47
Von der Summe der Gewichte gegen 1. Dann konvegiert, jetzt haben Sie aber eine Teilteilfolge, die fast sicher konvergiert. Und diese, wenn diese Teilteilfolge fast sicher konvergiert, konvergiert auch dieses ganze Produkt hier fast sicher gegen Null. Und Sie haben in der Tat gezeigt, für jede beliebige Teilfolge existiert eine Teilteilfolge, die fast sicher gegen Null konvergiert.
01:19:04
Damit sind Sie hier fertig. Ok, das ist einfach. Jetzt verwenden wir noch Voraussetzung 2, die Beschränktheit der Gewichte.
01:19:21
Ich möchte den Satz von der majorisierten Konvergienz anwenden. Dazu betrachte ich, der Betrag von dem Ganzen, was da hier steht, ist klar und gleich als eine integrierbare Funktion.
01:19:42
Können Sie mir eine integrierbare Majorante nennen? Na gut, das können Sie eigentlich, weil die Summe der Beträge der Gewichte ist kleiner gleich D. Dann ist, das tun Sie noch durch 1 nach oben abschätzen. Dann kommen Sie auf D plus 1 zum Quadrat.
01:20:04
Das haben wir fast sicher. Das haben wir eigentlich nur für alle N. Aus N gilt es fast sicher, aber natürlich gilt es auch fast sicher für alle N aus N, weil die Vereinigung von absehbarer Nullmenge eine Nullmenge ist.
01:20:24
Wobei der Erwartungswert von M von X zum Quadrat, der ist ja gleich dem Erwartungswert, der ist ja kleiner gleich als der Erwartungswert von Y Quadrat. Der ist kleiner und unendlich. Das war wieder Jensen für bedingte Erwartungen.
01:20:42
Ja, dann können wir aber, dann können wir den Satz von der majorisierten Konvergienz anwenden.
01:21:35
Sie haben, der Term unter dem Erwartungswert konjugiert nach Wahrscheinlichkeit gegen Null, ist durch eine integrierbare Majorante nach oben beschränkt,
01:21:43
dann konjugiert der Erwartungswert selber, konjugiert gegen Null, gegen unendlich. Und das ist dann die Beziehung, das eine war 4,5, 4,6 haben wir gerade weggelassen, das ist 4,7.
01:22:09
Fragen soweit?
01:22:21
Ja, dann kann ich Ihnen wieder sagen, was wäre die naheliegende Frage in der Prüfung an der Stelle? Was besagt denn der Satz von der majorisierten Konvergienz Ihrer Meinung nach? Integrant konjugiert punktweise gegen Null und ist beschränkt, dann konjugiert das Integral auch gegen Null.
01:22:42
So was haben Sie. Und dann können Sie Null wegen noch weggelassen, konjugiert punktweise fast überall gegen Null und ist beschränkt. Und dann gucken Sie an, was ist das Integral? Hier ist ein Integral bezüglich P. Was ist dann die punktweise Konvergienz fast überall? Das ist die fast sichere Konvergienz.
01:23:02
Das heißt, unser Satz von der majorisierten Konvergienz, wie wir normalerweise eigentlich lernen, sagt, das konjugiert fast sicher gegen Null, ist aber beschränkt durch eine integrierbare Majorante fast sicher, dann konjugiert der Erwartungswert gegen Null. Aber wir haben ja gerade die Voraussetzungen nur nach Wahrscheinlichkeit. Warum können wir das dann anwenden?
01:23:23
Was sagen Sie jetzt? Na gut, wir sind am Ende von der Stunde. Ich habe hier eigentlich nach meiner Uhr noch eine Minute, nach der Uhr nicht. Und meine Uhr geht genau.
01:23:41
Aber was machen Sie, wenn Sie Konvergienz nach Wahrscheinlichkeit haben, aber Konvergienz fast sicher haben wollen? Sie rufen Teil-Teil-Folgen. Und Sie wenden das ganze Argument mit Teil-Teil-Folgen an. Und Sie wissen, eine Folge reeller Zahlen konjugiert dann und nur dann gegen Null, wenn für jeder Teil-Folge eine Teil-Teil-Folge existiert, die gegen Null konjugiert.
01:24:01
Das heißt, Sie fangen mit einer Teil-Folge von dem Ding an, haben dann einen Integranten, der für die Teil-Folge auch nach Wahrscheinlichkeit gegen Null findet, findet eine Teil-Teil-Folge, wo die Konvergienz fast sicher ist, können den Satz von der majorisierten Konvergienz auf die Teil-Teil-Folge anwenden und sehen, die Teil-Teil-Folge konjugiert auch gegen Null, der Erwartungswert.
01:24:22
Fertig. Also hier würden Sie irgend so was machen mit Teil-Teil-Folgen anwenden. Und damit haben Sie in der Prüfung immerhin zwei von drei Termen geschafft.
01:24:43
Ich würde sagen, es war eigentlich eine glatte 1-0 oder so, aber wir setzen uns beim nächsten Mal noch fort und machen noch den dritten Termin. Gut, damit wäre ich für heute fertig.