We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Der x^2-Anpassungstest - Teil 1

00:00

Formal Metadata

Title
Der x^2-Anpassungstest - Teil 1
Title of Series
Part Number
23
Number of Parts
28
Author
License
CC Attribution - NonCommercial - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Aufgabe der Statistik ist es, Rückschlüsse aus Beobachtungen zu ziehen, die unter dem Einfluss des Zufalls enstanden sind. Diese Vorlesung gibt eine umfassende Einführung in die zugehörige mathematische Theorie. Behandelt werden u.a.: Hauptsatz der Mathematischen Statistik, Dichteschätzung, nichtparametrische Regressionsschätzung, Punktschätzverfahren, statistische Tests, Bereichsschätzverfahren.
LogarithmSummationExponential functionPower seriesOrder of magnitudeDegrees of freedom (physics and chemistry)RootLimit of a functionModulformRandom variableSquareExpected valueParameter (computer programming)Binomial distributionMathematicsBinomial coefficientNumberPositionProduct (category theory)Propositional formulaZahlSet (mathematics)AsymmetryHypothesisCumulative distribution functionPartition (number theory)ExponentiationPotenz <Mathematik>IndexSampling (statistics)Vector graphicsMatrix (mathematics)Function (mathematics)Charakteristische FunktionContinuous functionZufallsvektorPhysical quantityDot productContinuous functionContinuous functionPressure volume diagramFactorizationNatural numberReal numberProbability distributionEmpirical distribution functionTotal S.A.Integration <Mathematik>MultiplicationLengthSocial classMoment (mathematics)Ende <Graphentheorie>Probability theoryVariable (mathematics)Absolute valueGleichverteilungExponential functionAgreeablenessMathematicianHöheMetreGrenzverteilungOrthogonalityTaylor seriesCalculationMathematical analysisRandConnected spaceTerm (mathematics)Bounded setMultinomial distributionMarginal distributionDiskrete VerteilungFilm editingStatistical hypothesis testingImplikationCharakteristik <Algebra>Dimension 1Observational studySupremumLimit (category theory)Series expansionLineare TransformationTestgrößeChi-squared distributionBinomial heapComputer animationLecture/ConferencePanel painting
Transcript: German(auto-generated)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung in dem doch etwas ungewohnten Raum. Ich habe vor einiger Zeit, das war ungefähr ein halbes Jahr her,
hat mir ein Kollege aus Montreal eine E-Mail geschickt, wo prämiert wurde, die blödesten Baufehler überhaupt. Und es waren so einige gute Sachen dabei, also es war der Balkon ohne Tür dabei, also ich meine der Balkon direkt am Haus dran. Oder der Bankautomat auf zwei Meter Höhe oder so.
Aber ich finde auch die Tafel hier, die hätte durchaus ein Potenzial da, also einen Preis zu bekommen, wenn man sich das anguckt. Das ist schon gut, ne? Aber okay, ich nehme an, das haben Sie nicht ganz so gedacht.
Gut, ich fange mal an mit einer Ankündigung. Also auch dieser Tageslichtprojektor hier ist nicht schlecht. Die Vorlesung am Donnerstag, 27.01.2011, also in einer Woche, fällt aus.
Grund ist, ja das ist schade, ne? Grund ist, dass, Sie wissen vielleicht, die ganzen Bachelor-Master-Studiengänge müssen akkreditiert sein, das ist ein schwieriges Wort. Das heißt, es gibt Agenturen, die bezahlen Sie dafür, ich glaube so 10.000 Euro, dann kommen die, gucken sich den Studiengang an und sagen, ja, da können Leute studieren.
Und nachdem Sie akkreditiert sind, und das ist eine Grundvoraussetzung, hat die TU Darmstadt mal irgendwann zugestimmt, sie bekommt Geld vom Land nur für akkreditierte Studiengänge. Das heißt, wir müssen das machen. Und nachdem Sie akkreditiert sind, gibt es irgendwann so etwas wie eine Reakkreditierung. Das heißt, nach ein paar Jahren wird das Ding noch mal angeguckt.
Und diese Reakkreditierung der Mathematik ist jetzt am Donnerstag, 27.01.2011. Bin ich im Prinzip nicht betroffen oder sind die Vorlesungen erstmal nicht betroffen, weil es ja nicht so, dass man alle Vorlesungen angucken muss. Es ist aber so, die Reakkreditierungsagentur kam auf die Idee, sie macht ein Gespräch mit den Lehrenden von 13.45 bis 14.45 an dem Donnerstag.
Und da soll von jeder Arbeitsgruppe einer teilnehmen. Das heißt, von unserer Arbeitsgruppe sind es zurzeit ich und Herr Standard. Wir beide haben ab 14.25 Vorlesungen. Und ja, wir haben dann den genommen, der begeisterter war, hinzugehen, sagen wir mal so.
Also Herr Standard war so gar nicht begeistert. Und ich war auch nicht begeistert, aber er war noch viel weniger begeistert. Und ich habe dann gesagt, also ich weiß nicht, vielleicht ist er mit seiner Vorlesung hinten dran, aber ich bin eigentlich mit der Vorlesung nicht hinten dran. Ich wollte dann erst Herrn Schons bitten, Herr Schons bitten, die Vorlesungen zu halten, aber er hat keine Zeit.
Dann habe ich mir überlegt, ich nehme die eine Mitarbeiterin bei mir, die promoviert im Sonderforschungsbereich. Dann ist mir eingefallen, die ist gerade Skifahren. Das ist auch nicht gut. Dann habe ich gedacht, ich nehme die beiden anderen Mitarbeiter. Dann ist mir eingefallen, die sind überarbeitet. Dann habe ich gedacht, okay, lassen wir ausbreiten. Also kurz gesagt, nächste Woche Donnerstag, ausnahmsweise, einzige Vorlesung dieses Semester, die ausfällt.
Oder einzige Vorlesung bisher. Gut, ich habe mir ja gestern lange überlegt, soll ich überhaupt eine Wiederholungsfolie machen? Ich habe jetzt gesehen, das war ein Fehler, weil sie passt nicht drauf, aber jetzt habe ich sie schon.
Also Satz 8.1 haben wir beim letzten Mal behandelt. Sind x1 bis xn unabhängig identisch verteilt mit stetiger Verteilungsfunktion f? Und ist fn die empirische Verteilungsfunktion zu x1 bis xn, so hängt die Verteilung vom Supremum T aus R, Betrag von fn von T minus f von T nicht von f ab.
Damit möglich. Wir lehnen h0 f gleich f0 zum Niveau alpha aus 0,1 ab, falls dieses Supremum T aus R Betrag von fn von T minus f0 von T größer als ein Alpha-Fraktil ist. Und dieses Alpha-Fraktil wählen wir als das Alpha-Fraktil, was rauskommt,
wenn wir da oben Gleichverteilte auf 0,1 Gleichverteilte Zufallsvariablen einsetzen und für f0 die Verteilungsfunktion der Gleichverteilung auf 0,1 nehmen. Und das ist eben dann ein Test zum Niveau alpha, weil die Verteilung ja bei f gleich f0, wenn f0 stetig ist, nicht von diesem f0 abhängt.
Dann haben wir eine zweite Möglichkeit gesehen, so einen Test zu machen. Wir hatten eine asymptotische Aussage, die ich ohne Beweis gemacht habe. Unter den Voraussetzungen von Satz 8.1 gilt der Limits entgegenendlich von der Wahrscheinlichkeit, dass es Supremum T aus R Betrag von fn von T minus f von T kleiner gleich als lambda durch Wurzel n ist,
konvergiert gegen ein oder ist gleich Q von lambda. Q von lambda kann ich hinschreiben als Reihenentwicklung. Das führt auf den Test von Kolmogorov-Smirnov. Wir lehnen h0 f gleich f0 zum Niveau alpha aus 0,1 ab,
falls Wurzel n mal das Supremum T aus R Betrag von fn von T minus, hier muss stehen, f0 von T größer als das alpha fraktiv von Q ist. Okay, soweit zur Wiederholung.
Dann unser Vorhaben für die heutige Vorlesung. Ich erzähle Ihnen ein bisschen was über den Chi-Quadrat-Anpassungstest, also motiviert es ein bisschen. Stell Ihnen eine Prüfgröße vor.
Und dann kommt der entscheidende Satz. Der sagt, dass die Prüfgröße gegen eine Chi-Quadrat-Verteilung konvergiert für n-gegenendlich. Den Satz werden wir beweisen. Das ist eine Aussage über Verteilungskonvergenz. Ich werde anfangen, indem ich ein paar Sachen ein bisschen allgemeiner sage. Die gelten ein bisschen allgemeiner, als wir sie in der Wahrscheinlichkeitstheorie hatten.
Nämlich nicht nur für reelle Zufallsvariablen, sondern auch für vectorwertige Zufallsvariablen. Dann läuft es daraus hinaus, dass wir letzten Endes den Städigkeitssatz von Levy-Grammer-Anrechte anwenden. Dazu müssen wir charakteristische Funktionen anwenden. Ich werde dann erst mal anfangen, die charakteristischen Funktionen hinzuschreiben.
In zwei Schritten geht es relativ einfach. Und dann kommt der technische Schritt, wo wir den Riemes-Endgegen endlich machen werden. Das heißt, ich werde hier mit dieser Tafel anfangen, irgendwelche Riemes-Betrachtungen zu machen, was angesichts der Größe der Tafelklasse geht. Und wenn ich wahrscheinlich mittendrin bin, nehme ich an, dass die Vorlesung zu Ende ist. Aber mal gucken, vielleicht schaffe ich es auch ein bisschen schneller.
Gut, kommen wir zu Acht-Zwei, Chi-Quadrat-Anpassungstest. Wir haben wieder x1 bis xn unabhängig identisch verteilt mit Verteilungsfunktion f.
Wir haben eine Verteilungsfunktion f0. Und zu testen sei wieder h0 f gleich f0 versus h1 f ungleich f0.
x1 bis xn unabhängig identisch verteilte reelle Zufallsvariablen.
Wir haben eine weitere Verteilungsfunktion f0. Und zu testen ist h0 f gleich f0 versus h1 f ungleich f0.
Das nenne ich 8.1 diese Hypothesen.
Können Sie das so lesen, wenn ich das so groß schreibe? Ist das okay? Okay. Beim Chi-Quadrat-Anpassungstest ändern wir erstmal ein bisschen die Hypothesen. Ich wähle eine Partition der reellen Zahlen. Also wähle c1 bis cr mit Vereinigung der cj ist gleich r und paarweise im leeren Schnitt.
Dann setze ich Pi 0. Das ist die Wahrscheinlichkeit, dass x1 in ci ist, wenn f0 die wahre Verteilungsfunktion ist.
Und Pi entsprechend, wenn f die wahre Verteilungsfunktion ist. Also klein Pi 0. Wahrscheinlichkeit bei f gleich f0 von x1 Element ci und Pi.
Und nur Pi. Das ist die Wahrscheinlichkeit, wenn f die wahre Verteilungsfunktion ist.
x1 Element ci. Und jetzt anstelle von 8.1 testen wir die schwächeren Hypothesen. 8.2 Nämlich h0, dass P1 gleich P1.0 ist.
P2 gleich P2.0 und so weiter bis pr gleich pr0. Und h1 entsprechend, dass es ungleich ist. Also statt 8.1 Teste testen wir das nenne ich 8.2.
h0 P1 bis pr gleich P1.0 bis pr0. Also h1, dass es eben ungleich ist.
Okay, ich habe gerade behauptet, das sind schwächere Hypothesen. Kann das jemand von Ihnen erläutern, inwiefern man diese Hypothesen als schwächer ansehen kann?
Dieses Testproblem ist schwächer als 8.1. Naja, es ist klar, ich meine dieses h0 impliziert das h0 hier.
Aber umgekehrt ist es ja so, dieses h1 hier impliziert das h1 hier. Das heißt, warum behaupte ich, wenn die Implikation so rum vorliegt, dass es schwächere Hypothesen sind?
Okay, also was interessiert ist h0 und deswegen ist es schlechter. Das liegt eben an dieser Asymmetrie von der Testtheorie. Im Prinzip, wir sichern ja immer die Gegenhypothese. Eigentlich sichern wir h1.
Das heißt, das günstigste was passieren kann, wir haben hier dieses h1 gesichert. Aber dieses h1 ist eben schwächer als dieses h1 hier. So gesehen ist es schwächer. Und natürlich, wenn Sie eine diskrete Verteilung haben, die nur endlich viele, oder wo die Zufallsvariable mit Wahrscheinlichkeit 1 nur endlich viele verschiedene Werte annimmt, dann ist es genau das Gleiche.
Dazu, ich setze jetzt y und j. y und j gibt an, wie viele der x i in der Menge c j drin liegen. Also y und j ist die Summe i gleich 1 bis n in die Katerfunktion von der Menge c j,
ausgewählt an der Stelle x i für j gleich 1 bis r. Also ich gucke mir für jede einzelne Menge an, wie viele meiner Beobachtungen liegen drin.
Okay, was können Sie über die Verteilung der y 1 bis y r aussagen?
Diesen Binomial verteilt, also y 1 bis y r, sind jeweils binomial verteilt. Nämlich y j ist binomial verteilt mit n Freiheitsgraden. Und Wahrscheinlichkeit, dass es gleich 1 ist, die Wahrscheinlichkeit, dass x i in c j drin ist, das wäre gerade bei Gültigkeit von h 0 unser p j oben 0.
Okay, ich möchte die Frage aber nochmal wiederholen. Was können Sie über die Verteilung aussagen? Und zwar mich interessiert eigentlich die gemeinsame Verteilung der y 1 bis y r.
Also Sie haben ja jetzt gerade die Randverteilung binomial verteilt. Daraus hätten wir die gemeinsame Verteilung schon festgelegt, wenn die Zufallsvariablen unabhängig sind. Sind diese Zufallsvariablen unabhängig? Sind die y 1 bis y r unabhängig?
Richtig? Nein, weil die Mengen disjungt sind. Das heißt, oder weil es eine Partition ist, wenn ich die ganzen Werte aufaddiere, komme ich gerade auf n. Also wir wissen, dass y j ist, wie habe ich es hier geschrieben, b n p j verteilt,
für j gleich 1 bis r. Aber y 1 bis y r sind nicht unabhängig, da eben die Summe gleich n ist.
Ich behaupte aber, ich kann trotzdem etwas über die gemeinsame Verteilung aussagen, darüber hinaus es gilt. Überlegen wir uns mal, wie groß ist die gemeinsame Verteilung, dass y 1 den Wert k 1 annimmt,
y 2 den Wert k 2 und so weiter, bis y r den Wert k r. Wie groß ist diese Wahrscheinlichkeit für Zahlen k 1 bis k r?
Natürliche Zahlen. Können Sie darüber irgendwelche Aussagen machen?
Eine Aussage ist ganz einfach, wenn die Summe der k j nicht gleich n ergibt, dann ist es 0. Aber interessieren tut eigentlich nur, k 1 bis k r sind Zahlen aus n 0, deren Summe gleich n ergibt.
Also falls, ich schreibe es mal drunter, falls k 1 bis k r aus n 0 mit Summe der Zahlen ist gleich n.
Was kann ich dann aussagen? Naja, Sie können sich überlegen, wie groß ist die Wahrscheinlichkeit, dass die ersten k 1 der x i in C 1 liegen, dann die nächstfolgenden k 2 in C 2 liegen, die darauffolgenden k 3 in C 3 liegen und so weiter.
Das können Sie hinschreiben. Ich lasse hier mal was frei. Wir müssen hinterher noch eine Anzahl überlegen.
Dass das erste Mal in C 1 liegt, das tritt auf mit der Wahrscheinlichkeit P 1. Dass das zweite dann auch wieder in C 1 liegt, auch mit der Wahrscheinlichkeit C 1, weil x 1 und x 2 unabhängig sind, tritt das gemeinsam auf mit der Wahrscheinlichkeit des Produktes. Das heißt, ich habe hier P 1 hoch k 1, mal P 2 hoch k 2, mal und so weiter, mal P r hoch k r.
Und jetzt muss ich mir überlegen, wie viele Möglichkeiten gibt es, diese Positionen, wo die x i, die gerade in C 1 liegen und die x i gerade in C 2 liegen und so weiter,
wie viele Möglichkeiten gibt es, diese Positionen aus den n Positionen zu wählen? Da ziehe ich aus den n Positionen erst mal k 1 für die Positionen, wo x 1 in C 1 liegt.
Und zwar da ziehe ich ohne Zurücklegen, ohne Beachtung der Reihenfolge. Das heißt, es ist n über k 1. Dann ziehe ich aus den verbleibenden n minus k 1 Positionen noch k 2. Gleiche Methode, es gibt n minus k 1 über k 2.
Muss ich noch dran multiplyieren. Das gleiche mit k 3, k 4 und so weiter. Multipizieren Sie aus, steht da n Fakultät geteilt durch k 1 Fakultät mal k 2 Fakultät und so weiter bis k r Fakultät.
Sie können sich das auch umgekehrt überlegen, wenn Sie alle diese Möglichkeiten der Positionen hier haben, wo Sie ja bei den Reihenfolgen der k 1, die in C 1 liegen, noch die Reihenfolge beliebig permutieren können. Und wenn Sie das auf alle möglichen Permutationen machen, das ist k 1 Fakultät mal k 2 Fakultät bis k r Fakultät mal viele,
dann bekommen Sie alle Permutationen der Zahlen 1 bis n. Es gibt n Fakultät, das heißt die Anzahl mal k 1 Fakultät mal k 2 Fakultät und so weiter mal k r Fakultät bis n Fakultät. Sie teilen durch, steht die Formel hier da.
Alternativ, Sie haben es als ein Produkt von binomial-Koeffizienten und schreiben es aus. Okay, ist das klar? Und was wir hier haben, ist eine sogenannte Multinomialverteilung. Also eine Verallgemeinerung der Binomialverteilung.
Sprechweise Multinomial verteilt mit Parametern n und p 1 bis p r.
Okay, Fragen soweit? Keine? Dann habe ich ein Tafelproblem irgendwie.
Dann gucken wir mal, wie man das hier irgendwie voll schreiben kann. Wenn man jetzt hier weitermacht. Ja, vielleicht die halbe Tafel können wir noch nehmen. Oder so ein Viertel. Okay, wenn h 0 richtig ist, dann kennen wir den Erwartungswert von y und j.
Der ist n mal, also y und j ist ja b n p j 0 verteilt. Der ist dann n mal p j 0. Und ich vergleiche jetzt den Wert von y und j mit diesem n mal p j 0. Nehme davon die quadratische Abweichung. Normiere das schlau, summiere das auf und bekomme die Prüfgröße, die ich angucke.
Also zur Entscheidung zwischen h 0 und h 1 betrachten wir die Abweichungen zwischen y und j und n mal p j 0.
Zur Entscheidung zwischen h 0 und h 1 betrachten wir die Abweichungen zwischen y und j.
Und dem Erwartungswert bei h 0 von y und j, was n mal p j 0 ist.
Und die zentrale Aussage, die wir jetzt im Folgenden beweisen werden, ist, es gilt dann der Satz 8.3.
Bei Gültigkeit von h 0 gilt, und h 0 war p 1 bis p r gleich p 1 0 bis p r 0.
Die Prüfgröße, die ich angucke, ist t n von x 1 bis x n. Ich nehme die quadratischen Abweichungen zwischen y und j und n mal p j 0. Teile die noch durch n mal p j 0. Also ich normalisiere die, summiere auf. Das Ganze geht gegen eine chi-Quadrat verteilte Zufallsvariable mit r minus 1 Freiheitsgrad.
Das heißt, die Summe wird gleich 1 bis r. y j minus n mal p j 0 durch n mal p j 0.
Hier noch ein Quadrat. Die Behauptung ist, dieses Ding, wenn ich da n gegen endlich gehen lasse, konvergiert es nach Verteilung gegen eine chi-Quadrat verteilte Zufallsvariable mit r minus 1 Freiheitsgrad.
Okay, Fragen soweit? Keine Fragen.
Dann wie machen wir den Beweis? Naja, ich setze z j als Wurzel aus dem Term, der da steht. Also y j minus n mal p j 0 durch Wurzel aus n mal p j 0. Das ist mein z j. Das heißt, hier steht eigentlich eine Summe j gleich 1 bis r z j zum Quadrat.
Oder eigentlich ist ein z j n. Hängt auch noch von n ab. Ich zeige dieser Vektor, bestehend aus den z 1 bis z r, also jetzt eine rd-wertige Zufallsvariable, konvergiert nach Verteilung gegen eine Zufallsvariable,
deren Verteilung ich dann hinschreiben werde. Das mache ich jetzt noch nicht. Dazu brauche ich eine Verteilungskonvergenz im rd. Eine Verteilungskonvergenz im rd definieren Sie genauso wie eine Verteilungskonvergenz im reellen. Sie wissen, z n konvergiert gegen z im reellen, falls für jede stetige unbeschränkte Funktion f von r nach r
der Erwartungswert von f und z n gegen Erwartungswert von f und z konvergiert. Genauso machen Sie es im D-dimensionalen. Sie nehmen nur stetige und beschränkte Funktionen von rd nach r. Okay, dann und nicht der Trick von dem Beweis wird sein, diese Verteilungskonvergenz Aussage von diesem rd-wertigen Zufallsvariable zu zeigen.
Verteilungskonvergenz im reellen zeigen Sie, eine Möglichkeit ist mit dem Stetigkeitssatz von Levy-Gramme R. Sie nehmen die charakteristische Funktion. Sie rechnen die aus. Sie lassen n gegen n endlich gehen. Die konvergiert punktweise gegen irgendwas. Dieses was rauskommt, sollte eine charakteristische Funktion einer Zufallsvariablen sein.
Dann wissen Sie diese ursprünglichen Zufallsvariablen, die Sie haben, konvergieren nach Verteilung gegen diese Zufallsvariable, deren Grenzwert als charakteristische Funktion haben. Der gleiche Satz gilt auch im D-dimensionalen.
Verwende ich hier ohne Beweis. Und ist noch die Frage, wie definieren Sie die D-dimensionale charakteristische Funktion? Naja, eindimensionale charakteristische Funktion von Z. Das war der Erwartungswert oder die Funktion Phi von C oder von R nach C. Phi von U ist der Erwartungswert von E hoch I U X.
Sie definieren es genauso. Also jetzt setzen Sie U gleich Rd ein. X ist rd-wertig. Sie machen den Erwartungswert von E hoch I U X. Sie müssen sagen, was Sie mit dem Produkt meinen. D-dimensionaler Vektor U mal D-dimensionaler Zufallsvektor. Und dann nehmen wir das Skalarprodukt einfach.
Das Skalarprodukt zwischen den Größen. Und dann gilt der Städigkeitssatz von Levy-Grammer genauso. Und dann rechnen wir eben hier eine charakteristische Funktion aus. Okay, aber ich glaube, vorher sollte ich ein bisschen mischen. Also ich mache vielleicht noch einen Beweis.
Kann ich hier noch ein bisschen was hinschreiben? Unter Umständen, ja, nämlich die erste Zeile. Wer weiß. Wir machen eine Vereinfachung der Schreibweise. Also wir schreiben P1 bis PR statt P1 0. P1 0 bis PR 0, weil wir ja unter H0 arbeiten.
Wir schreiben P1 bis PR statt P1 0 bis PR 0.
Ach so, wir könnten eigentlich auch direkt Pause machen. Ist wahrscheinlich schon kurz drei.
Dann machen wir bis um vier nach drei machen wir weiter. Würde ich ganz gern weitermachen?
Ich wähle jetzt ZJ so, dass das Quadrat von ZJ gerade die Zufallsvariable ist, die hier aufsummiert wird. Also Sätze ZJ gleich YJ minus N mal YJ minus N mal PJ 0 eigentlich.
Aber ich schreibe jetzt nur noch PJ. Geteilt durch die Wurzel aus N mal PJ. Und daraus folgt unser TN von X1 bis XN.
Ist die Summe J gleich 1 bis R der ZJ zum Quadrat.
Und wir zeigen jetzt, es existieren Zufallsvariablen V1 bis VR. Wobei V1 bis VR minus 1 unabhängig Standard normal verteilt sind. VR ist gleich 0. Und wir haben eine orthogonale Matrix A. So, dass ich U1 bis UR gleich A transponiert mal V1 bis VR setzen kann.
Und dann gilt unser Z1 bis ZR kontagierten Verteilung gegen U1 bis UR. Also wir zeigen, es existieren Zufallsvariablen VR 1 bis VR mit VR gleich 0 fast sicher.
Und V1 bis VR minus 1 unabhängig Standard normal verteilt.
Und es existiert eine orthogonale Matrix A.
A so, dass für wenn ich U1 bis UR definiere als A transponiert mal V1 bis VR gilt.
Beachten Sie, unser Vektor Z1 bis ZR hängt ja jeweils noch von N vom Stichprobenumfang ab. Konvergiert nach Verteilung gegen U1 bis UR.
Und der erste Schrittenbeweis oder der Beginn des Beweises ist zu sehen, das impliziert die Behauptung. Also wenn wir das mal haben, dann impliziert das, dass unser TN von X1 bis XN gegen eine Chi-Quadrat von R minus 1 Verteilung konvergiert.
Okay, wie sehen Sie das? Naja, unser TN bis T1 bis ZR ist einfach die Summe der Quadrate der Z1 bis ZR.
Wenn Sie sich angucken, ich nehme die Funktion klein Z1 bis klein ZR, wird abgebildet auf die Summe der Quadrate der ZJ. Dann haben Sie eine Funktion von R um R nach R, die ist natürlich stetig.
Und mein TN von X1 bis XN entsteht, indem ich diese stetige Funktion auf diesen Vektor hier anwende. Ich weiß, das konvergiert nach Verteilung gegen U1 bis UR. Dann folgt mit dem Satz von der stetigen Abbildung, die stetige Funktion hier angewendet, konvergiert nach Verteilung gegen die stetige Funktion hier angewendet auf U1 bis UR.
Wenn Sie sich überlegen, diese Version des Satzes von der stetigen Abbildung, sieht man das? Das gilt hier auch im hochdimensionalen und nicht nur im eindimensionalen. Also ich habe hochdimensionale Verteilungsfunktion Konvergenz. Das heißt, das ist ja die Aussage für jede stetige und beschränkte Funktion von R um R nach R konvergiert.
F angewendet auf Z1 bis ZR, davon der Erwartungswert gegen den Erwartungswert von F von U1 bis UR. Ich wende jetzt auf dieses Z1 bis ZR meine Funktion H von klein Z1 bis ZR an, die gerade die Summe der Quadrate der ZJ ergibt.
Und behaupte, H von Z1 bis ZR konvergiert im Sinne der eindimensionalen Verteilungskonvergenz gegen H von U1 bis UR. Und ich behaupte weiter, das können Sie sehen.
Genau richtig. Wenn ich darauf jetzt auf dieses H von Z1 bis ZR dann nochmal was Stetiges anwende und ich wende eigentlich was Stetiges und Beschränktes an, im eindimensionalen, dann kann ich das auch umschreiben, als diese Funktion, ich nenne sie mal F, verknüpft mit dem H angewendet auf Z1 bis ZR.
Das F war stetig und beschränkt, das H war stetig, die Verknüpfung ist stetig und beschränkt. Dann habe ich eine stetig und beschränkte Funktion darauf angewandt und nach der Definition der Verteilungskonvergenz im R-dimensionalen konvergiert der Erwartungswert dann davon gegen den Erwartungswert hiervon mit der entsprechenden Funktion. Das heißt, das ist klar. Die Frage, was bringt mir das?
Ich wollte irgendwie sagen, dies impliziert die Behauptung, denn nach dem Satz von der stetigen Abbildung
impliziert dies mein Tn von X1 bis Xn, was ja gerade die Summe von J gleich 1 bis R der ZJ zum Quadrat ist,
konvergiert nach Verteilung gegen die Summe J gleich 1 bis R der UJ zum Quadrat.
Ja, und jetzt muss ich argumentieren, dass die Grenzverteilung eine Chi-Quadratverteilung ist mit R-1 Freiheitsgraden.
Sehen Sie das? Die Summe der UJ zum Quadrat ist die Summe der VJ zum Quadrat wegen Orthogonalität.
Also ich kann sagen, ja gut, wegen Orthogonalität eigentlich. Also ich habe, wenn ich mal hier das Stern drinnen mache, dann haben wir Stern und A orthogonal.
Impliziert, das ist die Summe J gleich 1 bis R der VJ zum Quadrat. Und jetzt sehen Sie, unser VR war gleich Null. Fast sicher.
Das ist fast sicher wegen VR gleich Null. Fast sicher. Die Summe J gleich 1 bis R-1 VJ zum Quadrat und die V1 bis VR-1 waren unabhängig N-0-1. Das heißt, das ist Chi-Quadrat von R-1 verteilt.
Ja, und damit sehen Sie, wir müssen eigentlich nur dieses Wir zeigen zeigen.
Oder die Aussage, die hinter mir steht, zeigen. Und schon sind wir fertig so weit. Und dann sehen Sie, einen kleinen Moment noch. Ich habe das Ganze jetzt zurückgeführt auf eine Frage der Verteilungskonvergenz. Und die erschlage ich eben mit Städigkeitssatz von Levi-Krammer.
Also Sie fragen nach der Wahl von dem R. Das heißt eigentlich, man kann auch sagen, wir fragen nach der Wahl der Partition am Anfang.
Und da gibt es eben gewisse Faustregeln. Das schreibe ich am Schluss nochmal hin. Dass in den einzelnen oder dass dieses N mal PJ null eine Faustregel wäre. Dieses N mal PJ null soll größer gleich 5 sein. Unsere Faustregeln. Das heißt, Sie können es nicht beliebig fein wählen.
Aber im Prinzip im Hinblick darauf, dass die Aussage eigentlich möglichst stark sein soll, sollte die Partition natürlich möglichst klein gewählt werden. Okay, noch eine Frage.
Gut, dann kommen wir zur Behauptung von oben. Im Folgenden zeigen wir die Behauptung von oben.
Und das machen wir in vier oder fünf Schritten.
Fünf Schritten eigentlich. Also der fünfte ist dann mehr oder weniger nur noch die Zusammenfassung. Also hauptsächlich sind es vier Schritte. Und im ersten Schritt. Naja, also ich mache es mit dem Städigkeitssatz von Levi-Krammer. Das heißt, ich brauche die charakteristische Funktion von dem Ding. Und suche mir dann Rechner einen Grenzwert aus. Also sobald ich die charakteristische Funktion von dem Ding ausgerechnet habe,
ist es ein reines Problem der Analysis. Ich habe einen Ausdruck, der hängt von N ab. Ich lasse N gegen endlich gehen. Wollen wir die charakteristische Funktion von dem Ding bestimmen? Ja, gucken wir uns an, was war das? Ja, ich müsste Ihnen noch mal zeigen, sagen, was die charakteristische Funktion ist. Also im ersten Schritt des Beweises bestimmen wir die charakteristische Funktion.
Ja, und ich bestimme sie erstmal nicht von Y1 bis Yr, sondern von Z1 bis Zr, sondern von Y1 bis Yr. Und die nenne ich Cn.
Das ist jetzt eine R-dimensionale Funktion, also von U1 bis Ur. Das sei der Erwartungswert von E hoch I mal. Und dann nehme ich U1 mal der ersten Komponente meiner ersten Zufallsvariable.
U1 mal Y1 bis Ur mal Yr. Von Y1 bis Yr.
Also so definiere ich eine charakteristische Funktion von jetzt einem Zufallsvektor. Ach so, und das ist kein Komma, sondern das ist ein Plus. Entschuldigung, das macht ja so keinen Sinn. Also ich habe ja gesagt, ich nehme das Skalarprodukt.
Ich nehme das Skalarprodukt von U1 bis Ur mit Y1 bis Yr. Ich multipliziere es mit I, stecke es in meine Exponentialfunktion, nehme den Erwartungswert davon. Und letzten Endes wollen wir die charakteristische Funktion von dem Z1 bis Zr haben.
Aber es ist klar, da das Z1 bis Zr ja so eine Lineartransformation von den Y1 bis Yr ist, mache ich das eben über die charakteristische Funktion der Y1 bis Yr. Und dann gucke ich an, was kommt raus für N gegen N. Und stelle das als charakteristische Funktion von Zufallsvariablen U1 bis Ur.
Und wir sind fertig nach dem Stetigkeitssatz von Ledigram R. Okay, Fragen soweit? Ich kann schon wieder einen kleinen Teil wischen.
Also dazu. Wir gucken uns mal den Vektor Y1 bis Yr an.
Wenn Sie sich erinnern, diese Yj waren ja definiert. Da habe ich einfach geguckt, wie viele der Xi sind in der Menge Cj drin. Das heißt, ich habe die charakteristischen oder ich habe die Indikatorfunktion zum Intervall Cj ausgewertet an den X1 bis Xn aufaddiert. Das mache ich hier für jedes einzelne. Dann kann ich die Summe rausziehen.
Dann komme ich auf I gleich 1 bis N. Indikatorfunktion von C1 von Xi bis Indikatorfunktion von Cr von Xi.
Daraus folgt, wenn Sie das jetzt hier einsetzen, dann kann ich auch hier jeweils die Summe rausziehen
und kann dann die Summe in ein Produkt umwandeln. Das heißt, ich komme auf Cn von U1 bis Ur ist gleich Erwartungswert.
Dann habe ich ein Produkt über I gleich 1 bis N E hoch I mal jetzt kommt U1 mal die erste Indikatorfunktion von Xi und so weiter bis das Ur bei der Erste Indikatorfunktion.
Also ich nutze einfach die Definition der Y1 bis Yr als Summe auf und ziehe die Summe hier raus
und dann kann ich die Summe gleich nach außen aus der Exponentialfunktion als Produkt rausziehen. Oder haben Sie eine Frage? Es fehlt noch eine Klammer. Also eine Klammer auf, zwei Klammer auf, drei Klammer auf, vier Klammer auf, eine Klammer zu,
fünf Klammern auf, zwei Klammern zu, drei Klammern zu, vier Klammern zu. Das ist eine zu wenig zu. Da haben Sie schon irgendwie Recht. Und welche fehlt? Die von dem E. Okay, das sieht schon deutlich besser aus. Aber ich gebe zu, Sie hatten Recht.
Okay, jetzt haben wir einen Erwartungswert vom Produkt. Erwartungswert vom Produkt ist gleich Produkt der Erwartungswerte bei Unabhängigkeit. Haben wir hier Unabhängigkeit? Die Terme sind Funktion der Xi und die Xi sind unabhängig.
Damit sind die Terme auch unabhängig. Das heißt, weil die Xi unabhängig sind,
X1 bis Xn unabhängig, dann sehen Sie, ich bekomme eigentlich einen, und ich könnte gleich noch identisch verteilt dran schreiben, dann sehen Sie, ich kann das Produkt rausziehen und dann sind die Terme alle gleich groß,
dann bekomme ich einen einzelnen Term hoch N. Kommen wir hier auf Erwartungswert von Exponent von, jetzt schreiben wir das Ganze nur noch mit I mal mit X1 hin. Und jetzt sollte ich die richtige Anzahl von Klammern zumachen.
Jetzt die vom Exponenten, jetzt die hier, und die brauche ich gar nicht.
Okay, gut. Also wegen Unabhängigkeit kann ich das Produkt rausziehen, und dann sind die alle gleich groß, dann gibt es einen einzelnen Term hoch N. Okay, dann sehen Sie, da muss ich nur noch den Erwartungswert innen ausrechnen.
Aber eigentlich fehlt mir die Klammer, wenn ich ganz ehrlich bin. Okay, dann machen wir das mal.
Ja, jetzt nütze ich aus, diese C1 bis CR sind eine Partition. Das heißt, dieses X1 ist in genau einer dieser Menge drin. Und das heißt, die ganze Summe reduziert sich eigentlich, oder dieser ganze Exponentialterm reduziert sich eigentlich zu einem E hoch I mal UJ
in die Kartefunktion von der Menge Cj von Xj, wenn eben mit einem zufälligen J, was gerade der Index ist, von X1, wo das X1 drin liegt. Das heißt, ich kann das Ganze hier umschreiben als Erwartungswert.
Lassen wir mal stehen. Und dann summiere ich noch, je nachdem welches J zutrifft, gehört gleich 1 bis R. Erwartungswert von I mal,
ich kann eigentlich direkt UJ schreiben, weil das andere ist ja gleich 1, mal in die Kartefunktion von Cj von X1, da eben X1 in genau einem der C1 bis CR drin liegt.
Okay, also ich habe ausgenutzt, diese ganze Summe hier,
oder diese Summe U1 mal in die Kartefunktion von C1 von X1 plus usw. bis UR mal in die Kartefunktion von CR von XR, ist genau gleich einem der UJ, nämlich gleich demjenigen UJ, wo das X1 drin liegt.
Und dann kann ich es auch, dann gibt der ganze Term genau E hoch I mal UJ, wenn eben das X1 in der Menge Cj drin liegt. Ja, und jetzt können Sie den Erwartungswert ausrechnen. Weil jetzt sehen Sie, die Summe kann ich rausziehen. Das E hoch I UJ ist gar nicht mehr zufällig.
Und dann habe ich noch einen Erwartungswert von 1 in die Kartefunktion von Menge Cj gegeben, X1, das war gerade unser Pj. Und wir sind schattig. Und wir haben was gezeigt.
Also wir haben die charakteristische Funktion Cn bestimmt.
Und ich schreibe es zur leichten Farbe nochmal drunter und stößt das dann gleich wieder weg. Dann sehen wir es nachher noch. Das brauchen Sie jetzt hier nicht hinschreiben.
Das war also was wir hier hatten, war die Summe J gleich 1 bis R, J mal E hoch I UJ hoch N. Dann wische ich die beiden Tafeln wieder weg. Und vielleicht fange ich mal mit der ersten an.
Und schreibe hin, was wir als nächstes, bestimmen wir dann die charakteristische Funktion von unseren Z1 bis Zr.
Also im zweiten Schritt des Beweises bestimmen wir die charakteristische Funktion phi n von z1 bis zr.
Das ist jetzt aber einfach, weil unser zj war ja einfach nur eine lineare Transformation von unserem yj. Also wegen z-Word hier war ja yj minus n mal pj geteilt durch Wurzel aus n mal pj.
Und wenn ich mir jetzt angucke mein phi n von u1 bis ur, das ist ja nach Definition der Erwartungswert von e hoch i mal Summe j gleich 1 bis r uj mal zj.
Ich wische mal da nochmal. Ja, wie machen Sie das jetzt?
Also Vorschlag, wir rechnen jetzt diese charakteristische Funktion phi n aus.
Für zj das da oben einsetzen. Dann haben wir zwei, dann haben wir jetzt eine Differenz und teilen es entsprechend auf.
Und dann spalten wir es mit dem Exponentialterm auch auf. Dann haben wir zwei Faktoren. Der eine Faktor hängt gar nicht mehr ab. Kann ich direkt rausziehen? Richtig. Dann fangen wir mal damit an. Das heißt, ich setze ein.
Ich weiß nicht, kann ich paar Schritte auf einmal machen oder nicht gut? Oder ich weiß gar nicht, ob ich paar Schritte auf einmal machen kann. Kleines Problem an der Rande. Wir könnten direkt, also wir denken uns das eingesetzt. Wir teilen hier durch.
Wir ziehen gleich die Summe auseinander und wir schreiben es noch als Produkt. Das könnten wir eigentlich auf einmal machen. Dann vom ersten Faktor wäre es i mal j gleich 1 bis r. Dann habe ich ein uj mal yj durch Wurzel mpj.
Und dann kommt der zweite Exponentialterm i mal j gleich 1 bis r.
Dann habe ich das Minuszeichen noch. Und ich kann hier noch kurzen. Minus uj mal Wurzel mpj.
Stimmt so weit oder? Sie stimmen zu.
Also einfach nur rausgezogen. Dann hängt das nicht mehr von Zufall ab. Das kann ich jetzt gleich rausziehen. Und schreibe ich es um als Produkt. Keine Ahnung.
Wollte ich das umschreiben als Produkt? Nein, ich schreibe es nicht um als Produkt. Okay, wir lassen den ersten gleich stehen. Dann ziehe ich raus. Das gibt dann e hoch Minus i mal Wurzel n mal pj.
Mal j gleich 1. Na, erst brauche ich noch die Summe. Minus i mal Wurzel n. Dann j gleich 1 bis r. Uj mal Wurzel pj. Und das zweite deute ich jetzt als charakteristische Funktion
psi n. Und zwar von y1 bis yr. Nur jetzt nicht an der Stelle uj, sondern an der Stelle uj durch Wurzel n mal pj.
Also ich habe psi n von u1 durch Wurzel n mal pj bis ur.
Und dann setze ich die Behauptung vom ersten Schritt ein. Und wir sind fertig. Dann steht da e hoch minus i mal Wurzel n mal
j gleich 1 bis r Uj mal Wurzel pj. Mal j gleich 1 bis r pj mal e hoch i.
Und jetzt ist das uj durch Wurzel n pj.
Mal gucken, ob es stimmt.
Ja, und dann sehen Sie, was eigentlich zu tun bleibt. Wir lassen n gegen endlich gehen. Und gucken uns die Grenzfunktionen an, die rauskommt.
Es gibt dann den dritten Schritt des Beweises. Im dritten Schritt des Beweises zeigen wir für alle u aus rr. U aus r um r. Der limes n gegen endlich von phi n von u kontergiert gegen einen Phi-Stand von u, wobei ich eine Formel hinschreiben kann.
Im dritten Schritt des Beweises zeigen wir für alle u aus r um r. Der limes n gegen endlich von Phi n von u ist gleich Phi-Stand von u.
Phi-Stand von u1 bis ur ist gleich e hoch. Jetzt kommt minus ein halbmal.
Dann kommt die Summe j gleich 1 bis r Uj zum Quadrat. Minus das Quadrat von Summe j gleich 1 bis r Uj mal Wurzel pj zum Quadrat.
So, und dann geht die rechteckige Klammer zu. Und dann geht noch die geschweifte Klammer zu.
Okay, wie machen Sie das? Also die Formel spielt eigentlich gar keine Rolle, weil wir berechnen es letzten Endes, also wir nutzen gar nicht, dass wir die Formel schon kennen.
Sondern wir berechnen das letzten Endes aus, den Grenzwert. Wie berechnen Sie so einen Grenzwert? Na ja, Vorschlag Nummer eins, wir nehmen den Logarithmus von dem ganzen Ding. Dann haben wir das da. Wir stehen plus n mal den Logarithmus von dieser Summe.
Okay, das erste sieht ganz gut aus. Ich meine, geht natürlich irgendwie gegen Minus und Endlich, aber okay. Können Sie mich kurz anderem wegheben. Dann müssen wir uns das zweite angucken. Also n mal den Logarithmus von der Summe. Der Logarithmus, in dem Logarithmus selber steht die Summe und in der Summe steht so ein Exponentialterm drin.
E hoch. Setzen wir eine Taylor-Entwicklung für die Exponentialfunktion rein. Also setzen wir einfach die Reihenentwicklung ein. Punkt eins. Und fangen an, Terme größer als eins durch n zu vernachlässigen.
Schreiben alle übrigen hin, machen noch einen kleinen O von eins durch n. Dann haben wir einen Logarithmus von irgendwas. Geschickterweise, wenn Sie angucken, der nullte Term, mit dem die Exponentialreihe anfängt, ist eins. Die Summe der j gleich eins bis r der pj ist auch eins.
Das heißt, Sie haben so einen Logarithmus von eins plus irgendwas. Was machen Sie jetzt? Nächste Potenzreihe einsetzen. Die vom Logarithmus. Sie vernachlässigen, wir haben ja davor noch ein Endstehen. Wir vernachlässigen alle Terme der Größenordnung Klein O von eins durch n. Setzen ein.
Schreiben die verbleibenden Terme hin, multiplizieren mit n. Es wird sich was wegheben mit dem Term und es wird was wunderschönes rauskommen. Problem an der Geschichte, bei der Tafelgröße schaffe ich das nie im Leben. Also das ist ausgeschlossen. Und in zehn Minuten schaffe ich es auch nicht ganz. Ich brauche eine Viertelstunde mit einer anständigen Tafel.
Aber nicht zehn Minuten mit der Tafel. Das gibt die reine Katastrophe. Also Sie ahnen, worauf ich hinaus will. Ich nehme an, das ist ja blöd an diesen Videoaufzeichnungen. Man sieht immer die Länge hinterher. Man kann also draufgehen und sobald sie runtergeladen ist, wird glaube ich die Gesamtlänge angezeigt. Man könnte am Ende des Semesters eigentlich zusammen addieren, wie viele Minuten fehlen eigentlich von den 90 mal 32.
Und ich glaube, es wären gar nicht mal so wenige, hatte ich so einen Eindruck. Aber ich hatte auch immer einen Eindruck, Sie schneiden was raus. Also ich muss hier mal zu Protokoll geben. Da wurde so fies von meiner Vorlesung was weggeschnitten. Aber dann machen wir Schluss für heute und wir sehen uns dann am Montag.