We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Zentraler Grenzwertsatz

00:00

Formal Metadata

Title
Zentraler Grenzwertsatz
Title of Series
Part Number
22
Number of Parts
25
Author
License
CC Attribution - NonCommercial - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Propositional formulaProbability spaceVarianceRandom variableExpected valueProbability distributionCumulative distribution functionArithmetic meanCentral limit theoremSequenceProbability theoryInequality (mathematics)StochasticRootAsymptoteInfinitySummationAbsolute valueNumberMittelungsverfahrenStatistikerLimit (category theory)StatisticsFactorizationSet (mathematics)Realisierung <Mathematik>Physical quantityEstimatorEquationReal numberNichtlineares GleichungssystemSquareWind waveEnde <Graphentheorie>Total S.A.Computer animationLecture/Conference
Process capability indexCumulative distribution functionRandom variableSummationNumberExpected valueBerechnungGradientArithmetic meanVarianceNormal distributionFunction (mathematics)Diskrete VerteilungProbability theorySquareCubePopulation densityLecture/Conference
CubeZahlApproximationCumulative distribution functionEstimationSquareNormal distributionPopulation densityNormal distributionExpected valueRandom variableMittelungsverfahrenNumberGenerating functionGleichverteilungVarianceAverageLinieStatisticsProbability theoryHistogramRealisierung <Mathematik>SummationHeaviside step functionRandom numberSummierbarkeitInequality (mathematics)Arithmetic meanSocial classLecture/Conference
CubeApproximationAreaPartition (number theory)HöheGame theoryPopulation densityLinieCalculationNumberHistogramDescriptive statisticsSummationZahlSummierbarkeitSchwankungRandom variableGirderAsymmetryComputer animation
SummationSquareRandom variableContent (media)Expected valueVarianceCumulative distribution functionArithmetic meanStatisticsBinomial coefficientAdditionTable (information)Physical quantityLecture/Conference
Expected valueNumberKennzahlRealisierung <Mathematik>Probability theoryParameter (computer programming)EstimationMassProbability distributionStatistical hypothesis testingStatistikerPunktschätzungVarianceExponential distributionProbability spaceScalar potentialWahrscheinlichkeitsmaßPhysical lawMathematical statisticsLecture/Conference
VarianceRandom variableExpected valueRealisierung <Mathematik>Probability distributionAverageSquareParameter (computer programming)Sample (statistics)StatisticsSocial classNormal distributionEstimatorEstimationWahrscheinlichkeitsmaßSet (mathematics)Real numberNumberStatistikerFunction (mathematics)MassLecture/Conference
Expected valueEstimationSample (statistics)IndexParameter (computer programming)MittelungsverfahrenNumber theoryEstimatorNormal distributionTotal S.A.StatistikerVariable (mathematics)VarianceSampling (statistics)MassRandom variableUnverzerrte SchätzungStatisticsWahrscheinlichkeitsmaßLecture/Conference
Absolute valueArithmetic meanSocial classExpected valueProbability distributionVarianceNumberState of matterSet (mathematics)EstimationParameter (computer programming)Moment (mathematics)MittelungsverfahrenRandom variableEstimatorWell-formed formulaInfinityArithmeticAsymptoteLecture/Conference
Transcript: German(auto-generated)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung in der Einführung in die Stochastik. Ich habe Ihnen beim letzten Mal eingeführt Konvergenzbegriffe für Folgen reeller Zufallsvariablen.
Wir haben gegeben, reelle Zufallsvariablen ZnZ definiert auf dem gleichen Wahrscheinlichkeitsraum omega ap. Es gibt dann, ich habe Ihnen zwei Konvergenzbegriffe vorgestellt. Der erste ist Zn konvergiert nach Wahrscheinlichkeit gegen Z, Schreibweise Zn, dann P, großes P gegen Z.
Das ist genau dann der Fall, wenn für jedes Epsilon größer 0 die Wahrscheinlichkeit das Betrag von Zn minus Z größer als Epsilon ist. Das heißt, die Wahrscheinlichkeit, dass für festes N der Wert von Zn um mehr als Epsilon von Z abweicht,
dass diese Wahrscheinlichkeit für N gegen endlich gegen Null konvergiert. Zweiter Begriff, Zn konvergiert gegen Z fast sicher, Schreibweise Zn Fall Zf Punkt S Punkt, falls die Wahrscheinlichkeit von der Menge aller omega, Klein omega aus Groß omega,
wo der Limit N gegen endlich von Zn von omega gleich Z von omega ist, falls diese Wahrscheinlichkeit gleich eins ist. Mit diesen Begriffen kann ich dann Sachen formulieren wie das Schwachgesetz der großen Zahlen, was wir letzte Vorlesung gezeigt haben. Wenn wir unabhängig identisch verteilte reelle Zufallsvariablen Z, Z1, Z2 haben und so weiter,
mit der Annahme, dass der Erwartungswert von Z quadratkleiner als ein Endlich ist, dann konvergiert das arithmetische Mittel der Zi für N gegen endlich nach Wahrscheinlichkeit gegen Erwartungswert von Z. Und unter schwächeren Voraussetzungen sogar, wenn die reellen Zufallsvariablen unabhängig identisch verteilt sind
mit Erwartungswert von Betrag von Z kleiner und endlich, dann konvergiert dieses arithmetische Mittel gegen Erwartungswert von Z fast sicher. Das zweite war ein Satz, den wir ohne Beweis gemacht haben. Ich wurde beim letzten Mal noch gefragt, was, und ich kann dazu sagen, hier, diese Konvergenzart ist stärker, also eigentlich dieses Resultat impliziert sofort das Resultat da oben.
Weil die Aussage ist stärker, haben wir nicht gezeigt, sehen Sie in der Wahrscheinlichkeitstheorie, und die Voraussetzungen sind schwächer. Allerdings konnten wir das eben relativ elementar mit der Chebyshevschen Ungleichung beweisen. Ich wurde beim letzten Mal noch gefragt, was bringen diese ganzen Konvergenzbegriffe?
Ja, sie bringen, dass ich eben solche Aussagen formulieren kann. Asymptotisch verhält sich die eine Zufallsvariable hier, die von N abhängt wie die andere. Sie können das deuten, erst mal als klassische Aussage der Wahrscheinlichkeitstheorie. Da kennen Sie den zugrunde liegenden Wahrscheinlichkeitsraum omega ap.
Hier betrachtet man eine Zufallsvariable drauf. Wir kennen im Prinzip diese Zufallsvariable, wir kennen insbesondere ihren Erwartungswert. Wir wollen Aussagen haben über, wie verhalten sich Realisierungen, realisierte Werte. Wenn ich jetzt Werte angucke, die unabhängig identisch verteilt voneinander erzeugt werden von dieser Zufallsvariable,
dann verhält sich das arithmetische Mittel dieser ersten N-Werte für große N so, als wäre es die konstante Erwartungswert, die wir eigentlich kennen. Eine Aussage, also Wahrscheinlichkeitsraum oder die ganzen Verteilungen usw. sind gegeben. Wir machen dann Aussagen über Realisierungen. Sie können das sofort auch umdrehen.
Damit werden wir heute anfangen, zweiten Teil der Stunde, Aussage der Statistik. Der Wahrscheinlichkeitsraum ist unbekannt. Das ist ja üblicherweise der Fall, also Sie kennen ja nicht Verteilungen usw. Stattdessen beobachten Sie Realisierungen, also Sie beobachten konkrete Werte. Dann möchten Sie Aussagen über den Wahrscheinlichkeitsraum treffen, z.B. Aussagen, wie groß ist der Wert im Mittel.
Dann sehen Sie, der Wert im Mittel, mich interessiert eigentlich der Erwartungswert. Ich kenne die Verteilung nicht, also kann ich den Erwartungswert nicht ausrechnen. Aber ich kann von meinen Beobachtungen das arithmetische Mittel bilden. Und dieses arithmetische Mittel wird nach dem starken Gesetz der großen Zahlen für große N nahe am Erwartungswert sein. Das heißt, ich kann diesen unbekannten Wert hier, der Statistiker spricht dann von Schätzen, durch einfach arithmetisches Mittel der Beobachtungen.
Okay, aber das kommt im zweiten Teil der Stunde. Wir sind dann noch stehen geblieben. Motivation des zentralen Grenzwertsatzes. Aus dem obigen folgt, wenn ich unabhängig identisch verteilte reelle Zufallsvariabeln habe, quadratisch integrierbar, also Erwartungswert von x² kleiner unendlich.
Dann konvergiert das 1 durch n mal Summe i gleich 1 bis n x i minus ein Erwartungswert von x mit Wahrscheinlichkeit 1 gegen 0. Und was Sie heute jetzt kennenlernen als zentrale Aussage ist, wenn Sie diese Zufallsvariabeln normalisieren, indem Sie die
durch die Würzel aus Ihrer Varianz teilen, dann ist das ganze Ding, was rauskommt, annähernd N0,1 verteilt. Und das möchte ich Ihnen heute vorstellen. Okay, Fragen soweit?
Keine Fragen, dann fangen wir mal an. Und ich schreibe Ihnen mal den zentralen Satz von heute an. Das ist der Satz 540.
Der sogenannte zentrale Grenzwertsatz von Lindeberg-Levy.
Wir haben ein Wahrscheinlichkeitsraum omega ap und darauf definiert unabhängig identisch verteilte reelle Zufallsvariabeln x1, x2.
Also W-Raum omega ap. Dann haben wir x1, x2 und so weiter gehen von omega nach R.
Seien unabhängig und identisch verteilte, ich kurz wieder ab mit uiv, Zufallsvariabeln.
Sie seien quadratisch integrierbar, also der Erwartungswert von x1, x2 sei kleiner unendlich. Da der Erwartungswert von x1, x2 kleiner unendlich ist, weiß ich auch, die Varianz ist kleiner als unendlich.
Und ich fordere weiter, dass die Varianz auch größer als Null ist. Wenn die Varianz gleich Null ist, werden die Zufallsvariabeln konstant. Mit Wahrscheinlichkeit 1 all das wäre langweilig. Und Null kleiner. Und dann ist die Aussage, diese Zufallsvariabel, die wir gerade eben betrachtet haben,
also arithmetisches Mittel der xi minus Erwartungswert von x1 geteilt durch ihre Wurzel aus der Varianz. Davon konvergiert die Verteilungsfunktion punktweise gegen die Verteilungsfunktion einer standardnormal verteilten Zufallsvariable. Also dann konvergiert die Verteilungsfunktion von jetzt dieses 1 durch die Wurzel aus der Varianz,
haben wir beim letzten Mal gesehen, kann ich umschreiben. Die Varianz von diesem arithmetischen Mittel war die Varianz von x1 durch N. Also die Wurzel daraus ist Wurzel aus der Varianz von x1 durch Wurzel aus N.
Kehrwert davon genommen mit dem Faktor Wurzel N durch Wurzel Varianz von x1 mal 1 durch N,
Summe i gleich 1 bis N xi minus Erwartungswert von x1. Und von dieser Zufallsvariable betrachte ich die Verteilungsfunktion. Und die Aussage ist, die Verteilungsfunktion konvergiert punktweise gegen die Verteilungsfunktion von einer N01 verteilten Zufallsvariable.
Dann konvergiert die Verteilungsfunktion von dieser Zufallsvariable punktweise gegen die Verteilungsfunktion.
Und das heißt, ist jetzt ein Begriff von der Konvergenz von Funktionen.
Also wann konvergiert eine Folge von Funktionen gegen eine andere Funktion? Funktionen definiert auf R. Hier mit punktweise definiert heißt, für jeden einzelnen Argument konvergiert die Folge der Funktionswerte gegen den entsprechenden Funktionswert der Grenzfunktion. Das heißt, wenn ich mir den, also für alle x aus R, würde ich x schreiben,
das heißt für alle x aus R gilt der Limes von N gegen endlich von der Wahrscheinlichkeit,
dass diese Zufallsvariable hier kleiner gleich klein x ist.
Diesen Limes ist das gleiche, wie wenn ich die Verteilungsfunktion von einer standardnormal verteilten Zufallsvariable an der Stelle klein x ausrechne. Und das wäre das Integral von Minus und Endlich bis x, Dichte der Standardnormalverteilung an der Stelle t dt.
Also eins durch Wurzel zwei pi. Und damit sehen Sie die, also jetzt ist hier die Bedeutung der Normalverteilung.
Die Normalverteilung ergibt sich durch so einen Grenzprozess. Wenn ich also von so einem Ausdruck den asymptotisch annähern möchte und ich mache das in dem Sinne, dass ich möchte, dass die Verteilungsfunktionen von dem Ausdruck hier für N gegen endlich punktweise gegen eine feste Funktion konvergieren,
dann kommt die Verteilungsfunktion von der Standardnormalverteilung raus. Und zwar ganz egal, was die ursprüngliche Verteilung hier ist, die x1 eigentlich hatte. Also wenn Sie ein Zufallsexperiment haben mit dem reellen Ergebnis, Sie führen das immer wieder durch und summieren dann die Ergebnisse aus, bilden das arithmetische Mittel, dann kommt da was Normalverteiltes raus in der Grenze.
Und eine Standardnormalverteilung kommt raus, wenn Sie so renormalisieren, dass diese Summe Erwartungswert 0 und Varianz 1 hat. Das Ganze beweise ich in der Vorlesung nicht, das machen wir dann in der Wahrscheinlichkeitstheorie nächstes Semester.
Also Beweis in WT Wintersemester F12. Also man könnte es irgendwie versuchen elementar zu beweisen.
Ich halte aber von der Art von Beweisen nichts. Meistens macht es Sinn, mathematisch ein bisschen auszuholen, das Ganze ein bisschen tiefer gehen zu beweisen und dann werden die Beweise deutlich eleganter. Wenn man das hier versuchen würde, auch auf dem Niveau, was wir in der Vorlesung machen, zu beweisen.
Okay, ich möchte Ihnen das an einem Beispiel illustrieren. Also anstelle von Beweis machen wir ein ausführliches Beispiel. Oder ich mache eine Rechnersimulation eigentlich. Das ist Beispiel 541.
Wir betrachten das n-malige Werfen eines echten Würfels. Das modellieren wir durch unabhängig identisch verteilte Zufallsvariabeln x1 bis xn, wo die Einzelne gerade das Werfen eines echten Würfels beschreiben.
Also modelliere n-maliges Werfen eines echten Würfels durch unabhängig identisch verteilte Zufallsvariabeln x1 bis xn.
Mit x1 beschreibt das Werfen eines echten Würfels. Da können die Zahlen 1 bis 6 rauskommen, diskrete Verteilung. Das heißt, Sie geben die Wahrscheinlichkeiten an, dass einen dieser Zahlen aufkommt. Diese Wahrscheinlichkeiten sind alle gleich groß. Das heißt, die Wahrscheinlichkeit, dass x1 gleich k ist, ist gleich ein Sechstel für k von 1 bis 6.
Und was ich dann mache, ich bilde genau diesen Ausdruck aus dem Satz 45 für diese Zufallsvariabeln.
Das heißt, ich bilde das arithmetische Mittel dieser Zufallsvariabeln, ziehe den Erwartungswert ab, multipliziere mit Wurzel n, teile durch die Wurzeln aus der Varianz. Dazu brauche ich Erwartungswert und Varianz von den Zufallsvariabeln. Dann gilt, wie groß ist der Erwartungswert?
Also, wie groß ist der mittlere Wert beim Werfen eines echten Würfels?
Der Erwartungswert? Oder wie kommen Sie darauf? Beziehungsweise, wie berechnen Sie es?
Da es diskret verteilt ist, nehme ich die einzelnen Werte, die auftreten, also 1 bis 6, mit den Wahrscheinlichkeiten mal. Das heißt, ich komme auf die Summe k gleich 1 bis 6, k mal Wahrscheinlichkeit von x gleich k.
Dann sehen Sie, da müssen Sie die Zahlen 1 bis 6 aufaddieren und durch 6 teilen. Die Summe von 1 bis 6 gibt 6 mal 7. Halbe durch 6 geteilt gibt 7 halbe.
Richtig? Also 3,5. Okay, dann brauchen wir die Varianz. Wie kommen Sie auf die Varianz? Wie berechnen Sie die?
Erwartungswert von x1 zum Quadrat minus Erwartungswert von x1 in Klammern zum Quadrat.
Das zweite haben wir schon. Wie kommen wir auf das erste? Also Erwartungswert von x1 zum Quadrat wären ja die 7 halbe zum Quadrat. Das wissen wir, aber das erste.
Genauso wie wir auf den Erwartungswert gekommen sind, nur dass wir immer k Quadrat schreiben, statt k richtig. Das heißt, Sie haben hier so eine Funktion h angewendet auf x1. h von klein x wäre x Quadrat und die wenden Sie dann hier an. Das heißt, wir kommen hier auf k gleich 1 bis 6, dann k Quadrat, mal ein Sechstel, dann müssen wir noch 7 halbe zum Quadrat abziehen.
Und dann rechnen wir wieder elementar rum und kommen auf 35 Zwölftel.
Und jetzt Aussage von Satz 45 ist, dass für n groß diesen Ausdruck, den wir da haben, das wäre also Wurzel n.
Jetzt muss ich Wurzel aus Variant von x1 teilen, also Wurzel aus 35 Zwölften. Jetzt kommt das armetische Mittel meiner gewürfelten Zahlen. Und dann ziehe ich den Erwartungswert ab, also minus 7 halbe.
Dass sich dieser Ausdruck verhält, wie eine n 0 1 verteilte Zufallsvariable.
Ich mache das Verhältnis mal in Klammern, weil das ja so ein bisschen komisches Approximation der Verteilung ist, mit der Punktweise und Konvergenz der Verteilungsfunktion. Aber das sollte sich asymptotisch so verhalten, als wäre es Standard Normal verteilt.
Aber das ist ein Satz in unserer mathematischen Theorie, die wir gemacht haben. Und wenn unsere mathematische Theorie was mit der Realität zu tun haben
sollte, dann sollten wir die Aussage dieses Satzes auch in der Realität wiederfinden. Das heißt, wenn ich das jetzt mit dem konkreten Zufallsexperiment hier mache, zum Beispiel Werfen eines echten Würfels, kann ich mir leicht Werte erzeugen von x1 bis xn. Ich werfe den Würfel einfach n-mal. Dann kann ich diese Werte aufaddieren, durch n teilen, 7 halbe abziehen, mit der Zahl multiplizieren, bekomme ich eine Zahl raus.
Und dann ist die Verhauptung, diese Zahl soll sich verhalten, als wäre sie von einer Standard Normal verteilt, ein Zufallsvariable erzeugt. Und das würde ich Ihnen gerne illustrieren.
Das würde ich Ihnen gerne plausibel machen, dass in der Tat dieser Fall auftritt. Also, wenn ich hier jetzt in dem einfachen Beispiel des Zufallsexperiments einen echten Würfel nehme, den immer wieder Würfel, die Summe der Augenzahlen dann so renormalisieren, kommt eine konkrete Zahl raus,
die Zahlen, die da rauskommen, verhalten sich so, als wären sie von einer Standard Normal verteilt, ein Zufallsvariable erzeugt. Das wirft natürlich die Frage auf, wie stellen Sie fest, ob Zufallszahlen, die Sie bekommen haben, von einer Standard Normal verteilt, ein Zufallsvariable erzeugt wurden.
Also, das ist jetzt eine klassische Frage der Statistik. Bisher hatten wir immer Fragen der Wahrscheinlichkeitstheorie. Sie wissen, dass die Verteilung eine Standard Normal Verteilung ist. Wie sehen dann Realisierungen aus? Da wissen Sie ja, im Mittel sind sie null. Die Varianz, also die mittlere quadratische Abweichung vom Mittelwert ist eins.
Solche Sachen wissen wir. Aber jetzt geht es um etwas anderes. Sie bekommen konkrete Werte und möchten wissen, ja, sind die normal verteilt oder werden die von einer Normalverteilung erzeugt. Im Prinzip klar, wenn Sie einen einzigen dieser Werte haben, einen einzelnen Wert, dann können Sie nicht sagen, ob das eine Standard Normalverteilung ist oder nicht.
Also Standard Normalverteilung hat eine Dichte. Die Dichte ist überall größer als Null. Da können beliebige Werte auftreten. Wenn Sie nur einen Wert angucken, sehen Sie gar nichts. Es gibt paar Dichten, da könnten Sie sagen, wenn Sie eine Gleichverteilung auf einem Intervall von 0 bis 2 haben und Sie bekommen dann Wert der 7.
Dann können Sie wohl sagen, ja, stimmt vielleicht nicht so ganz zu der Gleichverteilung von 0 bis 2. Kann schon sein, aber wäre nur mit Wahrscheinlichkeit 0. Oder wenn Sie einen echten Würfel werfen und es kommt 12 raus, dann können Sie auch irgendwie sagen, ja, stimmt vielleicht was nicht ganz. Bei der Standard Normalverteilung ist es so einfach nicht.
Aber was wir machen können, wir können diese Werte wiederholt erzeugen. Das heißt, ich werfe immer wieder einen echten Würfel N-mal. Ich wähle mir ein N. Wir machen es konkret mit N gleich 15. Ich werfe einen echten Würfel immer wieder 15-mal. Erzeug die Zahl. Die Zahlen erzeuge ich dann 40-mal und dann gucke ich mir diese 40 Zahlen an.
Okay. Das wäre eigentlich der Punkt der Vorlesung, wo ich meine Würfel austeilen würde normalerweise. Da ich aber ein bisschen hinten drin bin, habe ich das einfach schon daheim vorbereitet. Und da sind wir. Also hier wurde jetzt der echte Würfel 15-mal geworfen.
Es wurden 40-mal dieses normalisierten Summen gebildet. Und man hat dann diese Werte hier bekommen. Also die sind hier unten mit senkrechten Strichen markiert. Und ich möchte jetzt wissen, wurden diese Werte von einer Standard Normalverteilung erzeugt? Oder ist es plausibel?
Dazu mache ich Folgendes. Ich gucke mir die Dichte der Standard Normalverteilung an. Die ist hier eingezeichnet. Typische gausche Glockenkurve. Und dann bilde ich zur Schätzung der Dichte ein Histogramm dieser Werte. Also ich approximiere oder versuche, andererseits auch diese Dichte zu schätzen, indem ich hier ein Histogramm dieser Werte bilde.
Und ich bekomme dann diese Treppenfunktion als Histogramm der Werte heraus. Und dann sage ich, gucken Sie mal da, dieses Histogramm sieht doch aus wie die Dichte. Was meinen Sie dazu?
Also wenn Sie jetzt... Oder fragen Sie mal erst mal zum Vorgehen noch.
Das ist aber klar. Oder ansonsten Kommentare, wenn Sie jetzt das Histogramm vergleichen mit der Dichte. Sehen Sie da eine Ähnlichkeit? Sehen Sie da keine Ähnlichkeit?
Ok, Vorschläge?
Ok, könnte ich erst mal das Bild erläutern. Fangen wir noch mal von vorne an. Also mein Name ist Cola. Also ich weiß nicht genau, an welcher Stelle ich anfangen soll. Wir haben ja ziemlich weit. Aber ich gehe noch mal ein bisschen zurück. Und machen wir noch mal ein bisschen Licht.
Dann war die Stelle soweit denn klar. Also was ich gemacht habe. Also hier war die Aussage, wenn ich diese unabhängig identisch verteilten Zufallsmacher haben, die das Werfen eines echten Würfels beschreiben, dann müsste das annähernd Standard normal verteilt sein. War das soweit klar noch?
Ok, dann habe ich das konkret gemacht. Ich habe wirklich n-mal gewürfelt. Also ich habe n gleich 15 gesetzt und habe 15-mal gewürfelt. Und dann kann ich diese Werte ausrechnen. Und dann habe ich das nicht nur einen solchen Wert ausrechnen, sondern ich habe 40 solche Werte ausgerechnet. Und nachdem ich diese 40 Werte hatte,
jetzt kippen wir das Licht nochmal auf. Overhead. Hier vielleicht nochmal drücken. Habe ich diese 40 Werte hier unten als senkrechte Linie aufgezeichnet. Das sind nicht genau, also wenn Sie nachzählen, das sieht nicht nach 40 senkrechten Linien aus.
Das liegt daran, weil eben ein paar Mal die gleiche Summe rauskam. Also einzelne sprechen unter Umständen für, kam mehrmals das gleiche raus. Aber im Prinzip können Sie sich vorstellen, Sie haben hier 40 Striche auf der X-Achse. Und da möchte ich wissen, ist es plausibel, dass diese 40 Zahlen von einer Standard-Normalverteilung erzeugt wurden.
Dafür vergleiche ich diese 40 Zahlen mit der Dichte der Standard-Normalverteilung. Also ich möchte wissen, werden diese 40 Zahlen von einer Dichte erzeugt, die so aussieht wie die Standard-Normalverteilung. Und dazu versuche ich diese Dichte zu schätzen. Und eine Möglichkeit eine Dichte zu schätzen, ist ein sogenanntes Histogramm zu bilden.
Das heißt, ich unterteile hier die X-Achse in equidistante Intervalle. Das sind jeweils die Grundseiten von diesen Balken. Und dann für jedes dieser Intervalle zähle ich, wie viele Werte sind da drin. Teile das durch N und normalisiere die Höhe so, dass der Flächeninhalt gerade dieser Anzahl der Datenpunkte im Intervall geteilt durch N entspricht.
Und damit hatten wir einen Datensatz damals in der beschreibenden Statistik durch eine Dichte geschätzt oder Dichte beschrieben. Das mache ich jetzt hier genauso und ich vergleiche die Dichte, die da rauskommt,
mit der wahren Dichte, die ich eigentlich kenne oder die es eigentlich sein sollte. Jetzt klar oder noch irgendwas unklar? Klarer zumindest, oder?
Und jetzt geht es darum, sieht das so aus, als ob das diese geschätzte Dichte eine Ähnlichkeit hat mit der wahren Dichte.
Okay, also Antwort dafür, dass N gleich 5 nur 15 war und nicht N gleich groß, wie überhaupt, ist es recht nah dran. Es gibt zwei Approximationen, die wir gemacht haben. Einerseits dieses N ist klein, dieses kleinen N. Andererseits auch die Anzahl der Zahlen ist klein. Ich habe nur 40 Zahlen. Es wäre vielleicht schöner, wenn ich 400 Zahlen, 4.000 Zahlen oder 40.000 Zahlen hätte.
Da haben, sehen Sie aber das Problem, ich habe ja für jede einzelne Zahl müsste ich 15 mal werfen, den Würfel werfen. Wenn ich das 10.000 mal machen will, dann müsste ich 150.000 mal so einen Würfel werfen. Dann, das war es dann. Okay, das mache ich nicht, aber was ich machen kann?
Ich kann das ganze Ding am Rechner simulieren und das machen wir mal. Deswegen habe ich meinen Rechner mitgebracht. Und mein Rechner kann das. Ja, hier haben wir das eine Bild. Hier kommt gleich das zweite Bild.
Das ist der zweite und der macht es mit 100, der macht es mit 15. N gleich 15 und dann groß N ist jetzt 10.000. Und wenn das so macht, sieht das so aus, das Bildchen.
Also, auf der rechten Seite sehen Sie das mit einem echten Würfel, wo eben 40 solche Summen gebildet wurden. Und auf der linken Seite sehen Sie es mit einem simulierten Würfel, wo 10.000 solche Summen gebildet wurden. Aber jeweils nur aus 15 Zahlen.
Und jetzt sehen Sie diese Asymmetrie hier in der Mitte, ist eigentlich verschwunden. Aber Sie sehen auch, es stimmt nicht ganz. Also, wenn Sie angucken, es müsste eigentlich hier noch ein bisschen mehr hochgehen. Und das liegt jetzt eben daran, weil ich in der Tat nur 15 mal gewürfelt habe. Aber jetzt kann ich Folgendes machen, statt 15 mal werfe ich öfters.
Also, wir machen das Bild vielleicht mal weg, haben das noch da. Und ich tue jetzt so, als hätte ich das ganze de facto nicht 15 mal geworfen, sondern als hätte ich hier, ja, das können wir noch kleiner machen.
Wir werfen mal 25 mal. Und dann sehen Sie, wenn Sie 25 mal werfen, sieht das schon deutlich besser aus. Also, es sieht in der Tat schon nach einer recht guten Abroximation aus.
Es stimmt hier noch nicht ganz. Wir machen es jetzt nicht 25 mal, wir machen es stattdessen bei 50 mal. Tja, und wir machen es vielleicht auch nicht. Also, ich kann es auch nochmal wiederholen.
Sie sehen, wenn ich das Ding ein paar Mal wiederhole, verändert es sich klar, weil die Ergebnisse sind zufällig. Wir machen es vielleicht 100 mal, wir machen es vielleicht noch 500 mal. Damit es jetzt noch besser werden würde, müsste ich noch die zugrunde liegende Partition hier feiner machen.
Also, je öfter ich wirfen würde, also, auch wegen dem 10.000, könnte ich die zugrunde liegende Partition eigentlich noch feiner machen. Und dann würden Sie sehen, da kommt insgesamt eine, also relativ schnell schon, also Sie sehen, hier mit 500 sieht es schon recht gut aus, eine recht gute Abroximation heraus.
Okay, Fragen soweit? Fragen?
Gut, dann mache ich noch eine Anwendung, oder Sie haben eine Frage?
Es war häufig so, dass links von der Null der Balken der höchste war. Das liegt wahrscheinlich daran, dass der Computer irgendwo abrundet. Das ist richtig. Das kann doch auch reiner Zufall gewesen sein. Einer von den Balken ist halt ein bisschen größer. Also, eigentlich müssten Sie beide genau die gleiche Masse haben, also genau gleich groß sein, aber es sind halt noch zufällige Schwankungen drin. Es kann auch sein, wenn ich statt 10.000 auf 100.000 hochgehen würde,
oder eine Million versuche, würde es eigentlich verschwinden. Also, ich würde eigentlich vermuten, es liegt daran. Es sollte nicht am abrunden liegen. Noch Fragen?
Dann stelle ich Ihnen noch schnell eine Anwendung von dem Satz vor. Und zwar kann ich den Satz jetzt verwenden, um die Wahrscheinlichkeit von Beispiel 5.1 auszurechnen.
Also, wenn Sie sich erinnern, Beispiel 5.1, das war diese Abstimmung über zwei Vorschläge A und B. Wir hatten 3.000 resolute Personen, die haben einfach für A gestimmt. Die waren sich ihrer Meinung ganz sicher.
Dann hatten wir eine Million Personen, die untereinflusst voneinander sich entschieden haben. Und dann war die Frage nach, wie groß ist die Wahrscheinlichkeit, dass Vorschlag A eine Mehrheit bekommt? Wir hatten das Abstimmungsverhalten der n unentschlossenen Personen dann durch B1 ein Halb verteilte Zufallsvariabeln modelliert.
Also, wir hatten n gleich eine Million, ja, gleich 3.000. Wir hatten x1 bis xn, die waren unabhängig identisch B1 ein Halb verteilt.
Also, x1 bis xn waren unabhängig identisch verteilt mit P von x1 gleich 1 war gleich ein Halb,
P von x1 gleich 0 war gleich ein Halb. Und uns hat dann die Wahrscheinlichkeit, Klein P interessiert, dass der Vorschlag A eine Mehrheit bekommt. Für A gibt es R-Stimmen plus, wir haben gesagt, wenn xi gleich 1 ist, stimmen sie für A.
Also, die Summe der xi ist dann gerade die Anzahl der Stimmen für A bei den eine Million unentschlossenen Personen. K gleich 1 bis n xk.
Und das soll größer sein als die Anzahl der Stimmen für B. Und das sind diejenigen von den n, die nicht für A gestimmt haben, also n minus diese Summe K gleich 1 bis n xk.
Wir hatten das Ganze dann zurückgeführt. Also, wir hatten uns überlegt, die Summe der xk ist eine Bn-Einhalbverteilung. Damit können wir die Wahrscheinlichkeit ausrechnen. Wir kamen dann allerdings auf eine Summe über die Zähldichte, wo die Anzahl der Summanden eben sehr groß ist oder die auftreten wie Numeralkoeffizienten sehr groß waren,
und die man eigentlich numerisch nicht mehr schön berechnen kann. Das möchte ich jetzt approximativ machen. Okay, wenn Sie das angucken, ich kann die Summe auf die eine Seite bringen, den Rest auf die andere Seite. Ich kann mit n durchteilen.
Ja, wir machen es einfach mal. B von xk größer als n minus r halbe müsste es, glaube ich, sein.
Ne, 1 minus. Ach so, ja. Also, wenn ich die Summe auf die andere Seite bringe, da steht da zweimal die Summe. Dann ist die zweimal die Summe größer als n minus r. Und dann teile ich noch durch 2n durch, damit hier 1 durch n steht.
Deswegen steht dann da n halbe halbe minus r durch 2n.
Also zweimal die Summe ist größer als n minus r. Dann die Summe ist größer als n halbe minus r halbe. Und dann noch durch n geteilt. Ja, dann steht da nicht mehr n halbe, da steht da 1 halb.
Dann will ich hier dieses arithmetische Mittel der Zufallsvariablen durch eine Standard-Normalverteilung ersetzen. Dazu, das kann ich, wenn ich entsprechend normalisiert habe. Das heißt, statt dem arithmetischen Mittel soll arithmetisches Mittelminuserwartungswert mal Wurzeln durch Wurzeln aus Variants da stehen.
Also mache ich das auf beiden Seiten. Ich ziehe den Erwartungswert ab erst mal. Der Erwartungswert von x1 ist gerade ein halb, weil die Zufallsvariabe ist b1 ein halb verteilt.
Das heißt, wir kommen auf, ich lasse hier mal gerade noch was frei. K gleich 1 bis n xk minus ein halb. Größer als minus r durch 2n. Ich lasse hier auch noch was frei.
Und dann multiplizieren Sie das Ganze noch mit Wurzeln aus n durch Wurzeln aus Variants von x1. Und hier genauso.
Diese Wahrscheinlichkeit schreibe ich dann um als Komplementärwahrscheinlichkeit.
1 minus Wahrscheinlichkeit, das ist kleiner als.
Ich kann das Wurzel n noch kurzen. R durch 2 mal Wurzel n.
Und wir sind bei dieser Wahrscheinlichkeit. Und jetzt wende ich darauf den Satz 45 an. Nach dem Satz 45, also hier steht genau die Zufallsvariabel von dem Satz 45. Und die Wahrscheinlichkeit ist gerade die Verteilungsfunktion der Zufallsvariabel von dem Satz an der Stelle R durch 2 mal Wurzel n mal Wurzel aus Variants von x1.
Nach dem Satz 45 sage ich, ich approximiere das jetzt durch den Wert der Verteilungsfunktion der Standard-Normalverteilung an dieser Stelle. Das heißt, das ist ungefähr Satz 45.
1 minus Phi von minus r durch 2 mal Wurzel n mal Wurzel aus Variants von x1.
Wobei die Phi ist die Verteilungsfunktion von n und 1.
Jetzt überlegen wir uns, R war 3000, n war eine Million, also Wurzel aus n ist 1000.
Und dann brauchen wir die Wurzel aus der Variant von x1. Kann mir jemand von Ihnen sagen, wie groß ist die Variant von einer b1, einer halbverteilten Zufallsvariabel?
Also Variant von einer b1, einer halbverteilten Zufallsvariabel. Einerseits, Sie könnten es ausrechnen. Andererseits, Sie könnten sich daran erinnern, Variant von bnp war.
Also Variant von bnp, das war eine der Sachen, wo ich gemeint habe, das könnten Sie auswendig wissen. Das war n mal p mal 1 minus p. Und damit kommen Sie auf Variant von b1 ein halb, also 1 mal ein halb mal 1 minus ein halb, vielleicht ein Viertel.
Wenn Sie es nicht sehen, Sie könnten es auch sofort ausrechnen. Sie bräuchten den Erwartungswert von x1 Quadrat minus den Erwartungswert von x1 in Klammern zum Quadrat. Erwartungswert von x1, wissen Sie, der ist ein halb. Das x1 Quadrat, wenn die Zufallsvariabel 0, 1 wertig ist, stimmt mit x1 überein. Das heißt, 0 Quadrat ist 0, 1 Quadrat ist 1.
Deswegen ist der Erwartungswert von x1 Quadrat gleich dem Erwartungswert von x1. Das heißt, es kommt ein halb minus ein halb zum Quadrat raus. Also ein halb minus ein Viertel gibt ein Viertel. Okay, also hier steht ein Viertel. Dann sehen Sie, dieses Wurzel aus Variant kurz sich mit der 2 weg. Und es bleibt noch phi von minus 3 übrig.
Also wir kommen auf 1 minus phi von minus 3. Und dann nehmen Sie entweder Ihr Statistikpackage oder irgendeine Tabelle. Wir nehmen ein vereinfachtendes Statistikpackage, geben direkt phi von minus 3 ein, rechnen 1 minus davon, kommen auf 0,9986.
Und Sie sehen, der Vorschlag wird angenommen mit sehr großer Wahrscheinlichkeit. Das heißt, wenn Sie bei einer Million unentschlossener Wähler nur eine qualifizierte Minderheit oder noch zusätzlich ein festes Potential von 3000 Leuten haben, die für Ihren Vorschlag stimmen,
dann haben Sie die Abstimmung eigentlich so gut wie gewonnen. Okay, Fragen soweit? Fragen?
Gut, dann kommen wir zu 5 Minuten Pause fürs Tafelwischen. Und ich mache dann um 10.42 Uhr weiter.
Ich würde gerade nochmal darauf angesprochen, auf die Sprache der Vorlesung Wahrscheinlichkeitstheorie. Ich hatte ja eine Abstimmung gemacht. Die Abstimmung hat ergeben, dass eine Mehrheit für Deutsch war. Allerdings waren es insgesamt nur relativ wenige. Ich würde also auf alle Fälle in der ersten Vorlesung von der Wahrscheinlichkeitstheorie nochmal fragen,
ob ich sie auf Deutsch oder auf Englisch halten soll, wenn da die Mehrheit gegen Englisch wäre. Das heißt, man muss so sagen, die Leute, die sagen, sie wollen es unbedingt auf Deutsch hören, wenn die schon in der Mehrheit sind, dann würden wir es auf Deutsch machen, anders auf Englisch.
Wenn das rauskommen würde, dass wir es auf Deutsch machen, würde es aber auf alle Fälle für diejenigen, die an der englischen sprachigen Veranstaltung interessiert sind, die Möglichkeit geben, englischsprachige Übungen zu besuchen, englischsprachiges Übungsplatz zu bekommen, englischsprachige Klausur. Und ich weiß nicht, ob es die gesamten Credit Points sind oder ob es nur ein Teil der Credit Points sind,
aber ich vermute fast, die gesamten Credit Points werden dann auch für diesen bilingualen Studiengang als englischsprachige Veranstaltung gegeben. Also ich würde dann innerhalb der Vorlesung immer englischsprachige Begriffe noch erläutern von den neuen Fachgeberiffen und sie könnten dann die Übungen auf Englisch machen. Allerdings würde ich eben nicht so weit gehen, dass ich die Vorlesung auf Englisch halte, wenn die Mehrzahl der Leute es nicht will.
All das wäre irgendwie entscheidend für mich, was will die Mehrzahl der Hörer haben. Aber das hängt eben wirklich davon ab, da müssten Sie in der ersten Vorlesung sein und dann können Sie soweit Ihre Meinung klar äußern. Okay, dann komme ich zu Kapitel 6, letztes Kapitel zur schließenden Statistik.
Ich mache eine ganz kurze Einführung.
Also bisher haben wir schwerpunktmäßig Fragestellungen der Wahrscheinlichkeitstheorie untersucht in den Kapiteln 4 und 5. Da war der Wahrscheinlichkeitsraum gegeben und das Wahrscheinlichkeitsmaß bekannt.
Und uns hat dann interessiert, wenn Sie freundlicherweise Ihre Unterhaltung soweit einstellen könnten. Und uns hat dann interessiert, welche Eigenschaften haben Realisierungen.
Wir haben da zum Beispiel die Gesetze der großen Zahlen kennengelernt, wenn der Wahrscheinlichkeitsraum gegeben ist.
Wir haben, wir beobachten da Realisierungen vom Wahrscheinlichkeitsmaß mit Erwartungswert, der ist bekannt. Vielleicht Erwartungswert wäre 7. Dann wissen wir, die Realisierungen haben die Eigenschaft, wenn wir sie immer wieder unbeeinflusst voneinander erzeugen,
Endstück nehmen, durch die Anzahl entteilen. Das strebt asymptotisch gegen diesen Erwartungswert, also gegen die 7. Wenn Sie an der Anwendung denken, das ist eigentlich völlig unrealistisch. In der Anwendung wird nie ein Wahrscheinlichkeitsraum gegeben sein und das Wahrscheinlichkeitsmaß bekannt sein. Sondern vielmehr, das eigentlich Realistische ist, dass der Wahrscheinlichkeitsraum eben unbekannt ist,
aber dass Sie stattdessen Werte davon beobachtet haben, also Realisierungen beobachtet haben. Also jetzt, da wäre der W-Raum unbekannt, aber Realisierungen werden beobachtet.
Und die zentrale Frage ist dann, was können wir dann über den Wahrscheinlichkeitsraum oder auch über weitere Realisierungen aussagen?
Über A, den Wahrscheinlichkeitsraum oder auch B, weitere zukünftige Realisierungen aussagen?
Also wir können uns zum Beispiel fragen, wie groß ist der Erwartungswert bei diesem Wahrscheinlichkeitsraum
und bei diesem Wahrscheinlichkeitsmaß, wie groß ist die Varianz? Oder wenn wir das durch eine Exponentialverteilung mit Parameter Lambda beschreiben, wie groß ist dann der Parameter? Das wären so klassische Punktschätzungen, was wir als erstes machen.
Die zweite Sache, die wir ganz am Schluss noch kurz machen werden, sind die statistischen Tests. Da interessiert weniger der genaue Wert von Parameter, sondern ob man einen gewissen Wert überschreitet oder nicht. Also ist der Erwartungswert zum Beispiel größer gleich als 3 oder ist er nicht größer als 3? Aber nicht, ob er genau 2,9 oder 3,5 ist, interessiert da eigentlich nicht so sehr.
In Übungen werden Sie noch ganz kurz sogenannte Bereichschätzungen machen. Da geht es darum, können Sie einen Bereich angeben, wo der zu schätzende Parameter vermutlich mit großer Wahrscheinlichkeit drin liegt. Ich fange an mit Abschnitt 6.2 zu Punktschätzverfahren.
Hier schätzen wir Kennzahlen, wie zum Beispiel der Erwartungswert oder auch Parameter eines Verteilungsmodells einer unbekannten Verteilung.
Also im folgenden Kennzahlen, wie zum Beispiel der Erwartungswert oder Parameter eines Verteilungsmodells,
das wäre zum Beispiel der Parameter lambda bei der Exponential von lambda Verteilung,
einer unbekannten Verteilung wollen wir schätzen.
Ich mache schätzen mal in Anführungsstrichen, weil das ist der entsprechende Fachbegriff aus der Statistik. Das heißt, wir bekommen eine Stichprobe einer unbekannten Verteilung gegeben.
Also wir beobachten Werte davon und möchten dann daraus ausgehend von dieser Stichprobe sagen, wie groß ist zum Beispiel der Erwartungswert oder wie groß ist dieser Parameter lambda vorausgesetzt, es sei eine Exponential von lambda Verteilung.
Ich beschreibe es mal formal wie folgt. Gegeben sind klein x1 bis klein xn aus R.
Gegeben ist weiter eine Klasse Wteta, Teta in der Parametermenge Großteta von Verteilungen auf R.
Darüber hinaus ist eine Funktion G gegeben, die Teta nach R abbildet.
Die Entale Annahme ist, dass die klein x1 bis klein xn Realisierungen von unabhängig identisch verteilten Zufallsvariablen Groß x1 bis Groß xn sind,
deren Verteilung innerhalb von dieser Klasse Wteta von Verteilungen liegt. Also Annahme klein x1 bis klein xn seien Realisierungen von Zufallsvariablen Groß x1 bis Groß xn,
wobei diese Zufallsvariablen x1 bis xn unabhängig identisch verteilt sind,
mit der Eigenschaft, dass die Verteilung von x1 gleich einem wie Teta Null ist, für einen Teta Null aus Teta.
Also wir beobachten reelle Zahlen. Wir haben eine Klasse von Verteilungen auf R gegeben.
Die Funktion G von Teta nach R, wozu ich die brauche, kommt gleich noch. Wir machen die zentrale Annahme, dass diese gegebene Zahlen Realisierungen von Zufallsvariablen Groß x1 bis Groß xn sind, die unabhängig identisch verteilt sind, eine gewisse Verteilung haben und diese gewisse Verteilung ist eben in der gegebenen Klasse von Verteilungen drin.
Beachten Sie, da ich noch nichts gesagt habe, wie groß diese Klasse von Verteilungen ist, ist es per se keine Einschränkung. Also ich kann zum Beispiel für diese Klasse von Verteilungen auch alle möglichen Verteilungen zulassen. Ich parametrisiere einfach die Menge aller Wahrscheinlichkeitsmaßnahmen.
mit sich selber. Also jedes Wahrscheinlichkeitsmaß nehme ich als Parameter des Wahrscheinlichkeitsmaßes selber, dann haben sie keine, dann wäre das im Prinzip keine Einschränkung mehr. Aber der Witz ist natürlich, man wird hier irgendwas kleines eigentlich nehmen für die Klasse von Verteilungen meistens. Zum Beispiel, wir setzen
voraus, das ganze wäre eine Normalverteilung. Kommt gleich als Beispiel. Gut, gesucht ist dann eine Schätzung tn von x1 bis xn, tn ist eine Funktion von r oben n nach r und mit dieser Funktion wollen wir nicht genau
teta null, sondern g von teta null schätzen. Also gesucht, Schätzung tn von x1 bis xn aus r von g von teta null. Dabei ist dieses tn eigentlich eine
Funktion von rl nach r und es ist die sogenannte Schätzfunktion oder heißt
Schätzfunktion. Einfaches Beispiel, wir setzen teta als, also teta ist einfach oder
wir nehmen vteta als Klasse von einer Normalverteilung. Normalverteilung hat zwei Parameter, Erwartungswert und Varianz. Erwartungswert ist eine reelle Zahl, Varianz ist eine reelle Zahl größer als Null, das heißt unsere Parametermenge wäre r plus, ne r, kreuz r plus ohne die Null. Zum Beispiel,
also r plus sind bei mir die nicht negativen reellen Zahlen und ich lasse
die Null nicht weg. Mein Parameter ist dann so ein mu sigma Quadrat und das w mu sigma Quadrat sei eine n mu sigma Quadratverteilung und
jetzt interessiert mich nicht der gesamte Parameter, sondern mich interessiert nur der Mittelwert und deswegen nehme ich noch die Funktion g, die bildet dieses mu sigma Quadrat dann auf mu ab und hier soll jetzt
ausgehen von einer Stichprobe einer Normalverteilung der Erwartungswert
geschätzt werden. Hier soll ausgehen von einer Stichprobe einer
Normalverteilung deren Erwartungswert geschätzt werden.
Also wenn Sie überlegen, was würde es heißen einer konkreten Anwendung,
in einer konkreten Anwendung beobachten Sie irgendwelche zufälligen Werte und wollen wissen, wie groß sind die Werte im Mittel. Dabei mache ich eine Modellannahme. Die zentrale Modellannahme wäre, die zugrunde legende Verteilung ist in Wahrheit eine Normalverteilung. Diese Normalverteilung ist insofern unbekannt oder davon ist es
soweit unbekannt, dass ich eben weder den Erwartungswert noch die Varianz kenne und unter dieser Annahme versuche ich dann den Erwartungswert möglichst gut zu schätzen oder mit einer Schätzung
anzukommen oder Rückschlüsse zum Beispiel über den Erwartungswert zu ziehen. Sie sehen eines der Grundprobleme dabei in jeglicher Anwendung ist natürlich, dass Sie hier eine Annahme an die Verteilung reingesteckt haben und das ist auch die eigentliche Schwierigkeit bei Verfahren der Statistik meistens, ob diese Annahme richtig ist.
Also wenn Sie hier ein Verfahren haben, das eben gut funktioniert für Normalverteilungen, aber in Ihrer Anwendung liegt in Wahrheit keine Normalverteilung vor, dann machen Sie unter Umständen ein Riesenfehler und den ignorieren Sie bei sowas völlig. Okay, Fragen soweit? Keine Fragen.
Dann komme ich zu wünschenswerten Eigenschaften von Schätzfunktionen.
Das gibt die Definition 6.1. Unsere Schätzfunktion, wir betrachten zwei verschiedene Begriffe.
Erstens Erwartungstreue, zweitens konsistent. Unsere Schätzfunktion T.N. heißt A. Erwartungstreue.
Erwartungstreue Schätzung für G von Teta.
Erwartungsbetreuung heißt, Sie halten den Stichprobenumfang fest, machen die Schätzung aber immer wieder mit neuen Stichproben und im Mittel soll es richtig rauskommen. Und zwar ganz egal, was der unbekannte Parameter eigentlich ist.
Also ganz egal, welches Teta eigentlich vorliegt. Das heißt, falls für alle Teta aus Teta, Teta gilt, wenn ich mir den Erwartungswert angucke,
ich mache bei diesem Erwartungswert einen unteren Um anzudeuten, schreibe ich gleich auch noch mal hin, dass ich diesen Erwartungswert unter der Voraussetzung ausrechne, dass W. Teta die wahre Verteilung ist. Der Erwartungswert von T.N. von x1 bis xn,
der soll gleich G von Teta sein. Das ist der erste Begriff, Erwartungstreue Schätzung, heißt anschaulich so viel, im Mittel kommt das Richtige raus.
Zweiter Begriff, wir sprechen von einer konsistenten Schätzung für G von Teta.
Konsistenz heißt in der Statistik immer so etwas, wie asymptotisch kommt das Richtige raus. Das heißt, diesmal halte ich meinen Parameter eigentlich fest und bilde dann den Grenzübergang für n gegen endlich
von meiner Schätzfunktion. Also was passiert, wenn ich in meine Schätzfunktion immer mehr Beobachtungen reinstecke? Und da soll das Richtige rauskommen. Und zwar, also G von Teta. Und zwar wieder, weil ich den Parameter ja eigentlich nicht kenne,
soll das für alle Teta aus Teta gelten. Falls für alle Teta aus Teta gilt,
Wahrscheinlichkeit, wenn ich sie berechne unter der Voraussetzung, dass B.Teta das wahre Wahrscheinlichkeitsmaß ist, ich leute es wieder an durch so einen Teta als unteren Index, vom Limes N gegen Endlich,
die Wahrscheinlichkeit, dass T.N. von x1 bis xn gegen G von Teta konvergiert, die soll gleich 1 sein. Das heißt, mit Wahrscheinlichkeit 1 konvergiert meine Schätzfunktion für Stichprobenumfang gegen Endlich, gegen den zu schätzenden Wert.
Und dabei sind bei der Bildung von E.Teta beziehungsweise P.Teta die Zufallsvariablen x1 bis x2 und so weiter unabhängig identisch verteilt mit Px1 gleich W.Teta.
Dabei sind bei der Bildung von E.Teta beziehungsweise P.Teta die Zufallsvariablen x1, x2 und so weiter
unabhängig identisch verteilt mit Px1 gleich W.Teta.
Okay, Fragen soweit?
Also beachten Sie, wenn ich das Px1 gleich W.Teta festlege und ich weiß noch, die x1, x2 und so weiter sind unabhängig identisch verteilt, dann habe ich das ganze zufällige Verhalten der x1, x2 eigentlich festgelegt. Das heißt, das Ganze, was hier rauskommt, diese Wahrscheinlichkeit oder auch dieser Erwartungswert hängt eben letztendlich nur von Teta ab
und soll hier gleich G von Teta sein und hier soll er gleich 1 sein. Für alle Teta. Wir fordern sie jeweils für alle Teta, weil wir eben nicht wissen, welches der Teta in einer konkreten Anwendung vorliegt. Okay, als erstes betrachten wir Schätzung von Erwartungswerten Varianz.
Gibt Abschnitt 621, Schätzung von Erwartungswerten Varianz.
Und Schätzung von Erwartungswert ist simpel, weil wir wissen ja schon, Stichprobe Mittel konvergieren gegen Erwartungswert. Also nach dem starken Gesetz der großen Zahlen gilt,
wenn ich arithmetische Mittel der xi angucke,
dann konvergiert das gegen den Erwartungswert von x1 fast sicher. Und zwar für jede Verteilung, wo der Erwartungswert vom Betrag von x1 klein und endlich ist.
Das heißt, wenn ich als Schätzfunktion Tn von klein x1 bis klein xn das arithmetische Mittel nehmen, dann ist das automatisch eine konsistente Schätzung.
Das Ganze ist eine konsistente Schätzung für den Erwartungswert.
Für e x1.
Das ist die eine Eigenschaft. Also asymptotisch kommt das Richtige mit Wahrscheinlichkeit 1 raus. Das heißt, wenn Sie immer mehr Beobachtungen machen. Eine andere, aber davon unabhängige Eigenschaft, die davon eigentlich nichts zu tun hat, ist, wenn Sie die Anzahl der Beobachtungen festhalten
und dann die Beobachtungen immer wieder wiederholen, ob dann im Mittel das Richtige herauskommt. Wer die Frage, wenn Sie diese Schätzung angucken, ist diese Schätzung auch erwartungs treu? Also hätten Sie sowas, dass im Mittel das Richtige rauskommt?
Vorschlag? Beziehungsweise die Frage wäre natürlich,
wie passt das mit dem Ganzen überhaupt zusammen? Ich habe ja gar kein G von Teta. Also im Moment, ich habe kein Teta und ich habe kein G von Teta. Doch, im Prinzip schon. Das war das, was ich Ihnen implizit vorhin versucht habe, so anzudeuten. Also ich kann hier einfach die Klasse aller Verteilungen zulassen. Ich lasse hier die Klasse aller Verteilungen zu,
wo der Erwartungswert von Betrag von x1 zu xn ist. Der Erwartungswert von Betrag von x kleiner als ein Endliches. Und diese Verteilung muss ich dann irgendwie parametrisieren. Und ja, am einfachsten, ich parametrisiere die Verteilung mit sich selber. Also der Parameter ist die Verteilung selber und die Parametermenge ist die Menge aller Verteilungen.
Das ist ein bisschen umständlich, deswegen schreibe ich es auch nicht hin. Aber mathematisch kein Problem. Also die Klasse aller Verteilungen, parametrisieren Sie mit sich selber. Okay, dann was ist das G? Das G bildet eine Verteilung auf ihren Erwartungswert ab. Was interessiert mich dann da oben? Mich interessiert da oben,
ob das arithmetische Mittel eben gleich dem Erwartungswert ist. Asymptotisch für n gegen n. Oder ob das arithmetische Mittel mit Wahrscheinlichkeit 1 gegen den Erwartungswert strebt. Und zwar für alle möglichen Verteilungen. Was interessiert mich dann hier? Mich interessiert hier, ob der Erwartungswert des arithmetischen Mittels mit dem Erwartungswert übereinstimmt. Das ist die Frage nach Erwartungstreue.
Okay, wie sieht das hier aus? Wenn Sie Erwartungstreue jetzt angucken? Naja, wenn Sie mal überlegen, was muss ich hinschreiben? Ich muss eben den Erwartungswert von dem Ausdruck hinschreiben.
Also wegen, was ist der Ausdruck? Naja, ich muss dieses tn von klein x1 bis klein xn eben die groß x1 bis groß xn einsetzen.
Und ich möchte wissen, ob da der Erwartungswert von x1 rauskommt. Also setzen Sie mal direkt ein. Und mich würde interessieren, wie groß ist dieser Erwartungswert?
Vorschläge? Wie berechnen Sie den Erwartungswert vom arithmetischen Mittel?
Genau, wegen der Linearität des Erwartungswertes kommt da das arithmetische Mittel der Erwartungswerte raus.
Also hier hätten wir Linearität, Erwartungswert. Ja, und jetzt wissen Sie aber, die Zufallsvariablen sind identisch verteilt. Dann stimmt der Erwartungswert von xi
mit dem Erwartungswert von x1 überein. Dann sehen Sie, dann steht da insgesamt der Erwartungswert von x1. Dann sehen Sie, dann ist tn auch erwartungstreu.
Und eigentlich müsste ich jetzt hinschreiben, Erwartungstreue, Schätzung für Erwartungswert von x1. Allerdings passt es nicht mehr, also schreibe ich nur Erwartungstreue hin. Fragen dazu?
Haben Sie eine Frage? Fragen noch?
Also wir hatten zwei Eigenschaften vom Schätzung. Erstens, asymptotisch kommt das Richtige raus, ist die Konsistenz. Zweitens, im Mittel kommt das Richtige raus, ist die Erwartungstreue. Okay, wir machen dann am Mittwoch weiter mit der Schätzung der Varianz.