Punktschätzungen
Formal Metadata
Title |
| |
Title of Series | ||
Part Number | 9 | |
Number of Parts | 28 | |
Author | ||
License | CC Attribution - NonCommercial - ShareAlike 3.0 Germany: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/19660 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
1
2
3
4
5
6
7
8
9
10
12
13
14
15
16
19
21
22
23
24
00:00
Fraction (mathematics)Exponential distributionEquationMaß <Mathematik>MathematicsSet (mathematics)Natural numberNumerical analysisOrder (biology)Theory of relativitySolid geometrySample (statistics)WärmedurchgangszahlZahlFunction (mathematics)Normal distributionPhysical quantityVarianceCubeSchätztheorieStochasticProbability distributionProduct (business)FactorizationSquareRandom variableVariable (mathematics)Combinatory logicCategory of beingAverageINTEGRALWell-formed formulaBand matrixDerivation (linguistics)InfinityVolumeWahrscheinlichkeitsmaßArithmetic meanProof theoryExpected valueFunctional (mathematics)Sheaf (mathematics)Line (geometry)WeightGleichverteilungPrice indexContent (media)Limit (category theory)Kompakte MengeComplementarityLemma (mathematics)Linear regressionMereologyMoment (mathematics)TheoryResultantEstimatorSigma-algebraLocal ringSampling (statistics)Standard errorAdditionTable (information)SubsetTerm (mathematics)ThetafunktionStochastic kernel estimationConsistencyNumberEmpirical distribution functionEstimationAreaSummationMaximum likelihoodQuadratic equationLinearizationGoodness of fitLogical constantNichtlineares GleichungssystemDivisorFamilyMeasurementLengthOperator (mathematics)DistanceParameter (computer programming)MassWeightDerived set (mathematics)Normal (geometry)RectangleMathematical statisticsUnitäre GruppeDistribution (mathematics)Square numberSummierbarkeitAdditionExistencePoint (geometry)AbschätzungEuklidischer RaumDimension nPopulation densitySocial classPunktschätzungDimension 1Open setPoisson-KlammerNon-parametric statisticsKernschätzungNullFinite setOptimumEstimatorRadiusExpressionGreatest elementIdentical particlesCondition numberP-valueDifferent (Kate Ryan album)CalculationElement (mathematics)Image resolutionMultiplication signNichtparametrische RegressionRealisierung <Mathematik>Binomial heapAtomic nucleusIteriertes IntegralRight angleGroup representationVolume (thermodynamics)1 (number)SchaleSet theorySlide ruleGradientInterior (topology)Computer animationLecture/ConferenceMeeting/InterviewPanel painting
Transcript: German(auto-generated)
00:08
Ja, ich begrüße Sie recht tatsächlich zur heutigen Vorlesung. Wir waren stehen geblieben beim Besatz, der Beweis von Satz 4.3, der universellen, oder der Inhalt des Satzes 4.3 ist die universelle Konsistenz des Kernschätzers.
00:23
Wir betrachten den Kernschätzer mn von x Summe i gleich 1 bis nk von x minus x die durch hn mal yi geteilt durch die Summe j gleich 1 bis nk von x minus xj durch hn mit naiven Kern. Das heißt, der Kern ist eine Indikatorfunktion zu einer Kugel um 0 mit Radius r und mit einer Bandbreite hn größer 0.
00:44
Für die Bandbreite gelte hn konnegiert gegen 0, aber nicht so schnell, dass nicht immer noch gilt n mal hn hoch d konnegiert gegen endlich, für n gegen endlich. Dann ist die Aussage des Satzes, der erwartete L2-Fehler des Schätzers,
01:01
konnegiert gegen 0 für jede Verteilung von x und y, wo y quadratisch integrierbar ist. Zum Beweis, wir haben den Kernschätzer dargestellt als lokalen Durchschnittsschätzer mit Gewichten wn i von x, das ist k von x minus x die durch hn geteilt durch die Summe j gleich 1 bis nk von x minus xj durch hn.
01:26
Weil der Kernschätzer diese Bauart hat, genügt es nach Satz 4.2 zu zeigen, dass dort die Bedingungen 1 bis 5 erfüllt sind. Wir haben bereits gesehen, 1 bis 3 gelten und um 4 folgt aus folgender Bedingung, die wir jetzt nachher gleich nachweisen,
01:46
nämlich Integral Gleichung 4,8, Integral über eine beschränkte Kugel s, 1 durch n mal px von Kugel um x mit Radius r mal hn integriert bezüglich der Verteilung von x,
02:02
ist klarer gleich als eine konstante C-Schlange, die von s abhängt, geteilt durch n mal hn hoch d. Das Ganze ist irgendwie klar, wenn sofern px eine Gleichverteilung auf irgendeiner kompakten Menge wäre, dann wäre dieses px-Maß von dieser Kugel gleich dem Volumen der Kugel
02:27
und das Volumen der Kugel wäre eben proportional zu hn hoch d. Das heißt, dem Nenner steht 1 durch n mal hn hoch d, integriert bezüglich dem Wahrscheinlichkeitsmaß gibt 1 durch n mal hn hoch d. Das heißt, Sie sehen, das Ganze ist genauso klar, wenn x eine Dichte bezüglich des Borellmaßes hätte,
02:46
die nach unten weg beschränkt ist, dann könnten Sie diesen Nenner nach unten abschätzen durch n mal hn hoch d mal eine Konstante. Und was wir jetzt eben zeigen, wir zeigen, es gilt sogar allgemein.
03:16
Ich habe die gleich um 4.8 hier noch mal hingeschrieben, damit wir da besser in den Beweis reinkommen.
03:25
Und brauchen Sie nicht abschreiben, haben Sie vom letzten Mal noch. Und ich setze jetzt fort zum Nachweis von 4.8. Und die Idee ist, wir machen noch mal ein Überdeckungsargument.
03:47
Ich überdecke, also ich splitte jetzt den Integranten auf, indem ich den Integrationsbereich aufteile. Und da ich ja nur nach einer oberen Abschätzung interessiert bin, muss ich ihn eigentlich gar nicht partitionieren,
04:01
sondern ich suche einfach nur eine endliche Menge von Mengen oder endlich viele Mengen, deren Vereinigung es überdeckt und schätze dann die Einzelintegrale ab. Und diese Mengen wähle ich als Kugeln mit Radius r mal h in halbe.
04:21
Also wir wählen, wählen wir jetzt Kugeln. Die erste Kugel ist z1.
04:41
Die erste Kugel ist die Kugel um einen Punkt z1 mit Radius r mal h in halbe und so weiter. Hier ist eine gewisse Anzahl. Die Anzahl bezeichne ich mal mit mn. So dass eben diese ganzen Kugeln diese ursprüngliche feste Kugel um null mit endlichem Radius überdecken.
05:14
Das heißt s ist eine Teilmenge. Ja, das schaffe ich sicher.
05:37
Also ich kann so eine Kugel durch endlich viele Kugeln mit halbem Radius überdecken.
05:46
Aber was jetzt eigentlich das Spannende ist, ist wieviel von diesen Kugeln brauche ich denn? Was würden Sie denn sagen? Wieviel von diesen Kugeln brauche ich denn, damit ich diese ursprüngliche Kugel überdecken kann?
06:08
Also s ist ja, also ich habe es vorhin falsch gesagt, ich habe gesagt wir nehmen Kugeln mit halbem Radius, nähern machen wir nicht. S ist eine Kugel mit einem festen Radius, feste Radius r größer null. Und ich nehme Kugeln, kleine Kugeln mit dem Radius hier.
06:22
Jetzt werde ich fragen, wieviel kleine Kugeln brauche ich, um eine Kugel mit einem festen Radius zu überdecken? Haben Sie einen Vorschlag?
06:52
Ja, Sie können sich das mal eindimensional vorstellen. Eindimensional wäre s ein Intervall, festes Intervall, vielleicht von minus groß r bis plus groß r.
07:00
Und hier haben Sie kleine Intervalle der Seitenlänge r mal h n. Wieviel kleine Intervalle brauchen Sie, um dieses große Intervall von minus r bis r zu überdecken?
07:35
Also großes Intervall wäre hier, hätte die Länge r.
07:55
Kleines Intervall wäre hier unten, r mal h n. Wieviel von den kleinen Intervallen brauche ich, um das große zu überdecken?
08:01
Ungefähr eins durch h n, ja. So ziemlich, also ich meine, vielleicht noch ein bisschen schwierig, weil ich hier eigentlich die offen machen würde, aber wenn es abgeschlossen wäre, wäre es irgendwie klar, brauche ich eins durch h n. Und jetzt machen wir es mit einer Kugel. Große Kugel, kleine Kugel. Und da habe ich Ihnen beim letzten Mal erläutert, der Trick, um so eine Konstruktion, um so eine Überdeckung zu basteln wäre, zu sagen, okay, die große Kugel, die mache ich größer.
08:25
Ich mache einen Quadrat raus oder einen Rechteck oder einen Würfel. Dann hatte der Würfel die Seitenlänge 2r. Die ursprüngliche Kugel hat Radius r, Würfel hat die Seitenlänge 2r, umfasst das ganze Ding. Und diese kleinen Kugeln hier, die mache ich kleiner, da tue ich kleine Quadrate rein.
08:42
Und dann ist klar, dieses kleine Quadrat hat die Seitenlänge, wird ein Vielfaches von oder eine kleine Konstante mal r mal h n sein, ungefähr Seitenlänge. Und dann sehen Sie ja, dann machen Sie das in jeder Dimension. Und dann sehen Sie ja, dann bekommen Sie eigentlich r durch r durch h n, aber das Ganze hoch d. Das heißt, ich komme hier irgendwas durch eine C-Schlange durch h n hoch d.
09:09
Das wäre ein mögliches Argument dafür.
09:25
Ein zweites mögliche Argument wäre, zu sagen, ja, ich nehme die maximale Anzahl der Kugeln, deren oder ich nehme die maximale Anzahl von Punkten in dieser Kugel, sodass die Kugeln da drum rum, ja, und wahrscheinlich, ja, ich nehme die maximale Anzahl von Punkten
09:55
z, j in s, die paarweise einen Abstand größer gleich als r mal h ein halbe haben. Das hat die Konsequenz, dass wenn ich ein, also dann die maximale Anzahl, wenn
10:06
Sie einen weiteren Punkt haben, dann muss der in einer dieser Kugeln drin liegen, weil der hat ja zu irgendeinem nicht den Abstand. Das heißt, wir haben so eine Überdeckung und jetzt wollen wir die Anzahl wissen. Dann können wir sagen, ja, wir betrachten die Kugeln um diese Punkte mit Radius r mal h in Viertel.
10:26
Diese Kugeln mit Radius r mal h in Viertel sind, na ja, der Radius geht ein bisschen über den Radius hinaus, aber wenn ich den Radius ein bisschen größer mache, sind sie eigentlich in der Kugel drin und dann vergleiche ich einfach die Volumina. Die Volumina von hier mit dem Volumen hier und dann kann die Anzahl maximal des Volumen hier durch das Volumen so einer kleinen Kugel sein.
10:46
Sie kommen auch auf C Schlange durch h n hoch d. Sie müssen aber ein bisschen aufpassen, weil Sie das S noch ein kleines bisschen größer machen wollen, dass Sie das nicht Ihre Abschätzung ruiniert. Okay, aber mit einem Gitter ist es eigentlich einfacher vorzustellen. Fragen soweit? Fragen? Sieht nicht so aus.
11:19
Gut, dann gilt. Jetzt gucken wir uns das Integral hier an. Integral über S.
11:50
Ja, und jetzt schreibe ich das zum Beispiel, wenn ich hier über ganz R deintegriere, dann die Indikatorfunktion zu S hier noch reinmultivisiere. Die Indikatorfunktion zu S ist kleinergleich als die Summe von diesen ganzen Indikatorfunktionen. Die Summe ziehe ich raus.
12:03
Dann sehen Sie, dann komme ich als kleinergleich die Summe ziehe ich raus, habe ich behauptet. Sollte ich auch machen.
12:39
Dann komme ich auf diese Abschätzung. Also einfach, weil die Vereinigung all dieser Mengen diese Menge überdeckt.
13:12
Jetzt machen wir den gleichen Trick wie beim letzten Mal auch. Das war diese kleine Kugel, die enthalten war mit der großen Kugel.
13:21
Also Bild ging irgendwie, Sie hatten hier irgendwo eine Kugel. Also ich habe hier eine Kugel mit Radius R Schlange.
13:40
Ich greife mir dann ein beliebiges X raus aus dieser Kugel und mache darum eine Kugel mit doppelt so großem Radius. Doppelt so großer Radius ist hier. Dann war der Witz.
14:01
Diese Kugel mit doppelt so großem Radius umfasst die ursprüngliche Kugel. Das heißt für X aus, wir integrieren ja bezüglich der Menge Z plus S 0 R mal H eineinhalb.
14:23
Und da gilt jetzt eben diese Kugel, die ich hier habe, ist enthalten in der größeren Kugel.
14:47
Folglich wissen wir, das Maß von der größeren Kugel ist größer gleich als das Maß von einem kleineren Kugel. Und da das Maß von der größeren Kugel im Nenner auftaucht, kann ich das Ganze nach oben abschätzen, indem ich einfach im Nenner die kleinere Kugel hinschreibe.
15:49
Ja, jetzt sehen Sie aber, das Integral, was ich hier habe, der Integrant hängt ja gar nicht mehr von X ab. Das heißt, das Integral selber ist einfach konstanter Funktionswert mal Maß vom Integrationsbereich.
16:02
Das heißt, ich komme hier auf Summe j gleich 1 bis mn konstanter Funktionswert mal Maß vom Integrationsbereich.
16:43
Und dann sehen wir, dieses Maß hier taucht dem Zeller und Nenner auf, kürzt sich also nach oben raus. Da dieses Maß gleich Null sein kann, in dem Fall das ganze Produkt gleich Null, weil ich Null durch Null als Null definiert habe, komme ich noch auf eine obere Abschätzung durch kleiner gleich Anzahl summanten mn geteilt durch N.
17:02
Und wenn wir jetzt nochmal angucken, was galt für mn, für mn war kleiner als C Schlange mal H1 hoch D. Sehen wir, das Ganze ist kleiner gleich C Schlange mal N mal H1 hoch D. Daraus folgt dann Gleichung 4,8. Und mit Hilfe von Gleichung 4,8 haben wir auch Beziehung 4 gezeigt.
17:43
Ok, Fragen soweit? Fragen? Dann kommen wir noch zum Nachweis von 5.
18:38
Fünfte Bedingung wollten wir zeigen, die Summe der Quadrate der Gewichte. Davon der Erwartungswert kommt, der geht gegen Null.
18:44
Das heißt, abschätzen möchte ich Erwartungswert, Erwartungswert von Summe i gleich 1 bis n, wni von x zum Quadrat.
19:13
Ja, gucken wir uns das Ganze mal an. Das ist der Erwartungswert von Summe i gleich 1 bis n.
19:24
Wni von x, das war das Gewicht des i-Datenpunkts. Das war das k von x minus xi durch hn geteilt durch die Summe von diesen ganzen k-Werten.
19:43
Alles gleich quadriert, geteilt durch jetzt die Summe.
20:38
Jetzt weiß ich, k war der naive Kern. Der naive Kern nimmt nur Werte 0 oder 1 an.
20:43
Also k von z liegt in 0 in 1. Und wenn sie die 0 oder 1 quadrieren, dann kommt die gleiche Zahl raus. Das heißt, ich kann das Quadrat hier weglassen.
21:09
Dann sehen Sie als nächstes, ich habe im Zähler die Summe von k von x minus xi durch hn stehen. Im Nenner habe ich die entsprechende Summe zum Quadrat stehen.
21:22
Kann ich kotzen? Darf aber an der Stelle eine Sache nicht übersehen. Wir müssen aufpassen, wir dürfen nicht mit Null kotzen. Das heißt, wenn im Zähler und Nenner Null stehen, dann dürfen wir das nicht einfach wegkotzen. Sondern dann gibt es Ergebnis Null. Das heißt, ich mache hier noch den Indikator dran, dass der Zähler ungleich Null ist.
21:43
Und dann komme ich auf 1 durch diese Summe, mal den Indikator, dass die Summe größer Null ist.
22:26
Ach, so ein kleines Problem. Ich habe mein großes x durch kleine x ersetzt, was ich natürlich nicht unbedingt darf. Das heißt, ich muss hier eigentlich Groß x schreiben. Aber ich kann natürlich hier auch.
22:54
Ich kann natürlich anschließend Phobini anwenden, das Ganze als integriertes Integral schreiben und ganz außen integral bezüglich px dx schreiben.
23:11
Also ich integriere aus draußen, also mit Phobini kann ich in beliebiger Reihenfolge integrieren, weil die x, x1 bis xn unabhängig identisch verteilt sind. Und dann integriere ich außen bezüglich x, innen bezüglich dem Rest und den inneren Rest schreibe ich wieder als Erwartungswert.
23:34
Okay, gut. Jetzt setzen wir mal ein, was k war.
24:07
K war die Indikatorfunktion zur Kugel um Null mit Radius r. Das heißt, dieses k von x minus xj durch hn ist gleich eins oder null. Eins genau dann, wenn x minus xj durch hn in der Kugel drin ist.
24:22
Was das Gleiche ist, dass xj in der Kugel um x mit Radius hn mal R enthalten ist. Also ich kann das so umschreiben und das mal der entsprechenden Indikator.
25:41
Also einfach nur das k von x minus xj durch hn umgeschrieben. Als Indikatorfunktion, dass xj in der Kugel um x plus s0 R mal hn enthalten ist.
26:04
Okay, Fragen soweit? Okay, die Frage bezieht sich auf das Quadrat unter dem Bruchstrich. Das obere hier habe ich gestrichen und dann habe ich hier die Summe stehen und dadurch die Summe zum Quadrat.
26:21
Ich habe gekutzt. Das war der Trick. Aber bei dem Kürzen muss ich eben aufpassen. Wenn dieses Kürzen eigentlich die Null oben wäre, dann würde da Null durch Null stehen, was Null ist. Und deswegen habe ich hier noch diesen Indikator extra eingeführt. Okay, noch Fragen? Okay, dann mache ich jetzt noch einen Trick.
27:04
Und zwar, wenn Sie mal den Integranten angucken oder wenn Sie das ganze Ding hier angucken. Das ist eins durch so eine Summe. Und da werden natürliche Zahlen oder lauter Nullen und Einsen aufsummiert. Und das Null rauskommt, kann nicht sein.
27:23
Weil wenn hier unten Null steht, dann kommt insgesamt die Null raus, weil dann ist der Indikator gleich Null. Wenn nicht Null steht, steht hier mindestens eins. Das heißt, der Integrant ist auf alle Fälle kleiner als eins. Das heißt, ich weiß, der ganze Erwartungswert hier ist kleiner als eins. Und was ich jetzt mache, ich mache eine Abschätzung nach oben, indem ich hier nur über eine beliebige Kugel integriere S.
27:46
Und einfach den Rest sage, okay, der Rest ist das Maß von der, da schätze ich den Integranten durch eins ab. Es gibt dann Px von Sc. Und dann muss ich nur noch zeigen, dass der erste Summand für jede einzelne Kugel gegen Null geht.
28:05
Und dann konvergiert. Und dann weiß ich, der Lime superior von dem Ding ist klar nicht gleich als das Maß vom Komplement der Kugel. Ich lasse die Kugel gegen AD gehen und bin fertig.
28:21
Also nochmal ein Trick war die Beobachtung der Erwartungswerte. Hier steht es klar nicht gleich eins. Ich spalte es auf integral über eine Kugel plus integral über den Rest. Beim Integral über den Rest schätze ich den Integranten durch eins abbekommen als obere Abschätzung des Maßes der Kugel.
28:58
Okay, ich lasse mal die linke Tafelheft noch stehen, weil die brauche ich gleich noch.
29:08
Jetzt, was steht da oben auf der linken Seite? Die linke Seite, wenn Sie mal angucken, diese Summe J gleich eins bis N Indikatorfunktion von X, J Element X plus S null R mal H N. Die einzelnen Zufallsvarianten, die ich aufsummiere, nehmen nur die Werte null und eins an.
29:27
Sind unabhängig und identisch verteilt, weil die X eins bis X N unabhängig identisch verteilt sind. Damit kommt eine binomial verteilte Zufallsvariante raus. Und wir hatten ein Lemma.
29:40
Das war das Lemma 4344 über eine binomial verteilte Zufallsvariante, nämlich der Erwartungswert von eins durch B mal Indikatorfunktion, das B größer als null war für eine BNP verteilte Zufallsvariante, ist kleiner gleich als zwei durch N plus eins mal P.
30:06
Das heißt, das ganze Ding ist nach dem Lemma 444 kleiner gleich als Integral über S. Zwei durch N plus eins mal P ist jetzt die Wahrscheinlichkeit, dass die Indikatorfunktion gleich eins ist,
30:28
also PX von X plus S null R mal H N plus P von S Komplement.
31:00
Ja, und jetzt sehen Sie, jetzt kann ich die Gleichung 4,8 anwenden.
31:06
Den Faktor N plus eins ziehe ich raus, schreibe stattdessen N da unten hin, habe also einen Vorfaktor N durch N plus eins oder zweimal N durch N plus eins und kann das ganze abschätzen durch Z-Schlange durch N mal H N hoch D.
31:23
Also ich habe einen Vorfaktor 2 N durch N plus eins mal Z-Schlange durch N mal H N hoch D.
31:42
Und da wir wissen, dass N mal H N hoch D gegen endlich geht, folgt das Ganze konvergiert gegen P von S C für N gegen endlich.
32:01
Und das Ganze gilt für jede beschränkte Kugel S.
32:21
Für jede beschränkte Kugel S und null. Ja, jetzt sehen Sie, der Lime superior von dem Erwartungswert I gleich eins bis N WNI zum Quadrat, WNI von X zum Quadrat, ist kleiner gleich als P von S C für jede beschränkte Kugel S.
32:42
Sie lassen S von unten gegen RD gehen. P von S C geht gegen P von S Komplement geht gegen null. Sehen Sie, der Lime superior ist kleiner gleich null, also muss gleich null sein. Dann sind wir fertig. Also mit S RD folgt fünf.
33:32
Okay, Fragen soweit.
33:57
Dann sind wir fertig soweit mit dem Kapitel zur nichtparametrischen Regression.
34:02
Und ja, wir machen im nächsten Semester noch mehr zu. Ich mache eine Spezialvorlesung zur nichtparametrischen Regression, wo wir sicher noch tiefer einsteigen werden. Aber für die mathematische Statistik war es soweit. Und wir machen dann weiter mit Punktschätzungen. Da orientiere ich mich auch wieder am Skript weitgehend.
34:20
Also es kommen dann eine Kleinigkeit, ein Lämmer kommt, das nicht im Skript war, und ein ganzer Abschnitt am Schluss zur anderthalb Vorlesungen. Und der Rest der Vorlesungen ist dann auch folgend am Skript eigentlich. Weil das war der eigentliche Teil, der nicht im Skript war. Gut, aber ich würde sagen, vorher mache ich noch Pause zum Tafelwischen. Und wir machen dann um eine Minute nach halb weiter.
34:43
Ich wurde noch darauf hingewiesen, dass ich mich vorhin verschrieben hatte. Und zwar ich habe die drei Stellen mit blau markiert. Also da war natürlich kein P von SC, sondern das war jeweils, müssten wir einfach abschreiben, von oben das Px von SC. Das heißt das Bildmaß von der Zufallsvariable X vom Komplement von der Kugel.
35:03
Und da diese Maße eben immer stetig von oben sind, konvergieren diese Werte gegen Null. Ganz egal, was das zugrunde liegende Maß ist, wenn Sie die Kugel von unten gegen AD gehen lassen. Voraus folgt, dass eben das Komplement von oben gegen die leere Menge konvergiert.
35:23
Okay, kommen wir zum Kapitel 5, Punktschätzungen.
35:51
Problemstellungen kennen Sie eigentlich schon aus der Einführung in die Stochastik. Abschnitt 5.1.
36:15
Gegeben sind Realisierungen klein x1 bis klein xn von unabhängig identisch verteilten Zufallsvariablen groß x1 bis groß xn
36:22
mit Werten in einer Menge x, zum Beispiel dem R oben K.
37:11
Gegeben ist weiterhin eine Klasse von Verteilungen mit der Eigenschaft, dass eben dieses Px1 eine dieser Klassen ist.
37:40
Also gegeben ist eine Parametermenge und eine Klasse Wteta von Verteilungen.
38:08
Und schätzen wollen wir im Prinzip das Teta oder beziehungsweise ich mache es ein bisschen allgemeiner eine Funktion von Teta. Das heißt, ich gebe eine Funktion noch vor. Gegeben ist eine Funktion G von Teta nach R oben K.
38:28
Und gesucht ist eben eine Schätzfunktion Tn, die von dem klein x1 bis klein xn abhängt.
38:42
Oder Tn eigentlich von diesem x hoch n nach R oben K.
39:05
Mit der ich eben ausgehend von x1 bis xn das G von Teta schätzen kann durch Tn von x1 bis xn.
39:33
Mit der man ausgehend von x1 bis xn den unbekannten Wert G von Teta schätzen kann durch...
40:11
Im Prinzip die Parametermenge kann noch beliebig allgemein sein. Das heißt, Teta könnte auch die Menge aller Verteilungen sein, die es überhaupt gibt. Die wird dann die Verteilung durch sich selber parametrisieren,
40:21
sodass es eigentlich keine Einschränkung ist. Aber wir werden es meistens so machen, dass das schon eine parametrische Familie sein wird. Vielleicht eine Menge von Normalverteilungen, Menge von Exponentialverteilungen und so weiter. Das heißt, die Verteilung des Artes bekannt, nur der Parameter fehlt. Es geht dann erst mal um die Frage, wie konstruieren wir solche Schätzungen?
40:42
Da kennen Sie schon einiges aus der Einführung die Stochastik. Ich werde noch zwei neue Prinzipien vorstellen. Die UNV-Schätzer, wo aber nicht arg viel dahinter steckt. Ich werde Maximum-Likelihood ein bisschen anders motivieren als was bisher kannten. Also ein bisschen mathematischer eigentlich. Es geht dann um die Frage, was ist ein gutes Schätzverfahren?
41:02
Was ist ein optimales Schätzverfahren? Da werde ich Ihnen einige Begriffe vorstellen. Wir werden uns dann beschäftigen oder konzentrieren auf die gleichmäßig festen Erwartungstreuen-Schätzer. Die kann man erst mal ad hoc konstruieren. Und dann mit einer Abschätzung nach unten der sogenannten Kramerau baunt,
41:22
kann man dann die Optimalität nachweisen, zumindest in Spezialfällen. Und wir werden ganz am Schluss noch ein allgemeines Prinzip kennenlernen, das Prinzip der Suffizienz, mit was uns ermöglichen wird, als der Trick hier dran ist, die Stichprobe zu vereinfachen. Zu sagen, okay, statt dieser ursprünglichen Stichprobe gucke ich mir etwas Einfacheres an.
41:44
Also wenn Sie sich vorstellen, Sie haben eine Stichprobe von B1P verteilten Zufallsvariablen vorliegen. Sie wollen den Wert von P schätzen. Dann ist eigentlich dieses, da die Zufallsvariablen unabhängig identisch verteilt waren, ist eigentlich die Reihenfolge, in der die Nullen und Einsen auftritt, gar nicht interessant.
42:00
Das heißt, man kann sich im Prinzip überlegen, sollte eigentlich genügen, statt der ganzen Stichprobe einfach nur die Anzahl der Einsen in der Stichprobe anzugucken. Dann hätte ich die ganze Stichprobe vom N-dimensionalen auf das Eindimensionale reduziert. Das macht der Begriff der Suffizienz. Okay, aber wir fangen mal an mit einem Beispiel, was Sie eigentlich auch schon kennen. Das ist die Einführung, die Stochastik.
42:23
Wir machen es mit Normalverteilung, theta gleich R, Kreuz R plus, W mu sigma Quadrat sei gleich die N mu sigma Quadratverteilung.
42:50
Und ich betrachte ein G von theta nach R mit G von mu sigma Quadrat gleich sigma Quadrat.
43:12
Und was ich dann eigentlich will, ist, ich möchte die Varianz schätzen, ausgehend von einer Stichprobe der Normalverteilung. Das heißt, ich habe eine Stichprobe gegeben. Ich setze voraus, es wäre eine Normalverteilung und ich möchte die Varianz schätzen.
43:55
Schätze Varianz ausgehend von Stichprobe einer Normalverteilung mit unbekannten Erwartungswerten und unbekannter Varianz.
44:30
Und das wissen Sie alle, wie man das machen könnte. Sie könnten Maximum-Light-Yield-Schätze hier basteln. Das werden wir auch mal, ich glaube, in der nächsten Vorlesungsstunde machen. Da kommt dann bis auf den Vorfaktor die empirische Varianz raus.
44:41
Oder als erwartungstreuen Schätz, da können Sie eben die empirische Varianz nehmen. Okay, Fragen soweit?
45:15
Welche Rolle spielt das G? Macht es schwerer oder leichter, einen Schätzer zu bauen? Kann beides sein, aber normalerweise wird es eben der Fall sein,
45:21
dass es ein Teil der Parameter rausgreift. Oder irgendeine Eigenschaft rausgreift. Es kann ja sein, man hat es mit irgendwas parametrisiert, was eigentlich gar nicht interessant ist, wo der Parameter gar keine Bedeutung hätte. Aber eigentlich wollen Sie vielleicht eher einen Erwartungswert kennen. Aber Sie können sagen, wenn Sie parametrisiert haben, dann wird der Erwartungswert wieder festgelegt durch die Parameter.
45:40
Oder sowas. Also Parameter sind eben vor allem auch dann interessant, wenn sie irgendeine anschauliche Bedeutung haben. So wie bei der Normalverteilung. Bei der Normalverteilung haben Sie hier einen Erwartungswert, hier die Varianz. Im Prinzip können Sie immer sagen, ja, ich möchte eigentlich eine Verteilung angucken.
46:04
Deswegen möchte ich hier den Parameter bekommen. Aber das formuliert es halt ein bisschen allgemeiner. Falls eben nicht der eigentliche Parameter im Mittelpunkt steht.
46:21
Okay, noch Fragen? Oder vielleicht noch als Antwort. Dieses G ermöglicht mir auch, dass ich mich hier zurückziehe auf den R ober K. Damit bin ich im euklidischen Raum. Und damit kann ich später eine schöne Schätztheorie aufmachen.
46:42
Ich habe sofort irgendwie eine Art von Fehler, wo ich sagen kann, ich mache irgendwie einen Abstandsbegriff, habe ich gegeben. Während das habe ich hier mit meiner abstrakten Parametermenge unter Umständen nicht. Okay, dann muss ich nochmal wischen.
47:31
Komme ich zur Abschnitt 5.2, Konstruktion von Punktschätzungen.
48:03
Ich stelle Ihnen drei Sachen vor. UNV-Schätzer und dann die Maximum-Like-Leak-Schätzer. Bei den UNV-Schätzern werden wir voraussetzen, dass wir dieses G von theta speziell schreiben können. Also wir behandeln zunächst UNV-Schätzer, bei denen wir annehmen.
48:48
Und zwar nämlich an, dass ich dieses G von theta als interiertes Integral bezüglich der Verteilung B theta schreiben kann. Das heißt G von theta, L-faches Integral, H von z1 bis zL.
49:09
Dann W theta d z1 bis W theta d zL.
49:41
Okay, was heißt es anschaulich? Nehmen Sie mal an, Erwartungswert von x1, also das G von theta wäre gerade der Erwartungswert. Den können Sie natürlich schreiben als ein Integral von x, W theta, oder von z1, W theta d z1.
50:02
Oder als zweites nehmen Sie an, Sie haben die Varianz, die Varianz von x1. Sie wissen, die Varianz ist der Erwartungswert von x1 zum Quadrat minus ex in Klammern zum Quadrat. Oder ich schreibe es direkt, ich mache hier noch ein theta dran, um anzudeuten, bei warmen Parameter theta.
50:28
Hier auch. Ich schreibe es direkt mal als x1 minus x2 mal x1, wenn x1 und x2 unabhängig identisch verteilt sind.
50:48
Wenn Sie es dann angucken, dann kommt da eigentlich raus, der Erwartungswert bewahren Parameter theta von x1 Quadrat minus x2 mal x1.
51:00
Können Sie aufeinanderspalten, das erste gibt einfach den Erwartungswert vom Quadrat. Und das zweite, aufgrund der Unabhängigkeit, gibt das Produkt von den beiden identischen Erwartungswerten, also Erwartungswert in Klammern zum Quadrat. Und das können Sie jetzt wieder schreiben als doppeltes Integral z1 minus z2 mal z1 b theta d z1 b theta d z2.
51:41
Also wenn unsere Funktion, was uns interessieren würde, G von theta, eben gerade den Erwartungswert oder die Varianz beschreibt, dann hätte sie genau so eine Darstellung. Lässt sich als iteriertes Integral bezüglich der Verteilung von theta schreiben.
52:11
Ja, und dann sehen Sie, was uns eigentlich interessiert sind, Größen, die abgeleitet sind aus der zugrunde liegenden Verteilung. In was wir jetzt einfach machen, wir nehmen Schätzer für die zugrunde liegende Verteilung und Standardschätzer wäre die
52:25
empirische Verteilung und setzen die einen in die Formeln und bekommen Schätzwerte für die Ausdrücke, die hier stehen. Also i mu n die empirische Verteilung zu x1 bis xn, also mu n von a wäre 1 durch n, weil die Summe i gleich 1 bis n i a von x i.
53:25
Bei V-Schätzern wird b theta durch mu n geschätzt und anschließend das entsprechende Integral als Schätzer von g theta verwendet.
54:06
Also wie sieht unser Schätzer aus? Unser Schätzer ist so ein Tn von x1 bis xn.
55:00
Ich nehme einfach das obige Integral und ersetze b theta durch mu n.
55:54
Also eigentlich eine recht primitive Schätzmethode. Ich habe die zu schätzende Größe als Ausdruck oder Funktion von b theta dargestellt und ersetze einfach darin das b theta.
56:15
Für eine Anwendung brauchen wir natürlich noch einen konkreten Wert. Das heißt, wir müssen das jetzt in Abhängigkeit von den x1 bis xn ausdrucken.
56:25
Haben Sie einen Vorschlag, was da rauskommt? Also was passiert, wenn Sie eine Funktion bezüglich dem empirischen Maß integrieren?
56:51
Es gibt eine Summe von Punktauswertungen, 1 bis xn und die Summe noch, einfach die Summe mal 1 durch n.
57:10
Ist das klar? Das empirische Maß macht Masse 1 durch n hin. Also Sie machen sich irgendwie klar, wenn Sie Integral f d mu n haben, dann kommt da gerade 1 durch n Summe i gleich 1 bis n f von x hier raus.
57:32
Und warum? Wir überlegen uns mal dieses mu n.
57:41
Also ich schreibe dieses mu n einfach als Summe von Maßen. Und zwar das ist 1 durch n i gleich 1 bis n Diracmaß an der Stelle delta an der Stelle x i, 0 sonst.
58:15
Und Sie machen sich leicht klar, das eben als entsprechendes Operation aufgewendet an jetzt an Funktionen.
58:24
Das heißt, der Funktionswert von dieser Linearkombination ist einfach die entsprechende Linearkombination der Funktionswerte. Und Sie machen sich jetzt klar, wenn Sie bezüglich so einer, ich schreibe es hier immer noch hin,
58:40
wenn Sie jetzt bezüglich so f d 1 durch n i gleich 1 bis n delta x i integrieren, das heißt, abstrakt eigentlich, wenn Sie bezüglich einer Linearkombination von Maßen integrieren, dann kommt einfach die Linearkombination der entsprechenden Integrale raus.
59:09
Und beim Diracmaß kommt direkt der Funktionswert raus. Das heißt, Sie überlegen sich abstrakt, ich habe zum Beispiel eine Summe von zwei Maßen,
59:21
integriere bezüglich einer Summe von zwei Maßen, das ist die entsprechende Summe der Integrale. Warum? Na ja, es ist trivial, wenn da eine Indikatorfunktion steht und dann ziehen Sie es entsprechend hoch auf nicht negativ einfache Funktion, nicht negative Funktion und allgemeine Funktion. Genauso machen Sie sich klar, wenn da ein Maß mal ein Faktor steht und Sie integrieren bezüglich dem,
59:42
dann kommt einfach Faktor mal das ursprüngliche Integral raus, also Integral bezüglich dem ursprünglichen Maß. Wieder trivial für eine Indikatorfunktion und dann hochziehen. Ja, dann machen Sie das hier und dann sehen Sie, dann kann ich diese ganzen ...
01:00:01
arithmetische Mittel der Dirakmaße rausziehen und das Dirakmaß am Fluss ausgewertet gibt einfach den festen Funktionswert. Das heißt, ich komme hier auf 1 durch n hoch l, Summe i1 gleich 1 bis n, i l gleich 1 bis n, h von x i1, x i l.
01:01:12
Okay, war das klar soweit oder ging es zu schnell?
01:01:23
Also ich hatte vor zwei Jahren noch eine Übungsaufgabe draus gemacht und diesmal jetzt nicht, aber ich glaube, ist trotzdem okay, hoffe ich mal. Also Sie machen sich eben klar, wenn Sie bezüglich so einer Linealkombination von Maßen integrieren, dann ist es einfach die entsprechende Linealkombination der Integrale.
01:01:43
Und dann ist es klar, das empirische Maß ist nichts anderes als die entsprechende Linealkombination der Dirakmaße. Sie können diese ganzen Linealkombinationen rausziehen, die Dirakmaße ausgewertet gibt einfach Funktionswerte an den festen Stellen. Fertig. Okay, als Beispiel V-Schätzer der Varianz und also g von Teta.
01:02:24
Und das sei jetzt hier so paramerisiert, dass es gerade die Varianz von x1 ist. Und wie schon oben geschrieben ist es eben gerade z1 minus z2 mal z1.
01:03:07
Ja, jetzt machen Sie das, dann kommen Sie eben entsprechend, ja, ich könnte jetzt die Mühen einsetzen oder ich kann auch direkt die Formel von da oben nehmen. Also Tn von x1 bis xn. Also hier 1 durch n², dann Summe i gleich 1 bis n, g gleich 1 bis n, xi minus xj mal xj, oder mal xi war das hier.
01:04:05
Dann sehen Sie, jetzt können Sie ausmultifizieren, das gibt xi² minus xi mal xj. Die Summen auseinanderziehen, kommen Sie über die Doppelsumme über xi² geteilt durch n². Die hängt von j gar nicht mehr ab. Das heißt, die erste Summe gibt 1 durch n, Summe i gleich 1 bis n, xi².
01:04:27
Während die zweite Summe, 1 durch n² mal Summe i gleich 1 bis n, j gleich 1 bis n, xi minus xj, können Sie das xi nach vorne ausklammern, dann können Sie die ganze Summe auseinanderziehen.
01:04:41
Dann sehen Sie, dann bleibt da eigentlich noch übrig, 1 durch n² mal Summe i gleich 1 bis n, xi². Sie ziehen das 1 durch n² noch in die Summe rein, kommen Sie auf 1 durch n, Summe i gleich 1 bis n, xi²,
01:05:08
minus dieses arithmetische Mittel in Klammern zum Quadrat.
01:05:21
Und jetzt können Sie das wieder zusammenfassen als arithmetisches Mittel von Summe i gleich 1 bis n,
01:05:44
in Klammern xi minus arithmetisches Mittel der xj zum Quadrat. Das sich leicht klar machen, wenn Sie die rechte Seite ausmultipizieren. Rechte Seite ausmultipizieren, Sie bekommen die Quadrate. Und der gemischte Thermo und das hintere Quadrat geben zusammen gerade dieses Minus, das arithmetische Mittel zum Quadrat.
01:06:06
Also hier rechte Seite ausmultipizieren.
01:06:41
Okay, und Sie sehen, Sie kommen hier eigentlich bis auf den Vorfaktor 1 durch n bzw. 1 durch n minus 1 auf die empirische Varianz, aber eben nicht genau auf die empirische Varianz.
01:07:05
Fragen soweit?
01:07:26
Machen wir als nächstes eine Variante davon, das sind die U-Schätzer. Was ich bei den U-Schätzern anders mache, ist ein kleiner Trick. Ich nehme direkt diese Summendarstellung und ich mache die Summendarstellung so,
01:07:41
dass ich die Summanden, wo eines der xi mehrfach vorkommt unter den xi1 bis xil, dass ich die weglasse. Und das wird den Vorteil haben, dass der Schätzer unverzerrt sein wird. Das heißt, der Erwartungswert des Schätzers wird mit dem wahren Therm übereinstimmen, wie Sie eigentlich dann fast sofort sehen werden.
01:08:04
Also Variante des V-Schätzers ist der sogenannte U-Schätzer.
01:08:24
Ich ziehe ihn quer durch 1 bis xn. Ich habe jetzt weniger Summanden an der Seite der Summanden. In der ersten Summe habe ich noch n, in der zweiten nur noch n minus 1, in der letzten n minus l plus 1.
01:08:49
Dann summiere ich über i1 von 1 bis n, der Erwartungswert über i2 von 1 bis n.
01:09:02
Aber unter Nebenbedingungen, dass i2 ungleich i1 ist, bis über il gleich 1 bis n. Jetzt aber unter Nebenbedingungen, i2 ist ungleich i1, i3 ist ungleich...
01:09:26
Eigentlich müssten alle paarweise verschieden sein. Das heißt, hier müsste eine stehen, ij ungleich ik.
01:09:43
Ich brauche il muss ungleich i1 sein, il muss ungleich i2 sein und so weiter. Bis il muss ungleich il minus 1 sein und dann der gleiche Summand, also h von xi1 bis xil.
01:10:28
Ich habe einfach die Summanden, wo ein xi eben mehrfach bei den xi1 bis xil vorkommt, weggelassen. Der Vorteil ist, diese U-Schätzer sind immer erwartungstreu oder auch unverzerrt.
01:10:56
Der englische Begriff Unbiased, und Sie sehen damit auch, wie der Name U-Schätzer zustande kam.
01:11:15
Der U-Schätzer kommt eben von dem Unbiased. Und der V-Schätzer ist eben dann die Ableitung von dem U-Schätzer.
01:11:22
Das erklärt die Namen. Unbiased im Sinne von Definition 5.1.
01:11:44
Unsere Schätzfunktion Tn heißt erwartungstreu für G von Teta. Falls für alle Teta aus Teta gilt, der Erwartungswert bei Warnparameter Teta von Tn von groß x1 bis groß xn ist G von Teta.
01:12:28
Falls für alle Teta aus Teta gilt, Erwartungswert bei Warnparameter Teta von Tn von x1 bis xn ist gleich G von Teta.
01:13:16
Ich sollte noch dazuschreiben, was meine ich mit dem eTeta von Tn von x1 bis xn.
01:13:20
Also hierbei wird bei dem Erwartungswert eben sind die x1 bis xn unabhängig identisch verteilt mit Verteilung WTeta. Also hierbei wird bei E-Index Teta der Erwartungswert berechnet für x1 bis xn unabhängig identisch verteilt mit Px1 gleich WTeta.
01:14:42
Okay, Fragen soweit?
01:15:11
Okay, also bei dem V-Schätzer ist klar, wenn ich die Reihenfolge der Xi verändere, kommt der gleiche Schätzer raus. Aber eigentlich auch bei dem U-Schätzer, wenn Sie sich überlegen, was ich da hingeschrieben habe,
01:15:23
ist eigentlich das arithmetische Mittel aller derjenigen H von Xi1 bis XiL, wo die Indizes eben paarweise verschieden sind. Eigentlich sind es einfach nur alle. Weggelassen habe ich genau die, wo irgendwelche gleich sind.
01:15:45
Na gut, man sieht es nicht so richtig, aber so sollte es eigentlich sein. Das ist ja der sinnvolle Schätzer, und es müsste eigentlich die Formel, die da vorne steht, auch sein.
01:16:04
Also der Erste durchläuft noch alle, der Zweite alle bis auf den Ersten, der Dritte alle bis auf den Ersten und den Zweiten und so weiter. Und das sollten letztendlich alle geben, die ...
01:16:30
Okay, aber das H sollte eigentlich sinnvollerweise symmetrisch sein.
01:16:44
Weil wenn Sie das Ding als iteriertes Integral schreiben, dann ... oder? Nee, eigentlich nicht. Also Sie meinen, das sind nicht alle?
01:17:09
Ja klar, es sieht nicht so aus, als wäre es gleich. Das gebe ich zu. Aber ich würde trotzdem sagen, es sind alle. Alles andere wäre unsinnig.
01:17:21
Aber ich muss drüber nachdenken. Ich sehe es auch nicht sofort. Aber ich denke mal drüber nach, okay? Also nachdem ich die eine Frage schon so erfolgreich beantwortet habe, sind vielleicht noch weitere Fragen. Aber ich habe noch zwei Minuten. Also ich kann noch eine Sache hinschreiben, nämlich die U-Schützer sind erwartungstreu da.
01:18:00
Naja, wenn wir uns überlegen, der Erwartungswert theta von so einem T in quer von groß x1 bis groß xn, setzen Sie einfach mal die ... Versetzen Sie die kleinen xi durch die groß xi.
01:18:21
Dann haben Sie dieses arithmetische Mittel da oben. Dann können Sie den Erwartungswert reinziehen. Und dann ist klar, die gemeinsame Verteilung von xi1 bis xil ist gleich der gemeinsame Verteilung von x1 bis xl, wenn die Indizes paarweise verschieden sind.
01:18:54
xl für i1 bis il element 1 bis n, paarweise verschieden.
01:19:12
Und dann gibt es eben gerade den Erwartungswert bei wahren Parameter theta von h von x1 bis xl.
01:19:30
Und dann nutzen Sie eben aus, die Verteilung von xi ist gerade b theta, wenden noch fobini an und kommen eben genau auf dieses interierte Integral.
01:19:42
Und das war nach Voraussetzung g von theta.
01:20:15
Okay, also das ist eigentlich einfach zu sehen. Sie schreiben einfach den Erwartungswert da oben hin, ziehen in die Summe rein, nutzen aus.
01:20:25
Bei den Summanden integrieren Sie eben bezüglich der gemeinsamen Verteilung. Wenn die ursprünglichen Zufallsvariablen unabhängig identisch verteilt waren und Sie greifen dann diese Zufallsvariablen paarweise verschieden in beliebiger Reihenfolge raus, dann stimmt das halt mit der Verteilung von x1 bis xl überein.
01:20:40
Deswegen steht hier dieser Erwartungswert, was dann dieses Integral ist, was nach Voraussetzung gerade g von theta ist. Okay, damit war ich für heute fertig und wir sehen uns dann am Donnerstag.