We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Gleichmäßig beste erwartungstreue Schätzer

00:00

Formal Metadata

Title
Gleichmäßig beste erwartungstreue Schätzer
Title of Series
Part Number
11
Number of Parts
28
Author
License
CC Attribution - NonCommercial - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Aufgabe der Statistik ist es, Rückschlüsse aus Beobachtungen zu ziehen, die unter dem Einfluss des Zufalls enstanden sind. Diese Vorlesung gibt eine umfassende Einführung in die zugehörige mathematische Theorie. Behandelt werden u.a.: Hauptsatz der Mathematischen Statistik, Dichteschätzung, nichtparametrische Regressionsschätzung, Punktschätzverfahren, statistische Tests, Bereichsschätzverfahren.
EstimatorMaximum likelihoodExpected valueRandom variablePopulation densityMinimax-PrinzipWeight functionParameterraumParameter (computer programming)AverageLogarithmMaximum (disambiguation)SummationSupremumBerechnungGleichverteilungLikelihood functionDerived set (mathematics)Minimax-SchätzungEstimationPredictionMittelungsverfahrenFunction (mathematics)
Social classUntere SchrankeMathematical optimizationEstimatorOptimumWeight functionRoundingRandom variableFunction (mathematics)StatisticsModulo (jargon)Parameter (computer programming)RisikofunktionEstimationSchätztheorieBayes-VerfahrenPanel painting
EstimatorExpected valueMittelungsverfahrenVarianceParameter (computer programming)ZahlSocial classStatisticsOptimumFunction (mathematics)Random variableStatistikerLecture/Conference
Greatest elementEstimatorZusammenhang <Mathematik>SquareReal numberSocial classVarianceThomas BayesDichteschätzungExpected valueParameter (computer programming)CodomainTheoryEstimationDeutsche Mathematik OlympiadeLecture/Conference
VarianceEstimationAutocovarianceHerleitungEstimatorSquareRandom variableExpected valueUntere SchrankeNumberSequenceLink (knot theory)ForestInequality (mathematics)Lecture/Conference
VarianceParameter (computer programming)Expected valueChain rulePopulation densityDerived set (mathematics)WahrscheinlichkeitsmaßLogarithmSet (mathematics)MassSummationEquationAbschätzungMathematical structureSigma-algebraSubsetCalculationTermumformungUntere SchrankeLikelihood functionReal numberEuklidischer RaumAutocovarianceBlock (periodic table)ModulformProduct (category theory)Function (mathematics)Lecture/Conference
VarianceExpected valueSquareAbschätzungTerm (mathematics)SummationTermumformungPopulation densityProbability theoryRandom variableAutocovarianceMetreLecture/Conference
Expected valueDerived set (mathematics)TermumformungPopulation densitySet (mathematics)LogarithmINTEGRALFunction (mathematics)VarianceParameter (computer programming)SquareNumberEnde <Graphentheorie>MetreProduct (category theory)AutocovarianceLecture/Conference
Transcript: German(auto-generated)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung. Ich fange wie immer mit einer Wiederholung vom, oder Kurzwiederholung vom letzten Mal an. Wir haben behandelt beim letzten Mal erstens eine Motivation für den Maximum-Likelihood-Schätzer.
Ist x eine RD-wertige Zufallsvariable mit Dichte f von RD nach R? So gilt, der Erwartungswert von Logarithmus von f von x ist das Maximum über alle Dichten vom Erwartungswert vom Logarithmus von g von x.
Die Idee ist nun, den obigen Ausdruck durch eine empirische Variante zu schätzen und dann diesen zu maximieren. Das führt einerseits auf den Log-Likelihood-Schätzer, Tether-Dach als dasjenige Kleintether aus Großtether, für das 1 durch n Summe i gleich 1 bis n Log von f Tether von x, die maximal wird.
Wobei, ob Sie da das 1 durch n schreiben oder nicht, spielt überhaupt keine Rolle. Und dann können Sie es umformulieren, zumindest dann, wenn die Dichten ungleich 0 sind, aufgrund der Tatsache, dass der Logarithmus monoton ist. Zum üblichen Maximum-Likelihood-Schätzer Tether-Dach ist dasjenige Tether aus Großtether,
für das es Produkt i gleich 1 bis n f Tether von x, die maximal wird. Wir haben uns dann weiter beschäftigt mit dem Begriff des optimalen Schätzverfahrens.
Ich habe das definiert, indem ich eine Verlustfunktion eingeführt habe, Funktion von R oben K nach R, Kreuz R oben K nach R plus, die den Verlust beschreiben soll bei Vorhersage von G von Tether durch Tn von x, 1 bis x, n. Und wir versuchen dann den Verlust im Mittel zu minimieren.
Das heißt, wir betrachten das Risiko einer Schätzfunktion R Tn an der Stelle Tether, ist der Erwartungswert bei warmen Parameter Tether von L von Tn von x, 1 bis x, n, G von Tether. Und dieser mittlere Verlust soll eben für alle Tether so klein wie möglich sein.
All dieses Risiko soll minimal sein für alle Tether aus Großtether im Vergleich zu allen anderen Schätzfunktionen. Und wir haben dann schon gesehen, das ist im Allgemeinen leider nicht möglich. Stattdessen, also wenn das nicht geht, das wäre die naheliegende Variante, kann man sich überlegen,
wie kann man es modifizieren, also abschwächen, sodass es doch noch geht. Und das eine, was wir schon gesehen haben, war das sogenannte Minimax-Prinzip. Da minimiert man das maximale Risiko. Das heißt, wir gucken uns das Supremum über alle Tether von R Tn von Tether an und wählen die Schätzfunktion Tn so, dass dieser Ausdruck minimal wird.
Also in jeder einzelnen Situation beurteilen wir den Schätzer dahingehend, wie er sich eben verhält, im ungünstigsten Fall. Okay, dann Prüfungsfragen. Da gibt es zwei zum Maximum-Likelihood.
Frage 15. Was versteht man unter einem Maximum-Likelihood-Schätzer? Berechnen Sie diesen A als Schätzer für den Parameter Tether einer Poisson-von-Tether-Verteilung, B als Schätzer für den Parameter μσ² einer N-μ-Sigma-Verteilung,
das war genau das Beispiel aus der Vorlesung, und C als Schätzer für den Parameter A aus R plus ohne Null einer Gleichverteilung auf dem Intervall A bis 3A. Da muss man eben beachten, im Fall C wird die Likelihood-Funktion nicht differenzierbar sein. Das heißt, da hat es auch keinen Sinn, irgendeine Ableitung gleich Null zu setzen.
Dann 16. Begründen Sie, ist X RD-wertige Zufallsvariable mit Dichte F und ist G von RD nach R eine beliebige Dichte, so gilt der Erwartungswert von log F von X ist größer gleich Erwartungswert von log G von X. Inwiefern kann man damit die Definition von log-likelihood-Schätzern motivieren.
Das war das Lemma von gerade eben. Also wenn Sie es unter Toucan runterladen, da habe ich den Logarithmer schon reingeschrieben gehabt, aber ich habe es hier vergessen, auf Folie zu korrigieren. Okay, Fragen soweit? Ich sehe mal keine. Dann müsste ich das noch beiseite schieben.
Und dann mache ich weiter zur Möglichkeit, zur Definition eines optimalen Schätzerfahrens. Wir haben gerade gesehen, das Minimax-Prinzip versucht zu minimieren das maximale Risiko. Anderes Prinzip ist das sogenannte Bayes-Prinzip. Hier geben wir uns eine Gewichtung der einzelnen Risiken vor
und minimieren dann dieses so gewichtete Risiko. Also Möglichkeit 2, Bayes-Prinzip.
Wir geben eine Verteilung rho auf den Parameterraum theta vorgegeben.
Die a priori Information über das Auftreten der einzelnen Parameter enthält. Die soll eigentlich beschreiben, mit welcher Wahrscheinlichkeit treten die einzelnen Parameter auf.
Die a priori Information über das Auftreten der einzelnen Parameter enthält.
Und minimiert dort dann das mittlere Risiko bezüglich rho.
Das heißt, wir gucken uns, also wir haben ja, wenn wir eine Schätzfunktion vorgeben, bekomme ich einen Risikowert für jedes einzelne theta, RTn von theta. Und diesen Risikowert integriere ich jetzt bezüglich rho de theta, also ich berechne einen Mittelwert davon und bezüglich dem soll mein optimales Verfahren optimal sein.
Das heißt, integral über theta, integral über theta, RTn, opt von theta, rho de theta,
soll gleich dem Infimum über alle Schätzfunktionen tn sein, vom Integral über RTn von theta, rho de theta.
Wenn Sie das jetzt vergleichen mit dem Minimax-Prinzip, sehen Sie irgendwelche Vor- oder Nachteile.
Wir brauchen eine gewisse Anfangsinformation über die möglichen Werte des Parameters, die der Parameter annehmen wird, das ist richtig. Das heißt, das sehe ich mal als Nachteil, weil wir brauchen mehr.
Sie können es nach oben mit dem Risiko von einem Minimax-Schätzer abschätzen. Das heißt, es ist klar, dieses mittlere Risiko ist klarer gleich als das Minimax-Risiko. Aber ich minimiere natürlich jetzt nicht das Minimax-Risiko, sondern das mittlere Risiko.
Also ich meine, das bringt mir nichts bezüglich, um zu sehen, ob das eine Verfahren jetzt mindestens so gut ist wie das Minimax-Verfahren oder sowas. Aber ist richtig.
Okay, Vorschlag ist, man kann hier additiv arbeiten, man könnte erst mal ein bisschen schätzen, Informationen sammeln über das Roh und dann wieder damit weitermachen. Das macht man zum Teil im Base-Verfahren. Da gibt es eine a priori-Verteilung, dann eine a posteriori-Verteilung, wenn man die Daten mit einbezieht.
Also der ganz klare Nachteil ist, wir brauchen eben mehr Information. Aber auf der anderen Seite ein gewisser Vorteil ist eben, man kann gewisse Dinge als unwahrscheinlich einschätzen und die dann nicht so stark in die Minimierung einfließen lassen. Das hat natürlich einen sehr großen Vorteil.
Also wenn man sich für das praktische Leben überlegt, im praktischen Leben wird man auch nicht alle Fälle normalerweise gleich betrachten und versuchen, das maximale Risiko bezüglich allen Fällen zu minimieren, sondern sie würden so eine gewisse Gewichtung nehmen. Wenn die Sachen mit nur sehr, sehr kleiner Wahrscheinlichkeit auftauchen, würden sie es unter Umständen noch tolerieren.
Das ist unter Umständen realistischer. Aber andererseits hat eben den ganz klaren Nachteil, sie brauchen dieses Roh zusätzlich. Okay, wir könnten beides im Prinzip machen. Das hat man in den 70er Jahren häufig gemacht. Dann gab es dann so eine allgemeine Schätztheorie in der Statistik,
wo man dann so Bayes-Verfahren hergeleitet hat, Minimax-Verfahren. Das bringt aber nicht so arg viel. Ich mache deswegen beides nicht. Ich mache was Drittes, was relativ schnell geht. Und das ist die Möglichkeit 3, die ich Ihnen vorstellen werde.
Und die Möglichkeit 3 ist die Einschränkung der Klasse der betrachteten Schätzfunktion.
Wir betrachten nur Schätzfunktionen aus einer vorgegebenen Klasse Delta von Schätzfunktionen mit gewissen Eigenschaften wie zum Beispiel Erwartungstreue und minimieren dann Risiko innerhalb dieser Klasse. Also betrachte nur Schätzfunktionen aus einer vorgegebenen Klasse,
vorgegebenen Klasse Delta von Schätzfunktionen mit gewissen Eigenschaften.
Und was wir da konkret betrachten werden, ist die Erwartungstreue. Das heißt wir werden fordern, wenn wir einen Schätzer verwenden,
dann sollte er auch gefälligst Erwartungstreu sein. Und alle anderen Schätzer lassen wir zum Vergleich gar nicht mehr zu. Zum Beispiel Erwartungstreue.
Und minimiere dann Risiko innerhalb dieser Klasse.
Also was wir haben wollen, wir wollen TN Opt finden, was eben in der Klasse drin ist. Und jetzt soll es die Eigenschaft haben,
das Risiko innerhalb dieser Klasse soll minimiert werden und zwar gleichmäßig. Das heißt für alle Theta aus Theta und für alle TN aus dieser Klasse soll das Risiko von R an Top an der Stelle Theta eben klarer gleich sein als dem Risiko von dem TN.
Und Sie können sich vorstellen, wenn ich sowas zum Beispiel mit Erwartungstreue mache, dann bricht mein Beispiel vom letzten Mal, dass eben so eine gleichmäßige Minimierung nicht möglich ist zusammen. Weil der Schätzer war garantiert nicht erwartungstreu. Der Schätzer beim letzten Mal, der hatte einfach nur die Idee gehabt,
ja ich vergleiche mein TN Opt eben mit einem Schätzer, der einen festen Wert immer annimmt. Der ist natürlich für den einen Parameter erwartungstreu, aber für alle anderen nicht mehr. Und es stellt sich jetzt eben raus, wenn ich das schlau einschätze, einschränke, zum Beispiel für Erwartungstreue und dann die Risikofunktion noch ein bisschen,
die Verlustfunktion noch ein bisschen einschränke oder eine spezielle nehme, dann schaffe ich so etwas. Okay, im Folgenden kommt jetzt die Untersuchung von Möglichkeit 3.
Okay, Fragen soweit?
Also was wir jetzt weitermachen, wir werden heute uns erstmal noch ein bisschen genauer überlegen, was die Möglichkeit 3 ist, da ein bisschen was definieren. Und dann werden wir heute und beim nächsten Mal optimale Schätzfunktion in dem Sinne herleiten,
indem wir eine untere Schranke für das Risiko von Schätzfunktionen herleiten, die sogenannte Grammarao baut und wird keine, im Allgemeinen ist die Schranke nicht scharf, aber manchmal eben doch. Und dann wird es uns gelingen, damit in einfachen Fällen Huk-Zuk nachzuweisen,
dass ein Schätzverfahren in der Tat diese Optimalitätseigenschaft hat. Danach werde ich noch ein bisschen auf, also das wird entlang des Skriptes gehen, also heute vorläufig und nächste Vorlesungsstunde auch. Dann kommen noch Beispiele dazu, auch aus dem Skript. Und danach brauche ich noch mal zwei Vorlesenstunden mit etwas Neuem, nämlich Suffizienz,
und verlasse nochmal das Skript. Wurde aber ganz lustig, das Neue, muss ich sagen. Ich habe glaube ich drei Wochen gebraucht, bis ich das so aufschreiben konnte, dass man es nachvollziehen kann in dem Setting. Es kommt eine ganz lustige Idee rein.
Kommen wir zur Abschnitt 5.4, der Begriff des optimalen Erwartungstreuen Schätzers.
Okay, was haben wir vor? Ich wiederhole es nochmal als Ziel. Wir schätzen G von Teta ausgehend von unabhängig identisch verteilten Zufallswariabeln x1 bis xn, wobei eben das Px1 gleich W Teta ist für ein Teta aus Teta, und G ist eine Funktion von Teta, ursprünglich nach R oben K, aber in dem Abschnitt nach R.
Zielschätze G von Teta ausgehend von unabhängig identisch verteilten Zufallswariabeln x1 bis xn, mit Px1 ist gleich W Teta für ein Teta aus Teta,
und G ist diesmal eine Funktion von Teta nach R.
Das heißt, ich betrachte vereinfachen nur den Spezialfall K gleich 1. Tn von x1 bis xn sei die Schätzfunktion.
Und wünschenswert ist jetzt erstmal, dass die Verteilung von Tn von x1 bis xn möglichst um G von Teta konzentriert ist.
Also wir können nicht unbedingt erwarten, dass das Tn von x1 bis xn immer gleich G von Teta ist. Das werden Sie in der Statistik nie haben. Aber Sie wollen eben haben, könnten so formulieren, ja, die Verteilung soll irgendwie drumherum konzentriert sein.
Und dann stellt sich natürlich die Frage, was heißt es, dass diese Verteilung um jetzt hier eine reale Zahl konzentriert ist.
Und das fassen wir jetzt eben oder wir präzisieren das jetzt auf zwei Arten. Wir sagen erst mal, der Erwartungswert von den Tn von x1 bis xn soll gleich G von Teta sein.
Und zwar für alle Teta, also wir haben erwartungstreuen Schätzer. Und zweitens dann die Varianz soll möglichst klein sein.
Mögliche Präzisierung. Erstens Tn von x1 bis xn erwartungstreu für G von Teta.
Das heißt für alle Teta aus Teta, der Erwartungswert bei wahren Parameter Teta von Tn von x1 bis xn soll gleich G von Teta sein.
Und die zweite Forderung wäre, wenn der Erwartungswert schon stimmt, dann sagt er die Varianz, wie stark es im Mittel quadratisch darum streut.
Und dann soll die Varianz möglichst klein sein. Varianz bei wahren Parameter Teta von Tn von x1 bis xn möglichst klein für alle Teta als Teta.
Das ist jetzt bezüglich der Varianz wieder ein bisschen schwammig. Was heißt das Varianz? Möglichst klein. Aber es ist klar, wie wir es präzisieren wollen, nämlich durch die harte Forderung. Wir würden fordern, die Varianz soll eben kleiner gleich als die Varianz von jedem anderen. Also von unserem optimalen Schätzer soll die Varianz kleiner gleich sein als die Varianz von jedem anderen erwartungstreuen Schätzer.
Das gibt dann Definition 5.2. Definition des gleichmäßig besten erwartungstreuen Schätzers.
Tn heißt gleichmäßig bester erwartungstreuer Schätzer für G von Teta.
Falls gilt. Zwei Forderungen. Erste Forderung Tn erwartungstreuer für G von Teta.
Und zweite Forderung für alle erwartungstreuen Schätzer Tn quer für G von Teta. Und alle Teta gilt die Varianz von Tn. Ist kleiner gleich als die Varianz von Tn quer bei wahren Parameter Teta.
Für alle erwartungstreuen Tn quer.
Und alle Teta aus Teta gilt die Varianz bei wahren Parameter Teta von Tn von x1 bis xn.
Ist kleiner gleich als die Varianz von Tn quer von x1 bis xn.
Ja, stellt sich die Frage, was hat es mit Abschnitt 5.3 zu tun? Das sollte jetzt der Optimalitätsbegriff von Abschnitt 5.3 sein. Bei der Einschränkung der Klasse der betrachteten Schätzfunktion. Und es wird meine nächste Bemerkung sein, dass es in der Tat so ist. Aber okay, komm gleich. Ich wische erst mal.
Also Bemerkung für gleichmäßig besten erwartungstreuen Schätzer Tn für G von Teta. Bemerkung für gleichmäßig besten erwartungstreuen Schätzer Tn für G von Teta gilt für alle Teta aus Teta.
Ich kurz das gleichmäßig mal ab. Durch GLN. Gleichmäßig besten.
Gilt für alle Teta aus Teta. Ist der Erwartungswert bei wahren Parameter Teta von Tn von x1 bis xn minus G von Teta zum Quadrat.
Das ist gleich dem Minimum von diesem Ausdruck, wenn ich bezüglich allen erwartungstreuen Schätzern Tn Schlange minimiere. Ich habe hier Tn quer geschrieben. Tn quer, erwartungstreue.
Okay, und damit sehen Sie eigentlich den Zusammenhang mit Möglichkeit 3.
Ich kann mir vielleicht von Ihnen jemand sagen, wie muss ich meine Verlustfunktion definieren? Als Quadrat. Also L von Tn von x1 bis xn und G von Teta ist gerade das Quadrat von Tn von x1 bis xn minus G von Teta.
Und dann wäre das hier das entsprechende Risiko von Tn an der Stelle Teta. Und das hier ist das Risiko von Tn quer an der Stelle Teta. Und das wird gleichmäßig minimiert bezüglich der Klasse der erwartungstreuen Schätzer für G von Teta. Sehen Sie auch warum das gilt? Vielleicht mal jemand anderes außer Ihnen?
Noch jemanden Vorschlag? Warum gilt die Beziehung? Ist das klar, oder?
Also unser gleichmäßig bester erwartungstreuer Schätzer ging ja über die Varianz. Die Varianz minimiert. Da steht die Varianz, wenn die erwartungstreu ist. Im Prinzip ist das klar.
Ich könnte jetzt noch eine Bemerkung machen bezüglich Bayes Varianzzerlegung. Wir haben es einmal so im Beweis schon mal gemacht bei dem Theorem zur Dichteschätzung. Also ich kann deswegen den quadratischen Fehler auch sofort umschreiben als Varianz von diesem Schätzer plus
Erwartungswert von diesem Schätzer minus G von Teta in Klammern zum Quadrat. Ich weiß nicht, ob Sie das sehen. Ist das klar? Das wäre die Bayes Varianzzerlegung. Oder soll ich hinschreiben oder brauchen wir nicht? Brauchen wir nicht? Ist klar?
Gut, also die Mehrzahl oder die, die was gesagt haben, haben wir nicht hinschreiben. Dann können wir es weglassen. Dann schreibe ich nur hier drunter. Das ist die Varianz Teta an T n quer von X 1 bis X n.
Da der Erwartungswert war ein Parameter Teta. Und damit ist es klar.
Dann noch eine zweite Bemerkung. Erwartungstreue Schätzer existieren nicht immer. Und damit existiert eben auch nicht immer ein gleichmäßig bester Erwartungstreuer Schätzer.
Und das begründe ich mit einem Beispiel.
Ich setze Teta als offenes Intervall von 0 bis 1 oder halboffenes Intervall bei 0 offen bei 1 abgeschlossen. W Teta ist eine B1 Teta Verteilung.
Ich setze n gleich 1. Das heißt, wir haben nur eine einzige eine einzige Beobachtung. Und geschätzt werden soll G von Teta gleich 1 durch Teta.
Und die Aussage ist, dann existiert kein Erwartungstreuer Schätzer für G von Teta.
Denn wir nehmen mal an, angenommen T von X 1 ist Erwartungstreu für 1 durch Teta.
Dann können Sie sich überlegen, was ist das Teta dann? Das Teta geht im Prinzip vom Wertebereich oder was ist T dann?
Das T geht vom Wertebereich von X 1. Wir können zum Beispiel erweitern die reellen Zahlen nehmen, nach Teta in dem Fall. Nee, im Wertebereich von G von Teta, also nach R. Also für ein T, das geht.
Ich kann jetzt weder sagen, es ist nur auf 0 oder 1 definiert, oder ich kann gleich sagen, es ist auf ganz R definiert. Im Prinzip egal. Dann gilt für Teta aus 0, 1.
Naja, der Erwartungswert von T von X 1 soll gleich G von Teta sein. Das heißt 1 durch Teta ist dieser Erwartungswert.
X 1 nimmt nur die Werte 0 oder 1 an. Das heißt auch dieses T von X 1 nimmt nur zwei Werte an, nämlich T von 0 und T von 1. Und zwar T von 0 mit der Wahrscheinlichkeit, dass X 1 gleich 0 ist.
Und T von 1 mit der Wahrscheinlichkeit, dass X 1 gleich 1 ist. Das heißt, es ist T von 0. Wahrscheinlichkeit bewahren Parameter Teta von T von X 1 gleich 0. Oder X 1 gleich 0.
Ja, ein X 1 ist eine binomial, ist eine B1-Teta-Verteilung, wenn Nulli verteilt. Das heißt die Wahrscheinlichkeit, dass es 0 ist, ist 1 minus Teta. Die Wahrscheinlichkeit, dass es 1 ist, ist Teta.
Jetzt ist die Frage, wo ist der Widerspruch?
Wenn Sie Teta gegen 0 laufen lassen, dann wird die linke Seite gleich unendlich.
Und die rechte Seite ist T von 0. Und wo ist der Widerspruch? T von 0 wäre unbeschränkt. Unser Schätzer nimmt nur endliche Werte an. Also im Prinzip kann man, man kann es eigentlich ohne Grenzwert machen.
Man könnte im Prinzip einfach sagen, die rechte Seite ist als Funktion von Teta beschränkt, weil T von 0 und T von 1 feste Zahlen sind. Das heißt, die Funktion ist beschränkt, die linke Seite wächst unbeschränkt. Also als Funktion von Teta aus 0,1 ist rechte Seite beschränkt,
da T von 0, T von 1 Element R, linke Seite aber unbeschränkt.
Ansonsten, ich meine, ich könnte natürlich anfangen und sagen, mein Schätzer kann auch erweiterte realwertige Zahlen annehmen. Also auch plus, minus und endlich sein. Dann hätte ich noch keinen Widerspruch, wenn T von 0 gleich unendlich wäre. Und T von 1 vielleicht minus unendlich. Aber irgendwie wäre es ein bisschen komisch.
Und ich sage dann, die beiden gleichen sich aus. Wenn ich hier rechne und es kommt 1 durch Teta raus. Also irgendwie geht es nicht, ist klar. Aber ich habe hier so ein bisschen geschummelt, weil ich nämlich einfach gesagt habe, mein Schätzer sind so wie immer eben reellwertig. Und damit ist es klar, Schätzer reellwertig.
Das kann eigentlich nicht sein. Sonst müsste man ein bisschen länger nachdenken, was eigentlich der eigentliche Widerspruch ist. Okay, Fragen soweit? Keine Fragen.
Dann machen wir 5 Minuten Pause und ich mache dann um 10.38 Uhr weiter.
Ja, würde ich ganz gern weitermachen.
Okay, wir kommen zu Abschnitt 5.5, die Informationsungleichung von Grammar Rau.
Im Folgenden möchte ich eine untere Schranke für die Varianz von Schätzerfahren herleiten. Im folgenden Herleitung einer unteren Schranke für die Varianz von Schätzerfahren.
Und ich werde es diesmal nicht so machen, dass ich erst den Beweis hinschreibe und dann den, dass ich erst den Satz hinschreibe und dann Beweise, sondern ich mache es genau umgekehrt. Ich schreibe erst den Beweis hin und daraus nehmen wir dann den Satz.
Weil im Prinzip, wenn man den Ansatz mal gesehen hat, ist der Rest einfach nur durchrechnen. Wir nehmen einen beliebigen Schätzer Tn und eine beliebige zufallsvariable V.
Dann gilt, ich gucke mir an die Co-Varianz von Tn und V
bei Warnparameter Teta. Die Co-Varianz ist definiert als der Erwartungswert vom Produkt von Tn minus seinem Erwartungswert
mal V minus seinem Erwartungswert. Also das ist gleich Erwartungswert bei Warnparameter Teta von erstmal Tn von x1 bis xn
und genauso mit V minus seinem Erwartungswert. Weil das ist die Definition.
Und dann auf dieses Produkt kann ich die Ungleichung von Cauchy-Schwarz anwenden und das abschätzen als Wurzel aus Erwartungswert vom ersten Quadrat mal Wurzel aus Erwartungswert vom zweiten Quadrat. Und diese Erwartungswerte der Quadrate sind dann jeweils die Varianzen. Das Geist mit Cauchy-Schwarz
ist das Ding hier kleiner gleich als Wurzel aus Varianz bei Warnparameter Teta von Tn von x1 bis xn
mal Wurzel aus Varianz bei Warnparameter Teta von V. Und dann sehen Sie, wenn jetzt die Varianz bei Warnparameter Teta von V
größer als Null ist, dann kann ich durch die Durchteilen durch die Wurzel raus und es nach der Varianz bei Warnparameter Teta von Tn von x1 bis xn auflösen und habe eine untere Schranke für die Varianz. Im Falle folgt.
Und diese untere Schranke für die Varianz ist naja, die Wurzel aus der Varianz ist größer gleich die Co-Varianz durch die Wurzel aus der Varianz von V. Sie quadrieren es noch. Dann sehen Sie, die Varianz bei Warnparameter Teta von Tn von x1 bis xn
ist größer gleich der Co-Varianz zum Quadrat
durch die Varianz Teta von V. Und die Gleichung nenne ich 5.1.
Und damit kriegen Sie eine untere Abschätzung für die Varianz. Ganz egal, was Sie dafür V einsetzen. Und der Trick ist jetzt, wir wählen Vschlau. Also ich schreibe Ihnen jetzt gleich was hin, was Sie nicht sehen werden, wie ich draufkomme für V und dann rechnen wir alles Mögliche nach.
Und natürlich das V wird irgendwas zu tun haben mit den x1 bis xn. Damit das ganze Ding Sinn macht. Weil wenn zum Beispiel das V unabhängig von dem x1 bis xn wäre, dann wäre die Co-Varianz einfach gleich 0. Also dann wäre hier das Produkt der Erwartungswerte das Produkt der Erwartungswerte
die einzelne Erwartungswerte sind jeweils gleich 0. Die Co-Varianz wäre 0, dann wäre meine untere Schranke 0. Wär natürlich witzlos. Wir setzen nun voraus, dass die Verteilung von x1 eine Dichte f von θ
bezüglich eines Wahrscheinlichkeitsmaßes μ hat. Und setzen dann v als wir nehmen das Produkt oder wir nehmen die gemeinsame Dichte von x1 bis xn aufgrund der Unabhängigkeit. Das ist einfach das Produkt der einzelnen Dichten. Anstellen x1 bis xi. Nehmen davon den Logarithmus und leiten nach θ ab.
Und das wird unser v sein. Also Annahme. W theta hat Dichte
0.0 bezüglich eines Maßes μ. Und dann setzen wir
setze v gleich also ich nehme die Ableitung nach θ vom Logarithmus von Produkt i gleich 1 bis n
f von θ, xi. Also jetzt nehme ich die likelihood-Funktion leite sie ab. Nehmen den Logarithmus und leite nach θ ab. Das wird mein v sein.
Und dann rechnen wir munter gleich drauf los. Müssen also die Varianz ausrechnen. Müssen die Kurvarianz ausrechnen. Werden so viel Annahmen reinstecken, dass wir das ganze schön ausrechnen können. Und haben am Schluss eine untere Schranke.
Und das kann ich natürlich noch umformen. Der Logarithmus vom Produkt ist die Summe der Logarithmen. Und die Ableitung kann ich dann rausziehen. Das heißt die Summe i gleich 1 bis n
d nach dθ von Logarithmus von f, θ, xi.
Okay, Fragen soweit? Ja, ich meine, so ganz beliebig können sie es nicht mehr haben.
Also hier brauchen sie jetzt natürlich θ irgendwie Teilmenge von R oder R ober K oder irgendwas. Also sie brauchen entsprechende Strukturen drauf, dass Ableitungen existieren. Es ist ja noch viel schlimmer. Sie brauchen ja auch ein Maß drauf. Sie brauchen die Sigma-Algebra drauf und so weiter. Also naheliegenderweise wird es eine Teilmenge
der reellen Zahlen sein oder von R ober von irgendeinem euklidischen Raum. Also wir werden am Schluss eben voraussetzen, dass das Ganze existiert.
Also, weitere Fragen? Nachdem die eine schon so ausgesprochen gut ging.
Okay, dann fangen wir an. Rechnen einfach mal drauf los. Ich werde ein paar Umformungen machen, die nicht ganz offensichtlich sind. Und die werden wir nachher voraussetzen, dass es geht. Das heißt, das Ganze kommt jetzt unter der Voraussetzung, dass die mit Sternengekennzeichen Umformungen zulässig sind. Also sofern die mit Sternengekennzeichen
Umformungen zulässig sind,
gilt dann. Also ich brauche eine Abschätzung jetzt für die Varianz.
Varianz nach oben, bzw. ich rechne eigentlich die Varianz genau aus und die Co-Varianz. Und für die Varianz brauche ich erstmal einen Erwartungswert. Das heißt, wir gucken uns erstmal den Erwartungswert bewahren, Parameter θ von v an. Und weil das gleich die Summe der Erwartungswerte ist, brauche ich nur den Einzelnen angucken. Das heißt,
der Erwartungswert bewahren Parameter θ von d nach dθ von θ comma x1.
Alles das erste, was ich ausrechnen will. Und der Erwartungswert von v bewahren Parameter θ ist aufgrund der identischen Verteiltheit der x1 bis xn einfach n mal dieser Ausdruck.
Gut, dann fangen wir an und leiten ab mit der Kettenregel. Erstmal der Logarithmus, gibt eins durch die Dichte. Dann nochmal die innere
Ableitung.
Dann kann ich ausnutzen, dass x1 ja die Dichte f von θ hat bezüglich μ. Das heißt, ich kann das jetzt schreiben als ein Integral bezüglich μ.
Dann kommen wir auf ein Integral über
und dann noch multipliziert mit der Dichte.
Dann naheliegenderweise fangen wir jetzt an hier zu kurzen. Den durch den. Und naheliegenderweise können Sie dabei einen Fehler machen. Nämlich vergessen, dass 0 durch 0
gleich 0 ist. So wie es auch im Skript vergessen ist. Das heißt, Sie müssen den Integrationsbereich eigentlich einschränken. Also wir integrieren eigentlich nur noch über die Menge aller derjenigen z, wo f von θ,z ungleich 0 ist. Weil sonst ist der Integrationsbereich
oder der Integranz sowieso gleich 0. Und dann bleibt d nach dθ von θ,x übrig.
Okay, jetzt gehe ich davon aus, dass ich den Ableitungsoperator mit dem Integral vertauschen kann. Und das wird jetzt eine dieser Umformungen sein, die ich mit
Sternen kennzeichne. Also ich nehme an, das wäre zulässig. Dann haben wir
alles von nachher eine unserer Voraussetzungen sein. Okay, kann mir jemand sagen, wie groß das Integral ist, was ich jetzt da habe?
Okay, Sie haben einen Vorschlag? Sie haben einen Vorschlag? Sie können es noch eins nach oben abschätzen. Ich will aber sogar eine Gleichheit haben.
Genau, aus dem Bereich kann ich auch genauso gut raus streichen, weil da ist ja der Integrant gleich Null jetzt nachträglich und dann sehen Sie wir könnten jetzt so weitermachen, das spielt keine Rolle, weil da wo
also wenn ich die Ausnahmemenge, die ich da zunehme noch angucke, da ist der Integrant sowieso gleich Null und dann habe ich eine Dichte dann sehen Sie, da steht D nach D theta von 1 und das ist gleich Null. Das war schon mal einfach.
Damit sehen wir auch, was die Varianz ergibt. Damit können wir auch die Varianz umformen.
Die Varianz ist jetzt der die Varianz ist eine Varianz von der Summe. Die einzelnen Zufallsvariablen sind unabhängig. Deswegen ist die Varianz von der Summe gleich die Summe der Varianzen.
Okay, wir sind so weit.
Dann haben wir eine identische Verteiltheit. Dann kommen wir N mal auf die einzelne Varianz.
Dann wissen wir, der Erwartungswert ist gleich Null. Dann ist die Varianz gerade
der Erwartungswert zum Quadrat und das lassen wir uns so weit stehen. Das wird nachher in unserer unteren
Abschätzung auftauchen. Also die Varianz ist dann größer als die Schranke für die Kurvarianz zum Quadrat durch dieses N mal dem Erwartungswert vom Quadrat von D nach D theta log f theta, x1.
Und das wird dann die sogenannte, werden wir als Fischerinformation bezeichnen. Das ist N mal die Fischerinformation. Und die Beziehung wollte ich 5, 2 nennen.
Dann der dritte Termin, der noch fehlt, ist die Covarianz bei Warenparameter theta von tn von x1 bis xn und v.
Also nach Definition war es der Erwartungswert bei Warenparameter theta von
das Ding. Und Sie kennen vielleicht aus der Wahrscheinlichkeitstheorie die Formel Covarianz von x mal y ist Erwartungswert von x mal y mal minus Erwartungswert von x mal Erwartungswert von y. Bekommen Sie, wenn Sie einfach ausmultibizieren hier,
bekommen Sie vier Terme. Und der erste Term, den Sie bekommen, ist der Erwartungswert bei Warenparameter theta von tn von x1 bis xn mal v. Und dann alle anderen Terme bekommen Sie zweimal mit Minus und einmal mit Plus
den Erwartungswert bei Warenparameter theta von tn von x1 bis xn und den mal dem Erwartungswert bei Warenparameter theta von v.
Weil das werden ausmultibizieren.
Ja, jetzt wissen wir schon, der Erwartungswert also der Erwartungswert von v. Das wäre einfach die Summe der Einzelerwartungswerte hier. Die Einzelerwartungswerte sind nach dem ersten Punkt alle gleich Null. Das heißt, der Erwartungswert bei theta bei Warenparameter v ist gleich Null.
Das heißt, hier steht eigentlich nur der erste Term, mal v. Und ich kann da nicht v gleich hinschreiben.
Ja, und ich schreibe die ursprüngliche Definition von dem v hin d nach d theta vom Logarithmus Produkt i gleich 1 bis n theta,xi.
Dann kann ich wieder ausnutzen, f theta ist eine Dichte von w theta. Damit ist das Produkt der f theta,x1 bis f theta,xn
eine Dichte von x1 bis xn aufgrund der Unabhängigkeiten der identischen Verteiltheit. Das heißt, es gibt ein n-faches Produkt und dann integriert mu d x1 bis mu d xn.
Ja, und dann sehen sie eigentlich wahrscheinlich schon wieder, was ich mache. Der Logarithmus abgeleitet ist wieder eins durch das Produkt, mal die Ableitung
von dem Produkt. Das eins durch das Produkt mit dem Produkt hier kurzig. Dann habe ich noch die Ableitung von dem Produkt stehen und dann nehme ich wieder an, dass ich den Parameter hier rausziehen kann. Also dass ich den Ableitungsoberator hier rausziehen kann. Wird meine nächste Annahme Stern sein.
Dann bleibt noch üblich die Ableitung von dem Produkt von tn von x1 bis xn mal Produkt der Dichten. Das wäre gerade der Erwartungswert bei wahren Parameter theta von tn von groß x1 bis groß xn, was, wenn es erwartungstreu ist, eben g von theta ist. Das heißt, da wird letzten Endes
umstehen bleiben die Ableitung von g von theta. Das heißt, das ist jetzt...
Okay, ich fange wieder an zu kurzen. Und ich kann wieder den Fehler machen, dass ich nicht beachte, dass 0 durch 0 gleich 0 ist.
Das heißt, ich muss wieder diese Ausnahmemengen hier hinschreiben. Also wenn eins der f theta von xi gleich 0 ist, dann integriere ich eben eigentlich über 0. Das heißt, es fällt beim Integral weg. Das heißt, ich kann sagen hier, das ist eigentlich integral über Menge aller z, wo
f theta, z umgleich 0 ist. Ist beim letzten Mal auch. Und jetzt kann ich kurzen oben. Und im Prinzip, das tn von x1 bis xn hängt ja gar nicht von theta ab. Das heißt, ich kann auch hier...
Wollte ich das außen hinschreiben? Ja, das ist eine gute Frage. Nee, eigentlich nicht. Wir schreiben nochmal tn von x1 bis xn hin. Dann nehme ich an,
wie gesagt, also ich kann jetzt den Ableitungsoperator,
also ich kann das tn reinziehen, den Ableitungsoperator, da es nicht von theta abhängt, und dann nehme ich an, dass ich wieder Ableitungsoperator und Integrale vertauschen kann. Und an der Stelle kann ich mir an eine sparen, ob ich über die Mengen hinschreibe oder nicht, weil die Funktionen da hinten im Produkt auftauchen.
Das heißt, da, wo die Werte gleich 0 sind, ist der Integral sowieso gleich 0.
Ja, und dann sehen Sie, das Integral, das eigentlich da steht, ist der Erwartungswerk bei Warenpaaren bei der tn von x1 bis xn.
Und ich kann vielleicht gerade noch das Ergebnis noch einmal übersichtshalber hinschreiben, aber wir formulieren es dann beim nächsten Mal als Satz. Was haben wir jetzt? Wir wissen, dass die Varianz bei Warenparameter theta von tn von x1 bis xn, die ist eben größer gleich als ein Bruch.
Im Nenner steht die Varianz bei Warenparameter theta von V. Das heißt, dieses n mal der Erwartungswert bei Warenparameter,
je nachdem theta, dann den Logarithmus von f theta, x1 zum Quadrat noch. Um den Zähler eigentlich der Ausdruck hier, aber wenn ich einen Erwartungsdrehen-Schätzer ansetze,
und zwar der Ausdruck zum Quadrat, das war ja die Co-Varianz zum Quadrat, dann wäre das eigentlich gerade g Strich von theta zum Quadrat, weil der Erwartungswert wäre beim Erwartungsdrehen-Schätzer g von theta. Und das ist die Informationsumgleichung von Grammarau, was wir hier haben.
Und ich formuliere das nächste Mal als Satz, formuliere dann alles aus, wird ein bisschen dauern. Bis wir die ganzen Voraussetzungen hingeschrieben haben. Aber Sie sehen, der Beweis ist eigentlich recht einfach. Also Beweis ist eigentlich,
wenn Sie einen Ansatz wissen, ist es ein reines Ausrechnen. Und dann eben bei allen Schritten, wo Sie nicht mehr weiter wissen, nehmen Sie eben an, dass die nächste Umformung existieren muss und sind fertig. Okay, dann wäre ich für heute schon fertig.