We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Maximum-Likelihood-Schätzer

00:00

Formal Metadata

Title
Maximum-Likelihood-Schätzer
Title of Series
Part Number
10
Number of Parts
28
Author
License
CC Attribution - NonCommercial - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Aufgabe der Statistik ist es, Rückschlüsse aus Beobachtungen zu ziehen, die unter dem Einfluss des Zufalls enstanden sind. Diese Vorlesung gibt eine umfassende Einführung in die zugehörige mathematische Theorie. Behandelt werden u.a.: Hauptsatz der Mathematischen Statistik, Dichteschätzung, nichtparametrische Regressionsschätzung, Punktschätzverfahren, statistische Tests, Bereichsschätzverfahren.
Mathematical statisticsRealisierung <Mathematik>Set (mathematics)Random variableEstimationAdditionSubsetProbability distributionIteriertes IntegralEstimatorParameter (computer programming)EstimatorSummationExpected valueSample (statistics)AverageComputer animationLecture/ConferenceMeeting/Interview
EstimatorEstimationPolymorphism (materials science)Computer animation
VarianceWell-formed formulaEstimationGradientRandom variableSquareExpected valueSummationConstraint (mathematics)EstimatorParameter (computer programming)VarianceAdditionArithmetic meanMittelungsverfahrenIteriertes IntegralBeam (structure)Term (mathematics)Lecture/Conference
SummationPopulation densityLogarithmGreatest elementExpected valueMittelungsverfahrenRandom variableMaximum (disambiguation)Parameter (computer programming)EstimatorInequality (mathematics)Sample (statistics)StochasticMassFunction (mathematics)Structural loadLecture/Conference
Population densityExpected valueLogarithmSet (mathematics)Probability spaceMassLine (geometry)Convex setCurveRandom variableInequality (mathematics)Point (geometry)Parameter (computer programming)Function (mathematics)Block (periodic table)CalculationRaum <Mathematik>Well-formed formulaNumerisches GitterLecture/Conference
Population densityLogarithmSet (mathematics)TrailLecture/Conference
INTEGRALIntegrationstheorieExpected valueInequality (mathematics)TermumformungMassLecture/Conference
Maschinenbau KielParameter (computer programming)LogarithmExpected valueSummationMaximum (disambiguation)EstimatorPopulation densitySample (statistics)MittelungsverfahrenForschungszentrum KarlsruheLecture/Conference
Expected valueZusammenhang <Mathematik>Population densityInequality (mathematics)EstimatorFehlerabschätzungEmpirischer ProzessParameter (computer programming)Function spaceTheoryMittelungsverfahrenAbschätzungSample (statistics)Maximum (disambiguation)Propositional formulaRegular measureEntire functionNichtlineares GleichungssystemLecture/Conference
Moving averageDerived set (mathematics)Function (mathematics)EstimatorFactorizationExpected valuePotenz <Mathematik>Content (media)SquareAbsolute valueTerm (mathematics)SummationNormal distributionLogarithmVariancePartial derivativeEstimationParameter (computer programming)Population densityLikelihood functionLattice (order)Arithmetic meanLecture/Conference
Term (mathematics)SquareDerived set (mathematics)Variable (mathematics)SummationEstimatorArithmetic meanContent (media)Maximum (disambiguation)Lecture/Conference
EstimatorMaximum (disambiguation)Lecture/Conference
MathematicianEstimationPredictionZahlAbsolute valuePotenz <Mathematik>Function (mathematics)Algebraic closureLecture/Conference
StatisticsSquareAbsolute valueStochasticSample (statistics)Real numberPredictionZahlEstimatorMittelungsverfahrenNumberLecture/Conference
EstimatorSample (statistics)MittelungsverfahrenParameter (computer programming)PredictionAverageFunction (mathematics)EstimationLecture/Conference
Expected valueEstimatorOptimumOptimalitätsbedingungLecture/Conference
Greatest elementEstimatorSupremumWell-formed formulaSummationDecision theoryParameterraumParameter (computer programming)Probability distributionMittelungsverfahrenEnde <Graphentheorie>EstimationMinimax-PrinzipMoment (mathematics)NumberInsertion lossFunction (mathematics)MetreLecture/Conference
Transcript: German(auto-generated)
Ja, ich begrüße Sie recht herzlich zur heutigen Vorlesung in der mathematischen Statistik. Wir waren stehen geblieben beim Thema Punktschätzungen, Aufgabenstellung da,
gegeben sind Realisierungen Klein x1 bis Klein xn von unabhängig identisch verteilten Zufallsvariablen Groß x1 bis Groß xn mit Werten in einer Menge x, eine Familie von Verteilungen oder von Wahrscheinlichkeitsmaßen, so dass Px1 gleich Wt ist für 1 t aus Groß t
und eine Funktion g von t nach R oben k und gesucht ist eine Schätzung von dem Wert g von t, also der Funktionswert von der Funktion g an dem wahren Parameter t, ausgehend von den
Schätzungen konstruieren tn von x1 bis xn von g von theta. Ich habe Ihnen am letzten Mal vorgestellt die sogenannten UNV-Schätzer. Ausgangspunkt beides Mal ist die Darstellung von g von theta als iteriertes Integral. Also wir gehen davon aus, wir können g von theta
schreiben als ein L-faches Integral von einer Funktion h von x1 bis xl, wobei wir die x1 bis xl bezüglich Wt integrieren. Myon sei die empirische Verteilung von x1 bis xn und der erste Schätzer den wir konstruieren ist der V-Schätzer. Da schätzen wir einfach das
Wt oben durch die empirische Verteilung, setzen das in die Formel für g von theta ein und nehmen das was rauskommt als Schätzwert. Das gibt dann tn von x1 bis xn und wenn es ausrechnet ist 1 durch n hoch l mal Summe i1 gleich 1 bis n bis il gleich 1 bis n h von xi1 bis
xil. Dann habe ich als zweites hingeschrieben den sogenannten U-Schätzer tn Schlange von x1 bis xl. Im Prinzip genauso, nur dass wir die Simulation diesmal nur über alle die Summanden
machen, wo die Indices i1 bis il paarweise verschieden sind und teilen dann durch die Anzahl der Summanden anstelle von n hoch l. Diese V-Schätzer sind immer erwartungstreu in dem Sinne, dass der Erwartungswert bei wahren Parameter theta von dem V-Schätzer immer
gleich der gesuchten Größe ist. Das heißt, wenn wir die Schätzung immer wieder wiederholen und uns davon den Mittelwert von all diesen Werten angucken, dann ergibt es asymptotisch mit wachsender Anzahl an Wiederholungen den richtigen Wert. Es kam beim letzten Mal zum Ende noch die Nachfrage der V-Schätzer. Der U-Schätzer sieht ja ein bisschen komisch aus,
weil eigentlich würde man intuitiv erwarten, dieser Schätzer sollte symmetrisch sein bezüglich den x1 bis xn. Das heißt, wenn ich die x1 bis xn permutiere, dann sollte eigentlich der gleiche Schätzer rauskommen und das ist hier nicht ganz offensichtlich zu sehen. Das machen
Sie sich aber leicht klar, dass es doch ist, wenn Sie sich überlegen, wenn ich die Menge aller L-Tupel von Indizes angucke, i1 bis il, wo sie paarweise verschieden sind und ich gucke im Gegenzug die Menge an, bestehend aus allen i1 bis il, wo i1 aus 1 bis n ist, i2 ist aus
1 bis n, aber ungleich i1, i3 ist aus 1 bis n, aber ungleich i1 und ungleich i2 und so weiter, bis il ist aus 1 bis n und ungleich i1, ungleich i2 und so weiter, bis ungleich il-1. Dann können
Sie sich klar machen, diese beiden Mengen sind gleich. Das ist erstmal nicht offensichtlich, das wird aber dann offensichtlich, wenn Sie sich überlegen, die Mengen sind gleich, wenn eben die zwei Teilmengenbeziehungen bestehen. Es ist klar, die untere Menge,
die untere Menge hier, ist natürlich eine Teilmenge von der oberen Menge, weil hier sind die Indizes paarweise verschieden. Umgekehrt machen Sie sich klar, wenn die Indizes paarweise verschieden ist, dann ist natürlich i1 in 1 bis n, i2 ist auch in 1 bis n, aber ungleich i1, weil es ja paarweise verschieden war, i3 ist in 1 bis n, ungleich i1 und ungleich i2,
weil es paarweise verschieden ist und so weiter. Das heißt, die unteren Bedingungen sind auch erfüllt. Das heißt, Sie haben auch die andere Teilmengenbeziehung. Also in der Tat, das was ich da hingeschrieben habe da oben, dieser U-Schätzer ist komplett symmetrisch in der Stichprobe. Wenn Sie die Stichprobe umpermotieren, kommt der gleiche Wert raus. Anders wäre es auch irgendwie ein bisschen komisch.
Okay, Fragen noch soweit? Keine Fragen, dann kann ich noch auf Prüfungsfragen eingehen.
Also ich habe ein paar Fragen. Das sind eigentlich zwei Stück. Das eine war der restliche Teil von der Frage, die wir eigentlich schon hatten vom Satz von Stone. Und dann Frage
Nummer 13. Erläutern Sie die in der Vorlesung behandelten Prinzipien zur Konstruktion von Punkt-Schätzverfahren? Das wären also V-Schätzer und U-Schätzer erläutern. Und heute kommt noch die Maximum-Like-View-Schätzung, müssen Sie auch erläutern. Und 14. Definieren Sie, wann eine Schätzung Tn erwartungstreu für G
von TETA ist? Sind U- bzw. V-Schätzer im allgemeinen erwartungstreu? Begründen Sie Ihre Antwort? Also es war, haben wir am letzten Mal schon gesehen, U-Schätzer sind immer erwartungstreu. Wir werden jetzt heute sehen, der V-Schätzer ist eine Modifikation von einem U-Schätzer und deswegen nicht immer erwartungstreu.
Kommt gleich als nächstes. Ich habe die entsprechende erweiterte Liste von Prüfungsfragen schon wieder hochgeladen in Tukan. Also auch erst ausdrucken, ganz zu Ende des Semesters. Okay, wir bräuchten wieder Licht. Das sollte weg. Dann noch zu einer Bemerkung, warum der V-Schätzer im
Allgemeinen nicht erwartungstreu ist. Wir gucken uns mal den U-Schätzer für die Schätzung der Varianz an. Also im Falle der Schätzung der Varianz, die
Varianz bei Warnparameter TETA von der Zufallsvariable X1 soll geschätzt werden. Wir machen noch mal den gleichen Trag wie letztes Mal. Das heißt, wir schreiben das als iteriertes Integral um. Das ist das gleiche wie der
Erwartungswert von X1 zum Quadrat minus Erwartungswert von X1 in Klammern zum Quadrat, was Sie umschreiben können als den Erwartungswert bei Warnparameter TETA von X1 mal X1 minus X2, wenn eben X1, X2 unabhängig identisch
verteilt sind. Und das war jetzt ein zweifaches Integral, integriert bezüglich WTETA
DX1 und WTETA DX2. Okay, wenn wir das machen, erhält man als
U-Schätzer. Wir machen Tn quer von X1 bis Xn. Dann brauche ich eben die Summe
von vielleicht I1 gleich 1 bis n und von I2 gleich 1 bis n, wobei I2 ungleich I1 sein soll. Da oben mit X1 ersetzt durch Xi1, X2 ersetzt durch Xi2, geteilt
durch die Anzahl der Summanden. Das ist 1 durch n mal n minus 1. Und das möchte ich
jetzt dann umformen. Die erste Bemerkung, Beobachtung ist, wenn I1 gleich I2 ist, dann ist der Term hier gleich 0 und der Summand sowieso
gleich 0. Insofern kann ich eigentlich die Nebenbedingungen hier auch genauso gut weglassen. Weil wenn I1 gleich I2 ist, summiere ich nur die Null auf. Und wenn ich das jetzt weglasse, dann ist das bis auf diesen Vorfaktor das gleiche wie beim letzten Mal. Beim letzten Mal hatten wir einen
V-Schätzer uns angeguckt. Das war 1 durch n Quadrat mal diese Summe. Das heißt, ich komme hier auf n Quadrat durch n mal n minus 1. Jetzt kommt der Wert vom V-Schätzer. Und der Wert vom V-Schätzer war einfach das arithmetische Mittel der Xi zum Quadrat minus in Klammern das
arithmetische Mittel der Xi zum Quadrat. Ja, ich kann, gut ich schreibe es mal hin. 1 durch n Summe I1 oder I gleich 1 bis n Xi zum Quadrat, Summe Xj zum
Quadrat. Und dann sehen Sie, das ist eben das gleiche wie n durch n minus 1 mal
unser Tn von x1 bis xn. Wobei eben dieses Tn unser V-Schätzer war. Ja,
und das wollte ich jetzt eigentlich anders hinschreiben. Das ist nämlich dann 1 durch n minus 1 mal Summe I gleich 1 bis n Xi minus. Das
heißt, Sie sehen, da kommt genau die empirische Varianz raus als U-Schätzer. Und wenn Sie jetzt beachten, der U-Schätzer, wissen wir, ist
erwartungstreu, dann kann der V-Schätzer nicht auch erwartungstreu sein, weil der Erwartungswert vom V-Schätzer ist ja n minus 1 durch n mal den Erwartungswert von U-Schätzer. Also da eben das Tn
quer als U-Schätzer, da Tn quer als U-Schätzer erwartungstreu ist, ist
eben das Tn, ist Tn wegen Tn von x1 bis xn gleich n minus 1 durch n mal Tn
quer von x1 bis xn für n größer 1 nicht erwartungstreu. Oder auch für n gleich 1 nicht, wenn der, ja, ist eben nicht erwartungstreu. Nicht
erwartungstreu. Und damit haben wir gesehen, die V-Schätzer sind im Allgemeinen nicht erwartungstreu. Okay, Fragen soweit? Ja, ist eigentlich
trivial, steht auch alles im Skript. Aber jetzt kommt das Fiese. Mein nächstes Lämmer steht nicht im Skript. Wir machen eine Motivation von Maximum Likelihood. Und es gibt das Lämmer 5.1, ist allerdings ein
relativ kurzes Lämmer, auch mit einem kurzen Beweis. Also wenn Sie
überlegen, was Sie schon wissen aus der Einführung in die Stochastik, habe ich ja damals auch Maximum Likelihood motiviert. Das war irgendwie nicht so ganz klar, warum man den Schätzer eigentlich genau so definiert. Mein anschaulich war es so ein bisschen okay, aber es war auch so, also ich finde es immer so ein bisschen schwammig, das Ganze.
Und der mathematische Sachverhalt, der dahinter steckt, oder ein mathematischer Sachverhalt, mit dem man es motivieren kann, kommt im dem Lämmer. Und zwar motivieren wir direkt den Log Likelihood Schätzer. Oder damit kann man direkt den Log Likelihood Schätzer motivieren. Und die Idee ist, wenn Sie eine Zufallsvariable X mit Dichte F
haben, dann wird der Erwartungswert von log von g von x für eine beliebige Dichte g maximal, wenn g gleich f ist. Okay, ich schreibe es mal hin. Ist x Rd-wertige Zufallsvariable mit Dichte f? Und mit Dichte meine
ich Dichte bezüglich des Lebes-Borelmaßes. Und ist g von Rd
nach r beliebige Dichte wieder bezüglich Lb-Maß? So gilt.
Wenn ich mir den Erwartungswert von log f von x angucke, dann ist
die Aussage, der Erwartungswert von log f von x ist größer gleich als der Erwartungswert von log g von x.
Sieht jemand von Ihnen, was das mit dem Log Likelihood Schätzer zu tun
hat? Also für diejenigen, die den Log Likelihood Schätzer schon kennen. Sie können sagen, wo das Log herkommt. Also in der Anwendung,
wenn Sie das Produkt über die Dichte bestimmen, dann tun Sie anschließend den Logarithmus draufhauen und bestimmen Minimum und Maximum. Ja, das ist der Log Likelihood Schätzer. Also Log Likelihood Schätzer sagt Ihnen, statt der Likelihood Funktion, die Likelihood Funktion wäre das Produkt i gleich 1 bis n f theta von x i. Also f theta ist Ihre Dichte bei vorliegenden
Parameter theta und x 1 bis x n sind die beobachteten Zufallsvariablen. Tun Sie direkt den Logarithmus davon maximieren, was das gleiche ist, weil der Logarithmus monoton wachsend ist. Das führt dann auf die Summe i gleich 1 bis n Logarithmus von f von x i. Aber jetzt ist ja immer noch
die Frage, warum maximieren Sie diese Summe? Und ich behaupte, mit diesem Lämmer können Sie begründen, warum Sie so eine Summe oder motivieren, warum Sie so eine Summe maximieren. Und da müssen Sie jetzt mir irgendwie sagen, was diese Summe denn mit dem Erwartungswert hier zu tun hat. Also Sie haben unabhängig identisch verteilte Zufallsvariablen wie x und
statt diesem Erwartungswert von log von f von x betrachten Sie jetzt die Summe i gleich 1 bis n f von x i, Logarithmus von f von x i. Wenn ich mit dem Punktmaß arbeite, wird der
Erwartungswert gerade zu einem festen Wert, aber ich meine mit der Summe von Punktmaßen arbeite, aber da hätte ich kaum eine Dichte, oder? Also, wenn Sie das Richtige, also der
Punkt ist, Sie in der Anwendung können Sie das natürlich, also in der Anwendung könnten wir jetzt sagen, okay, um unsere Dichte zu schätzen, suchen wir eine Dichte, so dass der Erwartungswert von log von g von x möglichst groß wird. Dummerweise, um diesen Erwartungswert auszurechnen,
brauchen Sie die Verteilung von x, zum Beispiel die Dichte, aber die wollen Sie ja gerade schätzen, also so geht es irgendwie nicht. Aber was Sie jetzt machen können, wir schätzen diesen Erwartungswert durch einen Stichproben Mittel und wenn Sie unabhängig identisch verteilte Zufallsvariablen haben, dann nehmen Sie einfach 1 durch n mal die Summe i gleich 1 bis n Logarithmus g von x i und dann maximieren Sie das anstelle von dem Ausdruck.
Und ob Sie da jetzt 1 durch n mal die Summe maximieren oder ohne 1 durch n, ist es das gleiche. Okay, soweit klar? Ich schreibe es nachher auch noch mal hin. Gut, dann gehen wir an den Beweis, Beweis ist eigentlich
relativ trivial, wenn man weiß, wie es geht. Die Frage ist, weiß ich, wie es geht. Okay, Sie ziehen die eine Seite von der anderen ab und
zeigen Erwartungswert von log von g von x minus Erwartungswert von log von f von x ist kleiner gleich 0. Wir nehmen mal an, wir können wunderschön mit den Erwartungswerten und Logarithmus rechnen, so wie immer. Dann steht der Erwartungswert von Logarithmus von g von x durch f von x soll kleiner gleich 0 sein und um das zu machen,
wenden Sie einmal die Ungleichung von Jensen an auf die Kave Funktion Logarithmus und sind fertig. Was ich aber vorneweg machen muss, ist, alles ist so, wie es geht, was ich vorneweg machen muss, ich muss irgendwie sicher sein, okay, ich kann das wirklich auf die andere Seite bringen und dann irgendwie den Logarithmus zusammen basteln und da habe ich natürlich irgendwie ein Problem, wenn hier irgendwo 0 steht.
Ja, aber OBDA kann ich natürlich schon mal voraussetzen, dass g von x nur mit Wahrscheinlichkeit 0 gleich den Wert 0 annimmt, weil wenn g von x mit einer Wahrscheinlichkeit größer als 0 den Wert 0 annimmt, dann steht auf der rechten Seite
minusenendlich und wir müssen nichts mehr zeigen. Also OBDA, sonst rechte Seite gleich minusenendlich.
Also ich rechne einfach so mit, dass ich sage, der Logarithmus von 0 wäre minusenendlich und ich rechne dann eben auch den Erwartungswert von einer erweiterten zufallsvariable so aus, oder wie wir es eben standardmäßig auch machen, wenn dieser Wert minusenendlich dann mit einem Wert größer als
0 auftaucht, dann wäre er entweder nicht existent oder eben gleich minusenendlich, aber minusenendlich können wir eigentlich ausschließen. Okay, das zweite, was ich gerne hätte, das f von x soll auch nicht gleich 0 sein.
Wir gucken uns mal die Wahrscheinlichkeit an, wenn f die Dichte von x ist. Naja, das ist einfach die Wahrscheinlichkeit
Verteilung von x von der Menge aller kleinen x aus Rd, wo f von x gleich 0 ist. Ja, und jetzt ist f die Dichte von x. Dann wissen Sie, das können wir als Integral schreiben. Ja, aber die Integrationsmenge ist
so, dass da der Integrant eben gleich 0 ist. Dann integrieren Sie eigentlich nur noch über die 0, kommt 0 raus.
An diesen P ist ein x dran. Oder welches P meinen Sie? Ja, an diesen P, also ich schreibe das um. Das ist Px von der Menge aller kleinen x, die diese Bedingungen erfüllen.
Also von hier vorne kann ich es gut lesen, aber ich weiß natürlich nicht. Ja, und jetzt sage ich, es genügt zu zeigen.
Ich bringe einfach den Erwartungswert log f von x auf die andere Seite, fasse die beiden Erwartungswerte zusammen und teile dann durch. Ich nehme die Rechenregel für den Logarithmus. Daher genügt zu zeigen. Also beziehungsweise wir machen noch mal ein OBDA.
Jetzt wissen wir beides taucht nur mit Wahrscheinlichkeit 0 auf. Jetzt kann ich natürlich sogar voraussetzen, indem ich die Zufallsvariable auf eine Menge vom Maß 0 abändere. Das ist immer größer als 0. Also OBDA haben wir f von x von Omega. Eigentlich f von x größer 0 und g von x größer 0.
In dem Sinne, dass f von x von Omega größer als 0 ist für alle Omega aus dem Grundmenge des zu Grunde liegenden Wahrscheinlichkeitsraums und genauso g von x von Omega für alle Omega, indem ich einfach die Verteilung auf einer Nullmenge abändere.
Und es ändert natürlich nichts an den Ausdrucken, die hier stehen. Es genügt zu zeigen. Der Erwartungswert vom Logarithmus
von g von x durch f von x ist kleiner gleich 0.
Und das machen wir jetzt. Und das mache ich jetzt, indem ich die Ungleichung von Jensen für die Konkave-Funktion Logarithmus anwende.
Also wenn Sie sich erinnern, wie sieht der Logarithmus aus? Sie haben den Logarithmus.
Ja, da könnte eigentlich irgendwie ein bisschen besser gebogen sein vielleicht. Wenn man das deutlicher sieht. Sie nehmen zwei Punkte. Sie nehmen die Verbindungsgrade. Dann läuft die Verbindungsgrade immer unterhalb. Von der also zwischen den beiden Punkten unterhalb von dem Logarithmus. Das heißt, wenn Sie eine Konvex
Kombination von den beiden Argumenten des Logarithmus nehmen und Sie gucken sich den Logarithmus an dieser Konvex Kombination an, dann ist der eben kleiner gleich als die entsprechende Konvex Kombination der Funktionen, der beiden Funktionswerte an den beiden Stellen. Und jetzt deuten Sie den
Erwartungswert, der hier steht.
Das ist die entsprechende Konvex Kombination. Also Sie haben Erwartungswert von log von z. Und ich vergleiche mit Logarithmus an der Zwischenstelle und die ist eben größer gleich.
Auch Jensen gilt für die Koncave-Funktion Logarithmus von x. Das gilt wegen k.
Diese Erwartungswert von Logarithmus von g von x durch f von x,
der ist kleiner als kleiner gleich dem Logarithmus von Erwartungswert g von x durch f von x.
All das da ist der in der Zeichnung der Logarithmus an einer Zwischenstelle.
Und hier haben Sie die einzelnen Logarithmus, Logarithmenwerte, die Sie gemittelt haben. Das entspricht der Geraden. Das entspricht dem Punkt auf der Kurven oder Punkt auf der Geraden, Punkt auf der Kurven. Das schreiben wir jetzt noch mal um.
Also wir wissen jetzt, x hat eine Dichte f oder f ist Dichte von x.
Dann haben wir den Logarithmus und das Innen schreibe ich um als Integral mit Hilfe der Dichte. Das ist dann Integral über g von x durch f von x mal f von x
dx über rd.
Dann sehen Sie, das f von x kotzt sich raus. Das heißt, übrig bleibt ja nicht ganz das Integral von g von x dx, weil es könnte der Fall auftreten, dass f von x gleich Null ist. Dann würde da Null durch Null stehen und Null durch Null würden wir als Null ansehen. Das heißt, übrig bleibt eigentlich das Integral über g von x mal die Indikatorfunktion,
dass f von x ungleich Null ist.
Also ich schreibe es mal so hin, Indikator von f von x ungleich Null. Gemeint ist eigentlich Indikator zur Menge aller z, wo f von z ungleich Null ist, ausgewertet an der Stelle x. Und was ich jetzt bräuchte, ist, dass das klarer gleich Null ist. Dann sind wir fertig.
Hat jemand von Ihnen einen Vorschlag? Das Integral ist beschränkt mit 1. Das heißt, die Funktion hier ist ja nicht negativ. Der Logarithmus ist monoton. Ich schätze das Integral nach oben ab durch das Integral über g von x dx.
Nehmt davon den Logarithmus. Ist klarer gleich als Logarithmus von Integral über Rd g von x dx. Und ich weiß, g ist eine Dichte.
Also übrig bleibt der Logarithmus von 1, was gleich Null ist. Okay, Fragen soweit?
Also ich finde irgendwie es eine ganz hübsche Sache, weil es wirklich mal begründet, warum man eigentlich einen Maximum-Like-Diode-Schätzer nehmen soll. Also irgendwie ist ein kleines technisches Lämmer. Dabei ist eigentlich trivial Ungleichung von Jensen. Muss eben ein bisschen drauf achten. Kann ich die Umformung machen? Im Prinzip hätte ich noch
ein bisschen drauf achten müssen. Existieren die Erwartungswerte auch. Da hätte man vielleicht noch drauf achten können. Weil sonst kann ich ja auch nicht. Sonst ist ja der... Also ich habe ja hier auch noch ausgenutzt. Der Erwartungswert der Differenz ist die Differenz der Erwartungswerte. Da müsste man vielleicht noch ein bisschen drauf achten. Man gilt das. Und noch ein paar Unterscheidungen reinmachen. Aber das sollte eigentlich einfach sein.
Beziehungsweise was Sie eigentlich bräuchten dafür wäre das saubere maßtheoretische Resultat, wenn Sie so ein Maßintegral auseinander ziehen können. Und das können Sie eben nicht nur,
wenn die beiden Integrale endlich sind. Sondern das können Sie auch noch. Also Sie können es eben nicht, wenn das eine Integral plusenendlich ist und das andere minusenendlich. Das darf nicht auftreten. Aber um das mal maßtheoretisch zu sehen, haben Sie wahrscheinlich in der Integrationstheorie nicht gemacht. Da brauchen wir auch so 20 Minuten. Das ist irgendwie ein bisschen ein bisschen eine unschöne Sache.
Okay. Hat nun die Verteilung Wteta von X eine dichte Fteta bezüglich des Lebesque-Borelmaßes? So gilt theta als eben das Argumentmaximum vom Erwartungswert bei wahren Parameter theta quer vom Logarithmus von F
quer theta.
Hat Verteilung Wteta von X eine dichte Fteta. Ich lasse bezüglich des Lebesque-Borelmaßes weg. Verteilung Wteta aus Großteta.
So gilt dieses Teta ist das Argument vom Maximum von Teta quer aus Großteta
vom Erwartungswert bei wahren Parameter theta quer vom Logarithmus vom Fteta quer von X. Wir schätzen nun
diesen Erwartungswert hier durch den Stichprobenmittel und nehmen dann das Maximum oder die Maximalstelle des entsprechenden Stichprobenmittels als Schätzer für theta.
Wir schätzen nun ach so ja Entschuldigung, hab ich mich verschrieben?
Ich dachte, ich hab einen Schreibfehler im Skript, aber hatte ich nicht. Sondern ich hab einen Schreibfehler hier reingemacht. Ich meine natürlich nicht das da, sondern ich meine ich nehme hier den wahren Parameter theta aber mach den Logarithmus von Fteta quer von X. Weil da sind wir ja genau in der Situation.
Also G ist eine beliebige Dichte, es wäre das Fteta quer und X hat aber in Wahrheit die Tichte Fteta und dann wird der Ausdruck eben maximal für theta gleich theta quer.
Und dann schätzen wir diesen Erwartungswert bei wahren Parameter theta von Log
Fteta quer von X durch das entsprechende Stichprobenmittel. Mittel, also eins durch n
Summe i gleich eins bis n Logarithmus theta quer von Xi. Wobei eben die x, x1 bis xn unabhängig identisch verteilt sind.
Und definieren den sogenannten Log likelihood Schätzer durch
durch theta Dach. Das ist das Argument vom Maximum theta quer aus theta
von diesem Ausdruck hier.
Okay, und die Alternative kennen Sie schon alle.
Ich beachte ich kann die Summe jetzt hier reinziehen als Produkt. Ich beachte der Logarithmus des Monoton wachsend und maximiere eben direkt das Produkt. Also Alternativ. Ich beachte dieses eins durch n
ist gleich eins durch n mal Logarithmus jetzt von dem Produkt. Und eben x wird abgebildet auf eins durch n mal Log x
ist monoton abwachsend.
Und definiere den sogenannten Maximum likelihood Schätzer durch
also theta Dach ist eben das Argmaximum theta quer aus theta
von L von theta quer. Mit L von theta quer ist genau dieses Produkt der Dichten.
Und das da ist die sogenannte likelihood Funktion.
Okay, Fragen soweit?
Also ich mache dann gleich noch ein Beispiel. Vielleicht noch eine abschließende Merken zu dem Lemma 5.1. Was Sie jetzt mit Lemma 5.1 machen können
als nächstes wäre sich zu überlegen, wenn Sie den Abstand von einer Dichte g zur Dichte f im Sinne des Abstandes von dem Erwartungswert von log von f von x zu Erwartungswert von log von g von x wüssten. Also wenn Sie das irgendwie beschränken können, können Sie dann irgendwie zurückschließen auf zum Beispiel L2 Abstand zwischen den Dichten
oder L1 Abstand zwischen Dichten oder Subnorm Abstand zwischen den Dichten, irgend sowas. Und da gibt es Zusammenhänge. Das war mit so einer Kulver-Gleiber-Distance, die Sie wieder zurückführen können auf ich glaube L2 Abstände von den Dichten. Und dann können Sie
als nächstes sich überlegen, ja, können Sie irgendwie den Abstand zwischen dem Erwartungswert und so einem Stichprobe Mittel gleichmäßig über diesen Parameter Raum theta in den Griff bekommen. Und das können Sie wieder mit Maximalungleichungen. Im Prinzip hatten wir sowas schon mal beim Theorien von Flivenko-Cantelli,
wo wir ja auch eine Exponentialungleichung hergeleitet haben, zwischen für den Abstand Uniformen Abstand von Stichproben mitteln über zu Erwartungswerten gleichmäßig über einen ganzen Funktionenraum eigentlich, weil es da einen Funktionenraum über Indikatorfunktionen war. Und damit können Sie diesen Log-like-Kehotschätzer irgendwelche Konsistenzaussagen oder Konvergenzraten
herleiten. Also eigentlich eine ganz lustige Sache. Machen Sie ihn da. Theorie der empirischen Prozesse führt aber auf recht unschöne Regularitätsvoraussetzungen insgesamt, die Sie dabei brauchen. Aber damit können Sie eben mit solchen Ungleichungen zwischen Ungleichungen, oder Abschätzungen zwischen Stichprobenmitteln und Erwartungswerten,
die gleichmäßig über einen Funktionenraum sitzen, können Sie auf Fehlerabschätzungen für Log-like-Kehotschätzer kommen. Okay, möchte ich aber in der Vorlesung nicht machen. Wir werden stattdessen nur noch ein Beispiel zum Maximum-Light-Gear-Prinzip machen. Und das war es dann soweit mit der Vorstellung
der Schätzfunktion. Aber vorher wollte ich noch die Tafel wischen, mache jetzt fünf Minuten Pause. Und wir machen dann um... Ja, was sagt diese Uhr? Diese Uhr sagt... Also 3 Uhr, 18 Uhr dann ungefähr weiter. Okay, dann würde ich ganz gern weitermachen.
Also wir machen noch ein Beispiel. Wir betrachten... Äh... Schätzung der Parameter der Normalverteilung, also Erwartungswert und Varianz.
Beispiel wäre x1 bis xn unabhängig normal verteilt mit Erwartungswert μ und Varianz σ².
Geschätzt werden soll θ gleich μ σ².
Naja, hier haben Sie jetzt die Dichte fθ von x... äh... Dichte eben der Normalverteilung.
Hier hat die x die Dichte fθ von x, also fμ σ² von x. Gleich 1 durch Wurzel 2π σ,
e hoch minus x minus μ durch 2 σ².
Und ich schreibe hier vielleicht das σ² als Wurzel, noch unter die Wurzel, weil ich ja das σ² als Parameter aufnehme. Also ich schätze σ² direkt, nicht σ selber. Äh... Die likelihood-Funktion
L von θ ist das Produkt i gleich 1 bis n fθ von xi.
Ja, da müssen Sie eben Kleine x durch xi ersetzen. Dann können Sie das Produkt nehmen. Den Faktor können Sie als Faktor mit dem Exponenten n rausziehen und das Produkt dann in die... als Summe in den Exponenten schreiben.
Dann kommen wir auf 2π hoch minus n halbe, dann σ² hoch minus n halbe mal e hoch minus, jetzt kommt die Summe,
i gleich 1 bis n, xi minus μ durch 2 σ².
Jetzt an der Stelle bietet sich es an, statt der likelihood-Funktion direkt die log-likelihood-Funktion, also den Logarithmus davon zu maximieren.
Maximierung von log-L von θ. Und dann sehen Sie, dann bekommen wir eben... Das Produkt verwandelt sich eben in die Summe der einzelnen Logarithmen
und der Exponentialtherm das e hoch verschwindet komplett. Und bei dem anderen kann ich die... kann ich hier den Vorfaktor rausziehen. Hier lasse ich ihn einfach stehen. Wenn ich nachher ableite, spielt der erste Faktor sowieso keine Rolle mehr.
Logarithmus von 2π hoch minus n halbe plus... oder eigentlich minus n halbe und σ². Und dann minus...
Minussumme i gleich 1 bis n, xi minus μ zum Quadrat durch 2 σ². Jetzt setze ich die partiellen Ableitungen gleich 0, führt auf...
0 soll gleich sein. D nach... der Verband mit μ an, D nach dμ. Und dann sehen Sie, der erste Term verschwindet bei der Ableitung. Der zweite Term hängt gar nicht von μ ab,
verschwindet auch bei der Ableitung. Das heißt, da kommt 0 minus 0 raus. Und dann der dritte Term nach μ abgeleitet. Ja... Ja, ich glaube, das sehen Sie auch mit einem Schlag. Ich kann die 2 nach vorne ziehen. Mit der 2 hier kurzen,
kriegt man noch von der minus 1 von der inneren Ableitung. Wir bekommen also ein... Plus... Summe... i gleich 1 bis n, xi minus μ durch... σ² raus. Und dann können Sie direkt nach μ auflösen.
Dann sehen Sie, die Summe der xi... Also, mit σ² kann ich noch durchmultiplizieren. Bleibt noch Summe i gleich 1 bis n, xi minus n mal μ soll gleich 0 sein. Das heißt, μ ist das arithmetische Mittel der xi.
Dann haben wir das. Also... Der Schätzer für den Erwartungswert wäre der Standardschätzer. Und das Zweite, ich leite jetzt auch noch nach... Und hier in dem Beispiel, ich leite wirklich nach der σ² ab.
Also nicht nach σ. Also der Parameter, der mich interessiert, ist σ². Haben Sie eine Frage? Doch nicht. Je nach die σ². Leite ich ab. Einfach weil dann kann ich die Ableitung...
Oder dann bekomme ich ein bisschen schöneren Schätzer zum Hinschreiben. Ich könnte es anders genauso ausrechnen. Der erste Term hängt wieder gar nicht von σ² ab. Der Zweite gibt nach σ² abgeleitet. Also das ist die Variable.
Gibt ein minus ein halbe mal eins durch σ². Und der Dritte nach σ² abgeleitet. Also dieses... Ein halbmal... Diese Summe hier bleibt eigentlich stehen.
Und dann nach σ² abgeleitet. Da habe ich ein σ² hoch minus eins. Gibt minus eins mal σ² hoch minus zwei. Also minus eins durch σ² zum Quadrat.
Und dann sehen Sie, dann können Sie das jetzt mit σ² durchmultiplizieren. Oder noch besser mit σ hoch vier. Also mit σ² zum Quadrat. Und ich teile noch... Ja, ich bringe den einen Term dann noch auf die andere Seite.
Teile noch mit n halbe durch. Und sehe, σ² ist dann gleich... Also das ist rübermultipliziert. Das auf der anderen Seite. Wir müssen das noch durch n halbe teilen. Das Minus hat sich mit dem Minus hinten weggehoben.
Das heißt, es kommt eins durch n Summe i gleich eins bis n. xi minus mu zum Quadrat raus. Und wir kennen schon mu. Das wäre eins durch n. i gleich eins bis n. xi minus arithmetische Mittel der xi.
Und... Also das sind jetzt Ihre Maximum-Like-Leut-Schätzer. Der eine hier, der andere hier. Dann sehen Sie, der Maximum-Like-Leut-Schätzer für σ² stimmt hier mit dem V-Schätzer überein.
Der ja nicht erwartungstreu ist. Und ist daher... ...im Allgemeinen auch nicht erwartungstreu.
Also Maximum-Like-Leut-Schätzer stimmt hier mit dem V-Schätzer überein.
Und damit sehen wir, der Maximum-Like-Leut-Schätzer ist im Allgemeinen nicht erwartungstreu.
Okay, Fragen soweit. Das klingt nicht direkt nach Fragen.
Dann kommen wir zum nächsten Abschnitt. Also wir hatten jetzt gerade, wir haben angefangen mit dem Punkt-Schätz-Verfahren. Wir hatten einen Abschnitt über Definition, was sind Punkt-Schätz-Verfahren. Wir haben einen zweiten Abschnitt jetzt gehabt, wo ich Ihnen einige Beispiele zu Punkt-Schätz-Verfahren gegeben habe. Und jetzt wollen wir eigentlich auf das zusteuern, was den Mathematiker eigentlich mehr interessieren würde. Nämlich, wir wollen ja nicht nur ein Verfahren haben, wir wollen
möglichst ein möglichst gutes Verfahren haben, möglichst ein optimales Verfahren haben. Und das wirft die Frage auf nach optimalen Schätz-Verfahren. Und da sage ich etwas dazu in Abschnitt 5.3.
Also die Frage, um die es hier geht, ist, was ist ein optimales Schätz-Verfahren?
Und da stellt sich erst mal heraus, dass es gar nicht mal ganz so einfach zu definieren, wann wir ein Schätz-Verfahren als optimal verstehen. Und ich möchte Ihnen hier mal drei verschiedene Prinzipien vorstellen, gemäß denen Sie ein Schätz-Verfahren als optimal herauswählen können.
Wir gehen davon aus, dass ich eine Verlustfunktion vorliegen habe, die Ihnen bei Vorlage von G von Teta oder bei gegebenem G von Teta und Vorhersage durch Tn von x1 bis xn einen Verlust angibt, den Sie bei dieser Verwendung, dieser Schätzung, bei diesem wahren Wert machen.
Also gegeben Verlustfunktion L, Funktion von R ober K nach R ober K, R ober K, Kreuz R ober K nach R plus,
mit der Eigenschaft, wenn der Warenwert ein V ist und die Vorhersage ist auch ein V, dann ist der Verlust gleich Null. Also wenn Sie es richtig vorhersagen, werden wir diesen Verlust gleich Null für alle V aus Rk.
Und bei Vorhersage von G von Teta durch Tn von x1 bis xn sei eben L von Tn von x1 bis xn und G von Teta größer gleich Null der auftretende Verlust.
Sei L von Tn von x1 bis xn und G von Teta größer gleich Null der auftretende Verlust.
Einfachstes Beispiel, wenn K gleich 1 ist, wir definieren uns L von u, v einfach als Betrag von u minus v hoch einer gewissen Exponenten P, P ist eine Zahl größer gleich 1.
Beispiel K gleich 1, also G von Teta ist jetzt eine reelle Zahl.
Und L u, v definieren wir Betrag von u minus v hoch P, das ist ein kleines P, für ein P größer gleich 1. Und meistens nimmt man P gleich 2, also L von u, v ist gleich u minus v zum Quadrat.
Jetzt in der Statistik oder in der Stochastik ist es ja normalerweise nicht so, dass Sie, naja, Sie können natürlich sagen, ich möchte meinen optimalen Verlust haben für meine gegebene Stichprobe. Aber das werden Sie normalerweise nicht schaffen, sondern Sie gehen immer auf so etwas hinaus wie optimaler Verlust im Mittel.
Also wir stellen uns vor, wir kriegen immer wieder so eine Stichprobe. Gemäß unserer Wahrscheinlichkeit W Teta, wir machen immer wieder, setzen das immer wieder in unseren Schätzer T n ein, machen die Vorhersage, machen dann jeweils einen Verlust. Der Verlust gibt eine zufällige Zahl und wir gucken uns an, wie groß diese zufällige Zahl im Mittel.
Und das ist das sogenannte Risiko. Also bei vorliegendes Parameter Teta und wiederholter Vorhersage von G von Teta durch T n von x 1 bis x n, tritt im Mittel der Verlust.
R von T n von Teta, das ist der Mittelwert bei wahren Parameter Teta, von L von T n von x 1 bis x n und G von Teta.
Und das ist das sogenannte Risiko.
Also der erste Schritt ist, wir gehen von dem zufälligen Verlust für eine Stichprobe eben auf dem Verlust dem Mittel über. Und Art für mehr ist eigentlich nicht, oder es ist nicht realistisch, irgendwas anderes zu minimieren, wenn Sie Daten mit Fehlern beobachten.
Ja, wünschenswert ist jetzt, dass wir eine Schätzfunktion finden, die ein minimales Risiko hat für alle Teta.
Also wünschenswert Schätzfunktion, ich nenne die mal T n Komma Opt, also
für die optimale Schätzfunktion, mit minimalem Risiko für alle Teta aus Teta.
Das heißt, wenn ich es in der Formel schreiben will, mit der Eigenschaft R von T n Opt, ich nenne die Eigenschaft mal Stamm von Teta,
ist klar nicht gleich als R von T n von Teta, für alle Teta und für alle Schätzfunktionen T n.
Also für alle Teta aus Teta und alle Schätzfunktionen.
Also das wäre naheliegenderweise das erste Ziel, was man sich versuchen könnte zu erreichen. Also wir wollen eine Schätzfunktion finden, sodass die Vorhersage im Mittel im Vergleich zu allen anderen Schätzfunktionen bei allen vorliegenden Situationen das Risiko minimal ist.
Also der Vorhersagefehler im Mittel ist minimal. Und das Problem, was jetzt auftritt, ist, das wird in aller Regel nicht gehen. Und das ist relativ einfach zu sehen. Also Problem, solche Schätzfunktionen existieren im Allgemeinen nicht.
Also Problem T n Komma Opt existiert nicht. Oder solche Schätzfunktionen.
Ja, und wie sehen Sie das? Na ja, ganz einfach. Wenn ich, ich kann jetzt eine Schätzfunktion für jeden einzelnen Parameter konstruieren, die immer Risiko Null hat.
Und zwar das mache ich, indem Sie für diesen oder indem diese Schätzfunktion guckt eben kurzerhand die Stichprobe gar nicht mehr an, sondern sagt immer diesen einen Parameterwert voraus.
Oder hier in dem Fall das G von Teta. Oder sagt immer für ein festes Teta Null immer G von Teta Null voraher. Und dann ist es klar, wenn Teta Null der wahre Parameter ist, dann ist das Verlust gleich Null. Dann ist es klar, dann wird natürlich auch dieses Risiko für diesen wahren Parameter gleich Null sein. Für diesen einen.
Für alle anderen ist sie nicht mehr gut, aber für diesen einen ist sie gut. Ja, wenn jetzt diese T n Opt diese Eigenschaft Stamm hat, dann muss sie aber für diesen einen mindestens genauso gut sein. Das heißt auch Null. Ja, das können Sie jetzt für jeden einzelnen machen. Dann muss R von T n Opt eben für alle Teta gleich Null sein, was Sie in Allgerregeln nicht schaffen werden.
Also denn, wir betrachten T n Komma Teta Null von x 1 bis x n.
Und diese Schätzfunktion ignoriert einfach völlig die Stichprobe und sagt immer G von Teta Null vorher. Hat Risiko.
Und die hat dann eben Risiko R von T n Teta Null von Teta Null. Ja, das ist Null. Weil nach unserer Voraussetzung war eben dieses L von G von Teta Null Komma G von Teta Null immer gleich Null.
Also Erwartungswert darüber auch gleich Null. Also folgt aus Stern. Also impliziert Stern.
Ja, eben das R von T n Komma Opt von Teta Null klarer gleich Null ist. Also R von T n Opt Komma Teta Null muss gleich Null sein. Und Teta Null war beliebig. Also muss R von T n Opt von Teta Null sein für alle Teta.
Und das können Sie eigentlich nicht schaffen. Also im Allgemeinen unmöglich.
Also so geht's nicht. Und das Einzige, wie wir jetzt doch noch eben zu optimalen Schätzfunktionen kommen ist, dass wir dieses Kriterium für die Optimalität Stern irgendwie abschwächen.
Also Ausweg, Abschwächung von Stern oder Abschwächung des obigen Optimalitätskriteriums.
Haben Sie Fragen soweit?
Keine Fragen. Dann fange ich mal an und stelle Ihnen drei, also ich werde Ihnen letzten Endes drei Möglichkeiten vorstellen. Dann werden wir heute wohl nicht mehr alle schaffen, wie Sie dieses Stern abschwächen können.
Die erste Möglichkeit ist das sogenannte Minimax Prinzip. Wir minimieren das maximale Risiko. Also Möglichkeit eins.
Minimax Prinzip, minimiere das maximale Risiko.
Wir wollen also, dass unser T n Opt die Eigenschaft hat, wenn ich das maximale Risiko, was bei T n Opt auftaucht, das ist die Supremung über alle Teta aus Teta von R von T n Opt von Teta,
dann soll das eben im Vergleich zu allen anderen Ausdrücken minimal sein. Also allen Ausdrücken bei allen anderen Schätzverfahren.
Also Infimum über alle Schätzer T n und Supremum Teta aus Teta R von T n von Teta.
Eine schöne Deutung von dem Ding ist, Sie können das ganze deuten als Verlust bei einer optimalen Spielstrategie, bei einem Zwei-Personen-Spiel, und zwar Sie spielen gegen die Natur. Im ersten Schritt wählt die Natur eine für Sie möglichst ungünstige Situation, wo Sie schätzen müssen.
Und im zweiten Schritt wählen Sie dann einen möglichst guten Schätzer. Und wenn jetzt beide Spieler optimal spielen, dann kommt das Minimax-Risiko hier raus.
Das ist eigentlich ein ganz lustiges Prinzip. Also Sie gucken sich immer, können Sie auch im realen Leben machen, immer wenn Sie Entscheidungen treffen, gucken Sie sich den ungünstigsten möglichen Fall an. Also ich mache das meistens nicht immer, wenn Sie es immer machen würden, dann würden Sie gar nichts mehr machen. Also wenn Sie zum Beispiel ein Haus kaufen, was ist der ungünstigste möglichste Fall?
Und dann müssen Sie irgendwann die Summe bezahlen. Und dieses Bezahlen geht, wenn Sie überlegen, wenn Sie in den Supermarkt gehen und Sie bezahlen, dann kriegen Sie da die Ware und Sie geben so einen Geldschein rüber. Aber wenn Sie das irgendwie so mit 400.000 Euro machen, dann geben Sie natürlich nicht so hier der Geldkoffer.
Ich meine, das würden Sie schon gar nicht machen, weil dann müssten Sie in die Bank gehen, mit diesen 400.000 Euro rauskommen. Also zumindest nicht mehr, wenn Sie ein Minimax-Prinzip anwenden, dann würden Sie nicht mehr mit diesen 400.000 Euro durch die Gegend laufen. Aber auch wenn Sie überlegen, Sie überweisen das, dann überweisen Sie mal das Geld. Ja, aber Sie kriegen ja nicht das Haus per se, sondern Sie müssen ja einen Grundbucheintrag bekommen.
Also eigentlich, und jetzt könnte in dem Moment, wo Sie das Geld überweisen, in der Bauträgerpleite gehen oder sowas, oder Geschäftspartnerpleite gehen und das ganze Geld versinkt in der Insolvenzmasse. Das können Sie natürlich so machen, das machen Sie über ein Notar. Also Sie können die Zahlung über ein Notar abwickeln und der Notar dann ein Konto, wo er einzahlt.
Aber dann kann das Problem aufbrauchen, der Notar könnte mit dem Geld durchbrennen. Das kommt auch vor. Das wäre auch nicht... Also wenn Sie es zu Ende denken, würden Sie eigentlich nie ein Haus kaufen, das Minimax-Prinzip. Weil Sie kriegen es nicht hin. Also gewisse Risiken müssen Sie eingehen.
Aber in vielen Situationen können Sie es machen. Und das zweite, aber machen wir wohl erst das nächste Mal, wäre das sogenannte Bayes-Prinzip. Da würden Sie hier nicht ein Supremum einfach bilden, sondern Sie würden das Ganze mitteln
bezüglich Annahmen für wie wahrscheinlich halten Sie den Parameter. Also Sie würden sich überlegen, was tritt wahrscheinlich auf, was tritt vielleicht nicht auf, welcher Verlust ist für mich besonders schlimm, welcher nicht so schlimm. Dann würden Sie hier ein Mittel machen von all diesen Verlisten bezüglich einer Wahrscheinlichkeitsverteilung auf dem Parameterraum. Die müssen Sie natürlich irgendwie vorgeben. Und dann würden Sie versuchen, darüber das optimale Schätzproblem zu finden,
was bezüglich diesem Mittel optimal ist. Beides werden wir in der Vorlesung eigentlich nicht machen, sondern wir werden das dritte machen. Wir werden im Prinzip dieses Kriterium Stern schon mehr oder weniger nehmen.
Aber werden eben zum Vergleich nicht mehr alle Schätzfunktionen zulassen, sondern nur noch alle erwartungstreuen Schätzfunktionen. Und da zeigen, da kann man dann sowas konstruieren. Okay, aber ich glaube wir sind eigentlich schon mehr oder weniger am Ende. Dann würde ich sagen, machen wir für heute Schluss. Und ich sehe Sie dann am Montag.