Kurvenschätzung: Einführung
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Teil | 1 | |
Anzahl der Teile | 24 | |
Autor | ||
Lizenz | CC-Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben. | |
Identifikatoren | 10.5446/34284 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | |
Genre |
Kurvenschätzung1 / 24
1
2
7
9
10
11
12
15
16
19
20
23
24
00:00
ApproximationGeschwindigkeitKombinatorikKurveMaß <Mathematik>MathematikMathematikerMengeNumerische MathematikPhysikPhysikerRelativitätstheorieSignifikanztestStatistikStichprobeStochastischer ProzessTransformation <Mathematik>Funktion <Mathematik>MengenlehreNormalverteilungPhysikalische GrößeVarianzWürfelBerechnungFrequenzStochastikZufallszahlenMittelungsverfahrenProdukt <Mathematik>ErweiterungBrownsche BewegungZufallsvariableFlächeKategorie <Mathematik>IntegralGanze FunktionAusdruck <Logik>DimensionsanalyseBandmatrixZusammenhang <Mathematik>UnendlichkeitDeterminanteUngleichungÜbergangGlobale OptimierungArithmetisches MittelAussage <Mathematik>Bedingter ErwartungswertBeweistheorieEinfach zusammenhängender RaumErwartungswertErzeugendeFunktionalGarbentheorieGleichverteilungGrenzwertberechnungGruppenoperationHyperbelverfahrenIndexberechnungInhalt <Mathematik>KernfunktionLemma <Logik>Lineare RegressionLokales MinimumMereologieMomentenproblemMultiple RegressionPaarvergleichPhysikalische TheorieProjektive EbeneResultanteSchwache KonvergenzStatistikerStetige FunktionStichprobenumfangStichprobenfehlerTabelleÜbergangswahrscheinlichkeitWarteschlangeWiderspruchsfreiheitZentralisatorSchätzungFlächeninhaltSummeSchranke <Mathematik>Güte der AnpassungReelle ZahlEinflussgrößeExogene VariableAbstandParametersystemRuhmasseGewicht <Ausgleichsrechnung>Anpassung <Mathematik>InferenzstatistikPräkonditionierungRandomisierungPolnischer RaumDistributionenraumQuadratzahlSummierbarkeitPunktFeuchteleitungBetrag <Mathematik>Glattheit <Mathematik>Dichte <Physik>Klasse <Mathematik>RegressionsschätzungNegative ZahlKonvergenzgeschwindigkeitNichtparametrisches VerfahrenDichteschätzungKartesische KoordinatenParametrische ErregungWahrscheinlichkeitsraumProzess <Physik>Vollständiger VerbandSchätzfunktionMultifunktionArithmetischer AusdruckPartielle DifferentiationMaximumObere SchrankeIntegrierbarkeitFlächentheorieMessbare FunktionFormaler BeweisKonditionszahlBillard <Mathematik>Messbare AbbildungSupremum <Mathematik>DifferenteKontrast <Statistik>KurvenschätzungRegressionsfunktionp-BlockKlassische PhysikMultiplikationsoperatorKerndarstellungZweiMinkowski-MetrikStatistikerinOrtsoperatorKurveSchaleSpieltheorieTopologieLokales MinimumVerschlingungLängeHöheStrukturgleichungsmodellSupremum <Mathematik>Schar <Mathematik>Level-Set-MethodeFahne <Mathematik>Vorlesung/Konferenz
Transkript: Deutsch(automatisch erzeugt)
00:05
Dann kann ich Sie recht herzlich begrüßen zur ersten Vorlesung in der Vorlesung. Ich finde es irgendwie ist halt hier. Der Vorlesung Kurvenschätzung im, ja wisst ihr welches Semester es ist? Ich glaube es war Sommersemester 15. Falls Sie mich noch nicht kennen, sind Sie im Prinzip eigentlich falsch hier,
00:22
weil die Voraussetzung ist, dass die mathematische Statistik, aber ich sage es trotzdem vielleicht noch mal, falls Sie meinen Namen vergessen haben. Ich weiß Ihnen noch, mein Name ist Michael Kohler. Ich bin hier der Statistiker an der TU Darmstadt und es handelt sich um die zweite Vorlesung im Rahmen der Vertiefung zur mathematischen Statistik.
00:42
Was wollte ich noch vorne weg erzählen? Also Sie sehen, es gibt noch eine weitere Dame, die gerade meine Tafel voll schreibt. Werden Sie gleich sehen warum. Es ist nicht so, dass ich neuerdings nicht mehr selber schreiben kann. Ich glaube ich wollte noch den Witz erzählen, den ich für den Tontest vorbereitet habe, aber es gab gar keinen richtigen Tontest,
01:02
der war so ein bisschen kurz. Und ich weiß nicht, also ich weiß ja nicht, was Sie so dazu gelernt haben in den letzten paar Monaten. Also bei mir zum Beispiel, ich habe anderthalb Kilo zugenommen. Das war eine Sache. Ich weiß auch warum. Ich war irgendwie in Montreal und meine Tochter hat mich gebeten, ich soll alles essen, fotografieren. Habe ich auch gemacht, was ich gegessen habe. Hinterher hatte ich die Fotos angeguckt und mich dann gewundert,
01:22
beziehungsweise nicht mehr gewundert, warum die Waage plötzlich 1,5 Kilo mehr zeigt. Das war das eine. Aber dann habe ich noch eine lustige Sache gelesen. Nämlich, ich habe irgendwann mal die FAZ am Sonntag gelesen und da stand drin, wie das eigentlich ist mit dem Notarzt in Deutschland. Ich weiß gar nicht, ob Sie mal kapiert haben, wie funktioniert das eigentlich mit dem Notarzt in Deutschland.
01:41
Meine Frau hatte wegen unseren Kindern immer so Notrufnummern aufs Telefon notiert. Und da steht dann zum Beispiel Polizei 110, Feuerwehr 112. Dann stand da Notarzt 116 117. Das ist die bundesweit einheitliche Rufnummer für den ärztlichen Bereitschaftsdienst. Das ist natürlich sehr sinnvoll, nur bekommen Sie da dummerweise eine Warteschlange in Darmstadt.
02:03
Und wir sind dann vielleicht auf Platz 20 und können so ungefähr 20 Minuten warten. Das erste Interessante, was ich zum Thema Notarzt erzählen möchte, ist, wenn Sie einen Notarzt brauchen, rufen Sie nicht den Arzt, sondern Sie rufen die Feuerwehr. Das ist, glaube ich, ein Problem, wenn Sie da nicht mehr sprechen können, weil Sie sich irgendwie verschluckt haben oder so.
02:20
Weil dann kommt wahrscheinlich die Feuerwehr und nicht der Notarzt. Aber abgesehen davon, okay, ist so in Deutschland. Aber dann war eine Kolumne in der FAZ, wozu eigentlich der Notarzt da ist. Die meisten Leute hätten eigentlich die Vorstellung, der Notarzt wäre dafür da, damit es ihnen hinterher irgendwie besser geht oder damit sie gesund werden oder so was. Das ist ja klar, sie sind krank, da rufen sie Notarzt, damit sie wieder gesund werden und eben schwer kranken.
02:44
Aber das habe ich dann neu gelernt. Nein, das ist nicht so. Der Notarzt ist eigentlich nur dazu da, sie lebendig ins Krankenhaus zu transportieren. Alles andere kann er eigentlich gar nicht. Das heißt, er ist auch gar nicht ausgerüstet, sie wieder gesund zu machen, sondern er transportiert sie nur ins nächste Krankenhaus. Das fand ich insofern interessant, weil ich vor Jahren mal gelesen habe,
03:02
dass in Horb am Neckar ein Postbote als Notarzt gearbeitet hat. Das fand ich dann genau passend, weil ich konnte mir vorstellen, der Mann hatte wahrscheinlich eine gute Berufserfahrung, weil der hat jahrelang Leute zuverlässig Briefe zugestellt, dann konnte er auch. Okay, gut, Sie verstehen den Witz. Ja, dann darf ich Ihnen die junge Dame neben mir vorstellen.
03:22
Das ist die Frau, der Name steht da, Cornelia Wichelhaus. Die ist neu bei uns seit 1. April, hat die Dauerstelle Leere von der Frau, die früher die Frau Jahnke hat und ist erfreulicherweise Statistikerin. Auch wenn das da steht, sie bietet ein Seminar Stochastische Prozesse an. Aber ich glaube, das liegt daran, weil sie eine Statistik Stochastische Prozesse macht,
03:40
weil es auch perfekt passt. Und sie würde Ihnen kurz was erzählen zum Seminar, was sie anbietet.
04:36
So, bei Brillenträgern ist es immer noch komplizierter mit dem Mikro.
04:41
Ja, ich möchte einen kurzen Werbespot schalten. Ich biete in diesem Semester ein Seminar an zu Stochastischen Prozessen. Das ist angedacht als Masterseminar. Und eine Spezialvorlesung 2 plus 1 zur Theorie Stochastischer Prozesse.
05:00
Und ich wollte Sie einladen, sich zu überlegen, daran teilzunehmen. Die Vorbesprechung wird sein an diesem Freitag, 17.04. um 14 Uhr. Wir treffen uns vor meinem Büro und je nachdem, wie viele Leute kommen, suche ich dann einen geeigneten Raum. Wer verhindert ist, aber trotzdem Interesse hat, schreibe mir bitte vorab eine E-Mail.
05:21
Was ich in der Vorlesung machen werde, ist Folgendes. Ich möchte mich erst einmal ganz abstrakt mit Stochastischen Prozessen beschäftigen. Das heißt, was ist das überhaupt? Wann existiert so etwas? Und wann ist dann dieser Stochastische Prozess auch eindeutig? Das führt dann zu einem Konsistenzsatz von Kolmogorov. Und wir werden dann auch wichtige Beispiele, Klassen kennenlernen.
05:42
Zum Beispiel Markovketten, Poissonprozesse und die Braunische Bewegung. Und im zweiten Teil der Vorlesung geht es ein bisschen abstrakt dazu. Da bewegen wir uns auf polnischen Räumen und untersuchen, wann solche Stochastischen Prozesse konvergieren. Es gibt also schwache Konvergenz auf polnischen Räumen von Stochastischen Prozessen.
06:01
Und da kann man dann auch schöne Konvergenzprinzipien herleiten, zum Beispiel auf dem Raum aller stetigen Funktionen oder aller Cadillac-Funktionen. Darum wird es gehen. Ja, also ich freue mich, wenn noch Interessierte da sind, die kommen.
06:20
Falls noch jemand einen Bachelor-Schein braucht, einen Bachelor-Seminarschein, dann kann er sich auch melden und versucht das irgendwie einzubauen. Ideal wäre es, wenn Seminar und Vorlesung sich ergänzen. Aber je nach Teilnehmerinteresse werde ich das eventuell auch unabhängig voneinander gestalten.
06:40
Noch Fragen an mich?
07:09
Also die Vorlesung ist nicht montags um 8 Uhr, das war ein Versehen, da habe ich eine andere Vorlesung für Physiker. Der Vorlesungstermin wird dann noch festgelegt. Ich orientiere mich an den Teilnehmern und ich habe ein paar Vorschläge,
07:21
wo Räume zur Verfügung stehen und würde das dann am Freitag festlegen. Okay, also wegen der Frage von gerade eben nochmal,
07:43
da steht zwar Vertiefungsvorlesung, aber es gehört eigentlich zum Ergänzungsbereich. Ist also nicht die Vertiefung, wenn Sie die in Mathematische Statistik machen, würden Sie die Vertiefung ja machen mit der Mathematischen Statistik und der Vorlesung jetzt. Und damit haben Sie die entsprechenden 12 Semesterwochenstunden und 18 CP schon.
08:02
Gut, dann wollte ich zu Beginn glaube ich so ein bisschen was Organisatorisches sagen. Die Vorlesung jetzt ist Mittwochs von 11.40 Uhr bis 13.10 Uhr. Da sind wir gerade, nee 13.20 Uhr müsste das eigentlich heißen.
08:22
Eine Stunde 30 macht, nee 13.10 Uhr, also wir hören um 13.10 Uhr auf. Ich höre nach 90 Minuten auf. Ja, ich schreibe es doch mal hin, Vorlesung, dann weiß ich das auch.
08:40
Mittwoch 11.40 Uhr, jetzt ziehen wir 90 Minuten dazu, dann bin ich um 13.10 Uhr fertig. Und dann haben wir noch einen Freitagstermin, 9.50 bis 11.20 Uhr. Und dann haben wir jeweils diesen Hörsaal, also den S101A01.
09:10
Punkt eins. Punkt zwei, wie immer machen wir Gruppenübungen dazu.
09:22
Wie immer vergeben wir die über Toucan, also Vergleiche Toucan. Die einzige interessante Frage ist ab wann wir fangen Freitag in einer Woche an. Das heißt der 24.4.15. Also eigentlich fangen wir erst in der dritten Semesterwoche mit den Übungen an.
09:43
Aber weil der erste Maijaren Feiertag ist, ziehen wir die Freitagsgruppe vor. Also Freitag ab 24.4.15, wo die beiden Freitagsübungsgruppen. Wie immer können Sie einen Bonus erwerben.
10:01
Und wie immer, ich glaube die Bonusbedingungen sind das Übliche. Also ich glaube nicht, sondern die sind das Übliche und das Glaube bezog sich auf das. Also ich weiß was die Übungsbedingungen sind, aber ich weiß nicht was das Übliche ist. Aber ich glaube es ist das Übliche, so muss ich sagen. Die Bonusbedingungen sind mindestens ein Drittel aller Punkte bei den schriftlich abzugebenden Aufgaben.
10:22
Mindestens ein Drittel aller Punkte in der zweiten Hälfte der Vorlesung bei den schriftlich abzugebenden Aufgaben. Und wie viel wir schriftlich abgeben werden, werden wir noch festlegen, eine oder zwei. Ich tendiere gerade zu einer. Und die regelmäßige Teilnahme an den Übungen. Unter regelmäßiger Teilnahme an den Übungen verstehe ich, dass Sie anwesend sind.
10:40
Und zwar komplett anwesend sind, die ganze Übung, bis auf maximal zwei Termine. Also zweimal können Sie im Prinzip krank sein. Weitere Termine müssten Sie sich irgendwie entschuldigen. Ärztliches Attest vorlegen oder sonst irgendwie eine wichtige Veranstaltung nachweisen. Und anstelle von komplett anwesend, können Sie es auch machen, dass Sie alle Aufgaben mit Ihrer Tutorin oder Ihrem Tutor besprechen. Dann können Sie auch gehen, wenn Sie alle Aufgaben haben.
11:04
Okay. Dann Prüfung. Es gibt zwei Prüfungen. Im Ergänzungsbereich machen wir wieder eine schriftliche Prüfung nach Vorlesungsende. Der Termin wird zentral festgelegt. Wieder 90 Minuten. Wieder keine Hilfsmittel. Es gibt vier Aufgaben, von denen drei bearbeitet werden müssen.
11:21
Und die Aufgaben orientiere ich wieder an den Prüfungsfragen, die ich im Laufe der Vorlesung erstelle und Ihnen hochladen, die Ihnen vorher bekannt sind. Also genauso wie bei der mathematischen Statistik. Dann als Statastik-Vertiefungen können Sie es gemeinsam prüfen mit der Vorlesung mathematische Statistik. Die Prüfungsart liegt mittlerweile fest. Nachdem ich in der Statistik nicht mehr allein bin, sondern Sie haben vorhin noch eine zweite junge Dame gesehen,
11:41
können wir die Prüfung auf zwei Personen aufteilen und Sie bekommen eine mündliche Prüfung. Das heißt, Sie werden alle mündlich geprüft. Allerdings nicht unbedingt alle von mir, sondern ich werde die ersten 30 Prüfungen übernehmen. Dann von Prüfung 31 bis 60 würde Frau Wichelhaus übernehmen. Ab Prüfung 61 würde wieder ich komplett übernehmen.
12:01
Das heißt, wenn es zum Beispiel sich 40 für die mündliche Prüfung im vorlesungsfreien Zeit, im Sommersemester anfangen würde, ich 30 machen und 10 Frau Wichelhaus. Zu wen von uns beiden Sie kommen würde, dann der Zufall entscheiden. Das können Sie sich nicht irgendwie raussuchen. Die Termine würde ich dann mit Absprache mit Ihnen festlegen, über die Semesterferien verteilt.
12:21
Wir müssen uns irgendwann mal überlegen, wann wäre es für Sie sinnvoll. Und ich weiß nicht, ob ich jedem seinen Lieblingstermin geben kann, aber so Größenordnung. Also wenn Sie vielleicht nicht alle gerade eine Woche wollen, kann man das wahrscheinlich einrichten. Also wahrscheinlich werde ich ein paar Prüfungen eben direkt nach dem Semester-Vorlesungsende machen, für Leute, die vielleicht noch ins Ausland wollen anschließend.
12:42
Und den Hauptteil der Prüfung irgendwie in die Mitte von den Semesterferien legen oder sowas. Aber das können wir absprechen. Okay, das weitere Organisatorische, was ich noch erzählen sollte. Ich erstelle gerade ein Skript dazu. Ich habe eigentlich die Vorlesung Kurvenschätzung selber noch nie gehalten.
13:03
Als ich das letzte Mal die Vorlesung Mathematische Statistik gehalten habe, war ein Teil des Inhalts Kurvenschätzung. Der kommt jetzt auch noch mal. Das sind ungefähr acht Vorlesungen. Dafür habe ich ein Skript. Ich habe ein Skript zur nichtparametischen Regressionsschätzung.
13:21
Das kommt in der Vorlesung auch. Das sind 15 oder 16 Vorlesungen. Und den ersten Teil, den wir gerade machen, das wird Dichteschätzung sein. Da habe ich kein Skript, da tippe ich gerade dran. Ich bin gerade auf Seite 12, glaube ich. Ich habe Ihnen die ersten fünf Seiten, glaube ich, in Tukan schon hochgeladen. Das hatte ich am Montag gemacht. Das heißt, ich werde mich immer bemühen, dass ich vor der jeweiligen Vorlesung
13:43
bis spätestens mittags am Tag davor, also bis spätestens 12 Uhr am Tag davor, oder 13 Uhr am Tag davor, was ich anstreben würde. Vielleicht habe ich es auch schon zwei Tage davor, dass ich Ihnen da schon den Skript für die entsprechende Vorlesung hochlade. Aber ich kann es Ihnen nicht versprechen. Und das Zweite ist, der Skript wird so richtig fehlerfrei
14:01
eigentlich erst nach der Vorlesung sein, weil ich in der Vorlesung damit vortrage und dann nochmal die Fehler sehen. Also öffentlich macht es auch Sinn, Sie schreiben einfach mit und drucken sich das Ding hinterher aus. Dann, sobald wir mal diese ersten acht Vorlesungen vorbei sind, kann ich den Skript wahrscheinlich in größeren Blöcken hochladen, weil dann muss ich nur eine kleine Umnummerierung und so weiter vornehmen. Das geht wahrscheinlich schneller.
14:23
Okay. Ansonsten gibt es parallel zu der Vorlesung ja auch ein Masterseminar. Sie kommen gleich dran, haben Sie ja schon gesehen. Sie haben sich ja auch schon zum Großteil auf die Interessentenliste einteilen lassen. Das Seminar für dieses Semester ist schon voll mit 37 Teilnehmern. Die Themen sind auch alle schon vergeben.
14:41
Aber ich würde im nächsten Semester nochmal eins machen, da dann nochmal auf Sie zukommen. Und da dann effen wir sogar drei Gruppen. Das heißt, es müsste eigentlich hinkommen, dass jeder, der diese Vorlesung besucht hat, wenn die Voraussetzung ist, dass er diese Vorlesung besucht hat, aktiv mitgearbeitet hat, kriegt von mir auch einen Seminarplatz garantiert. Okay, jetzt hatten Sie eine Frage?
15:00
Muss man sich für die Übung in eine Liste eintragen diese Woche? Nein, Herr Maaß hatte ganz neue Ideen. Also das trifft jetzt diesmal nicht Sie, das trifft mich oder so. Beim letzten Mal hatten wir das Problem, dass er nicht genügend Hilfskräfte einstellen will. Diesmal hat er eigentlich genügend Hilfskräfte, aber diesmal will er meine Hilfskräfte nicht einstellen. Also die Stellen sind zwar da, aber er will die Leute nicht einstellen,
15:21
finde ich toll, macht mir großen Spaß, aber ist okay. Also ich beschwere mich gerade beim Studiendekan. Deswegen dauert es noch ein bisschen mit den Übungen. Gut. Sonst noch Fragen von Ihrer Seite her? Die mündliche Prüfung, wie läuft die ab, basiert die auch auf den Prüfungsfragen?
15:41
Ja, also in der mündlichen Prüfung orientiere ich mich an den Prüfungsfragen zu der Vorlesung jetzt, die ich im Laufe des Semesters hochladen werde und zu der Vorlesung mathematische Statistik. Und wir werden es wahrscheinlich so machen, in der mündlichen Prüfung kann man auch schriftliche Fragen stellen, dass sich die mündliche Prüfung unterteilen wird in zwei Blöcke. Erster Block ist 20 Minuten, wo Sie einige Prüfungsfragen bekommen,
16:01
wo Sie sich schriftlich die Lösung hinschreiben können. Und das gucken wir uns dann hinterher an in der eigentlich mündlichen Prüfung. Und dann in der mündlichen Prüfung gehen wir noch mit weiteren Prüfungsfragen darüber hinaus. Sodass de facto die Zeit wahrscheinlich für mich pro mündliche Prüfung auf 20 Minuten reduziert wird, statt 35.
16:20
Und im Unterschied zu dem, wie ich es bisher gemacht habe, also in der Vergangenheit habe ich so mündliche Prüfungen immer so gemacht, dass ich einen reinen Zufallsprozess habe, gemäß dem ich Prüfungsfragen ausgewählt habe. Das heißt, ich hatte Zufallszahlen dabei und Sie haben dann noch einen Wurfel bekommen und Sie haben dann ausgeworfen, welche Zufallszahlen Sie bekommen und dann haben Sie die entsprechende Frage gestellt werden.
16:40
Macht es jetzt aber diesmal keinen Sinn, das rein zufällig zu machen, weil der erste Teil der Fragen muss ja so sein, dass er für 20 Minuten auch geeignet ist. Also wahrscheinlich werde ich zumindest den ersten Teil der Fragen eben deterministisch auswählen und sich dann vielleicht aus einer Liste von vorbereiteten Listen von Fragen eine zufällig ziehen lassen oder so. Also ein gewisser Zufall kommt rein, aber nicht ganz so extrem
17:00
wie in der Vergangenheit. Das hatte immer den Effekt, es gab so ein paar Leute, die waren so echt begabt, die haben nur die leichten Fragen gewurfelt. Und dann gab es ein paar Leute, die haben die gnadenlos schweren Fragen gewurfelt. Aber gut, es ist Zufall, es gleicht sich im Mittel aus, aber wenn Sie gut sind, macht Ihnen das auch gar nichts aus, wenn Sie nur die
17:20
leichten Fragen würfeln oder nur die schweren Fragen würfeln, aber unter Umständen. Ich habe es dann immer so gemacht, dass die Leute erst mal ein paar Fragen ausgewählt haben und ich habe dann nicht die erste, die sie ausgewählt haben, auch wirklich gestellt, weil es konnte sein, das war eine Frage, da ging dann anschließend die ganze Prüfung schief, sondern ich habe dann geguckt, welche ist als Einstiegsfrage geeignet. Das war eine Sache, die ich dazugelernt habe, aber diesen Zufall werde ich so ein bisschen rausnehmen und vielleicht so ein bisschen versuchen, dass die Fragen,
17:42
die Sie gestellt bekommen, ein bisschen gleichmäßigeres Niveau haben. Oder so. Okay. Sonst noch Fragen? Sie sehen, es gibt eine Vorlesungsaufzeichnung.
18:02
Das heißt, die Vorlesung wird aufgezeichnet und hinterher auch bei oben lernen wir hochgeladen. Das heißt, wenn Sie mal nicht da sind, können Sie es problemlos nachlernen. Und wie gesagt, ich werde Ihnen das Skript, zumindest immer nach der Vorlesung, wird dann garantiert das Skript zur Verfügung stehen. Sie können es auch so alles nachlernen. Gut, wenn Sie jetzt keine Fragen mehr haben
18:21
und ich sehe im Moment keine, dann fange ich mal an mit Kapitel 1 Einführung.
18:47
Ich stelle Ihnen erstmal die drei Problemstellungen vor, die wir behandeln. Und das
19:04
erste Problem kennen Sie schon aus der Vorlesung Mathematische Statistik. Es ist die Dichteschätzung. Also erstens ist Dichteschätzung. Was wir da
19:21
haben, wir haben eine Stichprobe von einer RD-wertigen Zufallsvariabel, die eine Dichte F hat. Und ausgehend von dieser Stichprobe wollen wir die Dichte schätzen. Das heißt, wir haben x1, x2 usw. unabhängig identisch verteilt.
19:53
Also x1, x2 usw. seien unabhängig identisch verteilt. Ich schreibe es einmal aus. Im Folgenden kurz ist immer ab UIV.
20:03
RD-wertige Zufallsvariablen mit einer Dichte F. Dichte ist eine messbare Funktion von RD nach R.
20:20
Integrierbar und integral über F ist 1. Also mit Dichte F von RD nach R. Ach, ich sollte Sie vielleicht einmal fragen. Wenn ich so groß schreibe, können Sie es dann lesen? Insbesondere können Sie es auch
20:41
weiter hinten lesen, der in der letzten Reihe, der in der Vorsitzenden. Oh, okay, gut. Das klingt ganz gut. Und jetzt ausgehend von x1 bis xn soll F geschätzt werden.
21:15
Also Sie bekommen n unabhängige Beobachtungen einer RD-wertigen Zufallsvariabel mit Dichte F.
21:21
Ausgehend von diesen Beobachtungen wollen Sie diese ganze Funktion F von RD nach R schätzen. In welchem Sinne überlegen wir uns dann noch? Erster Punkt. Die Problemstellung kennen Sie schon aus der letzten Vorlesung. Das zweite und drittes ist beides Regressionsschätzung. Da gibt es
21:42
Regressionsschätzung mit festem Design, Regressionsschätzung mit zufälligem Design. Ich fange an mit Regressionsschätzung mit festem Design.
22:10
Da beobachten wir eine Funktion an Stellen x1 bis xn aus RD mit einem zufälligen Fehler jeweils versehen, wobei diese
22:20
zufälligen Fehler im Mittel Null sind und wir wollen ausgehend von diesen Beobachtungen die Funktion rekonstruieren. Das heißt, wir haben M von RD nach R. Wir haben klein xi aus RD. Feste Punkte in RD.
22:49
Dann haben wir noch welche Fehler, das sind Zufallsvariabeln, Epsilon 1, Epsilon 2 und so weiter. Die seien unabhängig.
23:10
Unabhängig reelle Zufallsvariabeln mit
23:27
jeweils mit Erwartungswert Null. Und dann setzen wir
23:40
also unsere Beobachtung von M mit einem zufälligen Fehler an der Stelle xi sei groß yi für i gleich 1 bis n.
24:03
Und ausgehend von x1 y1 bis xn yn wollen wir M schätzen.
24:28
Ausgehend von x1 klein x1, groß y1 bis klein x1, bis klein xn, groß yn soll M geschätzt werden.
24:55
Zweite Problemstellung. Und die drittere Problemstellung.
25:00
Da machen wir das gleiche nochmal. Allerdings ist jetzt diesmal sind die xi zufällige Werte. Sind auch Zufallsvariabeln. Und dann definieren wir dieses M direkt, indem wir die Verteilung von x1, y1 vorgeben und die zugehörige bedingte Erwartung von y1 gegeben groß x1 gleich klein x
25:22
verwenden. Also das dritte ist Regressionschätzung mit zufälligem Design.
25:54
Also Regressionschätzung mit zufälligem Design. Wir haben jetzt hier groß x, groß y, groß x1,
26:01
groß y1 und so weiter sein unabhängig identisch verteilte RD Kreuz R-Wertige Zufallsvariabeln.
26:22
Also xy, x1, y1 und so weiter x2, y2 unabhängig identisch verteilte RD Kreuz R-Wertige Zufallsvariabeln. Ich setze voraus, dass die
26:41
Zufallsvariabeln yi und auch y jeweils quadratisch integrierbar sind. Also die Erwartung gehört von y² sei klein und endlich. Wenn y quadratisch integrierbar ist, ist auf alle Fälle auch integrierbar.
27:02
Wenn y integrierbar ist, existiert eine bedingte Erwartung von groß y gegeben groß x. Diese bedingte Erwartung können Sie als Funktion von x faktorisieren. Das heißt, Sie betrachten die sogenannte faktorisierte bedingte Erwartung von y gegeben groß x gleich klein x.
27:23
Sei m von klein x die bedingte Erwartungswert von y gegeben groß x gleich klein x. Und das ist die sogenannte Regressionsfunktion. Und dann ist die Aufgabe, ausgehend von x1, y1 bis xn, yn
27:42
wieder m zu schätzen.
28:13
Also ausgehend von groß x1, y1 bis groß xn, groß yn soll jetzt m geschätzt werden.
28:31
Wenn Sie es vergleichen mit dem, was wir in der mathematischen Statistik gemacht haben, der Unterschied ist jetzt eben, wir schätzen diesmal ganze Funktionen, nicht nur einzelne Parameter, also einzelne reelle
28:41
Zahlen, sondern aufgrund von Beobachtungen einer Verteilung wollen wir eine in Abhängigkeit der Verteilung definierte Funktion schätzen. Historisch, mit dem Großteil von dem, was wir in der mathematischen Statistik gemacht haben, abgesehen von der Dichteschätzung, den kurzen Teil, den wir da gemacht haben, waren wir eigentlich so
29:02
im Zeitraum 1920 bis 1970 ungefähr oder 1960. Jetzt sind wir so ungefähr 1970 bis ungefähr zum Jahr 2000 mit den Resultaten, die ich jetzt hier präsentiere. Also deutlich aktueller. Das Ganze ist auch das Gebiet, mit dem ich mich
29:21
seit 20 Jahren in meiner Forschung beschäftige. Seit 1995 ungefähr habe ich angefangen mit Regressionsschätzung mit zufälligem Design, dann zeitlang Übergang gegangen. Sie werden sehen, das Ganze ist ein bisschen verwandt mit Regressionsschätzung mit Testendesign. Sie sehen den Zusammenhang jetzt vielleicht nicht unbedingt, aber wenn Sie anfangen würden,
29:42
sich hier anzugucken, was ist denn der Erwartungswert von Y und I? Der Erwartungswert von Y bei festgehaltenem Wert von XI, was ja sowieso fest ist, ist einfach M von XI. Das heißt, dieses M entspricht so ein bisschen dieser bedingten Erwartung von Y gegeben groß X gleich klein X.
30:01
der Unterschied ist, dass bei der Regressionsschätzung mit Festendesign ist normalerweise die Dimension sehr klein. Eins, zwei, vielleicht maximal drei werden bei der Regressionsschätzung mit zufälligem Design die Dimension meistens in Anwendung eher groß sein. Das werden Sie auch noch sehen. Ok, jetzt gibt es eine klassische Problemmethode,
30:21
um solche Probleme zu lösen. Die klassische Methode zur Problemlösung ist die sogenannte parametrische Kurvenschätzung.
30:46
Die klassische Methode ist die parametrische Kurvenschätzung.
31:08
Das ist das, was eigentlich die einzig bekannte Methode war, bis ungefähr zum Jahr 1965. Und das ist das, was heutzutage der Ingenieur, wenn er sowas in Anwendung auch bräuchte, auch machen würde. Was würden Sie als Ingenieur machen,
31:21
wenn Sie eine Dichte schätzen wollten? Sie würden sich erinnern, Dichte, da kenne ich die Normalverteilung. Die Normalverteilung hängt von zwei Parametern ab. Die Parameter sind der Erwartungswert und die Varianz. Also fange ich mal an, ausgehend von meinen Daten, x1 bis xn, Erwartungswert und Varianz zu schätzen
31:41
und nehme das als Parameter, die ich für eine Normalverteilung nehme, um die unbekannte Dichte hier zu approximieren. Was Sie da machen, ist, Sie gehen davon aus, dass die Bauart der zu schätzenden Funktion bekannt ist und nur von endlich vielen Parametern abhängt und schätzen diese endlich vielen
32:01
Parameter, um die Funktion zu schätzen. Also Bauart der zu schätzenden Funktion.
32:26
Bauart der zu schätzenden Funktion ist bekannt und hängt nur von endlich vielen Parametern ab.
32:52
Und dann sagen Sie, wenn ich zu einer Schätzung kommen will, dann schätze ich die Parameter einzeln und setze dann einfach die geschätzten Werte in die Bauart ein und habe meine Schätzung.
33:07
Wenn Sie sich überlegen, was halten Sie davon, wie gut ist das? Da muss man natürlich sagen, ja, es hat gewisse Vorteile, es hat gewisse Nachteile. Ein großer Vorteil ist, dass anstelle einer ganzen
33:21
Funktion zu schätzen, was ja unter Umständen ein endlich dimensionales Gebilde ist, ein sehr komplexes Gebilde, müssen Sie nur endlich viele Parameter, also reelle Zahlen schätzen. Und Sie wissen ja schon, Erwartungswert, Varianz, kann ich ja relativ einfach schätzen, empirisches, arithmetisches Mittel und empirische Varianz. Also der große Vorteil ist, das Ganze ist einfach, aber das eigentliche
33:50
Zentrale ist, damit es funktioniert, brauchen Sie auch nicht unbedingt besonders viele Daten, weil die paar Parameter können Sie, das sind ja nur reelle Zahlen, da brauchen Sie nicht viele Beobachtungen von Ihrer Zufallsvariablen.
34:02
Also das Ganze funktioniert auch, wenn nur wenig Daten zur Verfügung stehen. Also benötigt nur wenig Daten. Und das ist ein
34:22
großer Vorteil in der Anwendung, wenn Sie nur wenige Daten benötigen, weil in vielen Anwendungen ist es so, dass diese Erzeugung der Datenpunkte relativ aufwendig ist. Weil unter Umständen irgendein ingenieurwissenschaftliches Experiment dahinter steckt, wo vielleicht jemand an einer Walze steht und stundenlang irgendwelchen Stahl durch die Walze schickt und hinterher irgendwas misst.
34:42
Und das möchte er nicht tausendmal machen, oder hundertmal. Das möchte er am liebsten nur fünfmal machen. Oder so, oder vielleicht zehnmal. Also ich hatte noch, als die Frau Felber noch hier war, ein gemeinsames Projekt mit Herrn Groche im Rahmen des SFB 666. Herr Groche ist von PTU,
35:01
Produktionstechnik in der Umformtechnik oder so. Nee, also ich weiß es nicht. Maschinenbau, sagen wir mal. Groche ist Maschinenbau. Das sind die Leute mit ganz großen Walzen. Und der wollte dann irgendwann mal so eine statistische Untersuchung machen. Und jedes Mal, wenn wir jetzt heute darauf zu sprechen kommen, dann sagt er wieder, Herr Kohler wollte so viele Daten. Herr Kohler wollte so viele Daten haben. Ich war ganz schockiert, wie viele Versuche da
35:20
sein armer Doktorand machen musste, damit der Mathematiker oder Mathematische Statistiker sagt, okay, jetzt können wir gut schätzen. Aber das ist echt. Aber das ist natürlich ein großer Vorteil, wenn Sie halt nur, Sie brauchen nur wenig Daten. Aber Sie sehen vielleicht auch, was der große Nachteil ist. Der große Nachteil ist, was ist, wenn Ihre Annahme an die Bauart falsch ist. Nehmen Sie an, die wahre Dichte ist eine Gleichverteilung. Und
35:42
Sie denken aber, es wäre eine Normalverteilung. Und schätzen eben die Dichte der Gleichverteilung durch die Normalverteilung ja. Können Sie sich vorstellen, es gibt eine gute Approximation. Also ganz egal, wie Sie die Parameter wählen, die Dichte der Normalverteilung würde nicht so aussehen wie die der Gleichverteilung. Und die vorhergesagten Wahrscheinlichkeiten werden irgendwie falsch sein. Also Nachteil,
36:09
F in Bauart falsch.
36:22
Und was wir jetzt machen, ist eben das, was es eigentlich in der Mathematik so um das Jahr 1960, ab dem Jahr 1960 herum entwickelt hat. Wir machen die sogenannte nichtparametrische Kurvenschätzung, wo es eben keinerlei Annahme an die Bauart der zu schätzenden Funktion gibt.
36:46
Also in dieser Vorlesung ist die nichtparametrische Kurvenschätzung
37:18
und ich schreibe vielleicht dazu, Bauart der zu schätzenden
37:20
Funktion ist komplett unbekannt.
37:53
Aber der große Vorteil davon ist eben, natürlich diese Annahme wird da nicht falsch sein, weil wir haben keine. Aber der große Nachteil ist eben, Sie brauchen im Allgemeinen
38:01
mehr Daten als bei der parametrischen Kurvenschätzung, bei parametrischen Verfahren. Dann möchte ich kurz was sagen zu Schwerpunkten dabei.
38:26
Also was machen wir im Einzelnen? Na ja, einerseits natürlich wir entwickeln Verfahren, mit denen wir diese Funktionen schätzen können. Das heißt,
38:40
Sie werden hier Verfahren kennenlernen. Wie lösen Sie so eine Problemstellung? Und dann sind es natürlich in der Mathematik, da wollen wir auch irgendwelche Aussagen über die Verfahren machen. Und die Aussagen, die wir über die Verfahren machen wollen, sind eigentlich, oder die ich hier behandeln werde, sind eigentlich dreierlei. Das erste ist die sogenannte universelle Konsistenz. Und da
39:25
geht es darum, dass wir unser Schätzverfahren so konstruieren wollen, dass es in allen möglichen Situationen, die auftreten können, in einem geeigneten Sinne gegen die zu schätzende Funktion konvergiert, all diese immer besser annähert, wenn der Stichprobenumfang gegen endlich geht. Also ich fasse vielleicht
39:45
kurz so zusammen, Schätzverfahren konvergiert in allen möglichen Situationen gegen zu schätzende Funktion. Oder Schätzung
40:03
konvergiert in allen möglichen Situationen gegen zu schätzende Funktion.
40:30
Für, entgegen und endlich. Also wenn Sie immer mehr Daten zur Verfügung haben, kommt asymptotisch das Richtige raus.
40:44
Wobei, das ist so noch ein bisschen schwammig, es ist nicht ganz klar, was meine ich hier mit, nein, es ist klar, was meine ich mit Konvergenz. Aber um von Konvergenz zu sprechen, muss ich irgendwie sagen, was ist der Fehler der Schätzung? Also der Fehler soll gegen Null gehen, aber wie messe ich den Fehler? Das ist gerade nicht ganz klar.
41:00
Das kommt dann im Laufe der Vorlesung noch. Und das zweite, was natürlich nicht ganz klar ist, was heißt wirklich alle möglichen Situationen? Also das werde ich aber so machen, dass es möglichst allgemein ist. Aber muss natürlich auch irgendwie festlegen.
41:24
Das ist die erste Eigenschaft. Die zweite Eigenschaft, die wir uns dann angucken wollen. Und ich meine, im Sinne der Dichteschätzung, haben Sie dazu schon einen Satz kennengelernt, aus der mathematischen Statistik. Wir haben den Kern-Dichteschätzer von Rosenblatt-Pasen kennengelernt. Wir haben gezeigt, wenn der naive Kern
41:41
vorliegt, und Bandbreite geht gegen Null und N mal H hoch D, N mal diese Bandbreite hoch D geht gegen unendlich, dann konvergiert der Kern-Dichteschätzer im Einsinne gegen die zu schätzende Dichte. Und zwar für alle möglichen Dichten. Ganz egal, was die Dichte ist.
42:01
Das ist schon mal ganz schön, aber natürlich im Hinblick auf die Anwendung, wo Sie notwendigerweise einen endlichen Stichprobenumfang haben, ist es natürlich nicht besonders toll, wenn Sie nur wissen, für N gegen unendlich kommt das Richtige raus. Deswegen gucken wir uns auch noch an, wie schnell konvergiert der Fehler gegen Null. Das gibt dann zweitens Aussagen zur Konvergenzgeschwindigkeit.
42:37
Und was wir hier haben möchten, ist, dass die Konvergenz in erstens
42:41
so schnell wie in der jeweiligen Situation überhaupt möglich erfolgen soll. Also Konvergenz.
43:04
Konvergenz in erstens soll so schnell erfolgen, wie in der jeweiligen Situation überhaupt möglich ist. Da wird sich
43:28
rausstellen, die Geschwindigkeit, die da rauskommt, mit der unser Fehler gegen Null konvergieren wird, die wird von der Situation insbesondere von der Glattheit der zu schätzenden Funktion abhängen. Und wird durch diese Glattheit festgelegt werden. Und
43:42
wir wollen dann eben für unsere Verfahren zeigen, ja, in Abhängigkeit der Glattheit konvergiert der Fehler mit einer gewissen Geschwindigkeit gegen Null. Oder geht er auch für ein endliches N mit einer gewissen Erfüllung, eine gewisse Schranke. Und dann wollen wir zeigen, die Schranke, die da rauskommt, die ist eigentlich optimal. Also auch wenn Sie das Verfahren irgendwie weiß Gott wie kompliziert abändern,
44:02
Sie werden nicht mehr groß schneller. Oder Sie werden gar nicht mehr schneller. Das sind dann sogenannte untere Schranken. Und das werden auch ganz hübsche Beweise werden. Der zweite Punkt. Also bei dem zweiten Punkt wird sich rausstellen,
44:21
die Konvergenzgeschwindigkeit wird von der jeweiligen Situation abhängen. Und zwar vor allem beschrieben auch durch die Glattheit der zu schätzenden Funktion. Und dann werden wir unsere Schätzer so wählen müssen, dass sie der jeweiligen Glattheit angefasst sind. Und jetzt ist es natürlich so, wenn Sie eine Funktion schätzen wollen, dann wissen Sie normalerweise
44:41
nicht, wie glatt die ist. Das heißt, Sie brauchen eigentlich einen Schätzer, der nicht schon irgendwas über die Glattheit voraussetzt. Und das macht man über eine sogenannte Adaption. Man konstruiert die Schätzer in zweitens so, dass sie sich automatisch der jeweiligen Situation anpassen.
45:02
Oder dieses Anpassen wird erfolgen durch die Wahl von Parametern der Schätzer. Und diese Parameter sollen eben in zweitens rein datenabhängig gewählt werden, ohne irgendwelche Vorkenntnisse über die Situation voraussetzen. Das ist Adaption.
45:26
Parameter der Schätzer in zweitens sollen rein datenabhängig gewählt werden.
45:58
Also was mein Schätzverfahren letztendlich sein wird, ist, das wird
46:01
eine Funktion sein. Da stecke ich die Werte von meiner Stichprobe rein. Und dann kommt eine Schätzung für die Funktion raus. Und da möchte ich eine einzige Funktion finden, wo ich überhaupt nicht extern wählen muss. Ich stecke nur die Werte rein. Und in zweitens in allen möglichen Situationen
46:21
oder in vielen möglichen Situationen, die ich überhaupt betrachten kann, soll die jeweilige optimale Konvergenzgeschwindigkeit rauskommen. Ja, jetzt brauche ich noch ein bisschen Platz, bevor wir eine Pause machen. Und was wir
47:10
jetzt eigentlich zur Beantwortung von diesen drei Sachen insbesondere machen müssen, dabei muss insbesondere geklärt werden.
47:35
Erste Frage, mit welchen Verfahren schätzen wir die Funktion?
48:02
Und dann werden die Verfahren immer so sein, dass sie von irgendwelchen Parametern abhängen, die man wählen muss. Und dann brauchen wir eben, zweite Frage, auch Verfahren, um diese Parameter zu wählen. Also, wie wählen wir Parameter rein datenabhängig?
48:42
Und die dritte Frage, die eigentlich für unsere ganze mathematische Analyse auch entscheidend ist, wenn wir irgendwas über einen Fehler aussagen wollen von der Schätzung, wie messen wir diesen Fehler überhaupt? Wie messen wir den Fehler der Schätzung?
49:20
Ich habe Ihnen dann in Tukan noch drei Bücher
49:21
reingesetzt, an die ich mich so ein bisschen oder die ich mich nicht wirklich orientiere, aber die ich zur Vorbereitung immer wieder reingucke. Das erste ist von Deffroy und Logoschi, aus dem Jahr 2001. Da geht es um die Dichteschätzung. Das zweite, bei der Rekressionsschätzung mit festem Design, stelle ich Ihnen so paar Techniken
49:42
aus dem Buch von Sarah Van der Geer, aus dem Jahr 2001, Empirical Process in M Estimation vor. Und das dritte, das wird der Hauptteil sein, die, allein die halbe Vorlesung, die nicht parametrische Rekressionsschätzung mit zufälligem Design, da verwende ich ein Buch, wo ich selber einer der Co-Autoren bin, aus dem Jahr 2002,
50:01
Giorfi Kohler, Krishak Valk, 2002, A Distribution Free Theory of Non-Parametric Requestion. Sie finden es dann im Skript, ich schreibe es jetzt nicht nochmal hin, und Sie finden es auch auf Tukan. Gut, soweit zur Einführung, haben Sie soweit Fragen.
50:28
Fragen würden in welcher Art? Keine. Also auch wenn Sie welche gehabt hätten, so oder so, wir machen dann jetzt Pause zum Tafelwischen,
50:42
und wir haben jetzt 10 Uhr, ne, wir haben 12 Uhr, 33 auf meiner Uhr, ich mach dann um 12 Uhr 38 weiter. Dankeschön. Ja, dann würde ich ganz gern weitermachen, wenn Sie so freundlich wären,
51:01
Ihre Unterhaltung einzustellen.
51:26
Dankeschön. Kommen wir zur Kapitel 2, Dichteschätzung.
51:49
Abschnitt 2.1, Einführung.
52:05
Wir haben X, ist eine RD-wertige Zufallsvariable mit Dichte F, bezüglich dem Lebesque-Porellmaß.
52:34
Die Dichte F ist eine Funktion von RD nach R, bezüglich dem Lebesque-Porellmaß.
52:48
Das heißt, die Verteilung von X ist durch die Dichte von F festgelegt, in dem Sinne, dass die Verteilung von X von einer Menge B eben gerade das Integral über B über die Dichte F ist.
53:02
Also PX von B, das wäre die Wahrscheinlichkeit der Menge aller Kleinomega in der Grundmenge unseres Wahrscheinlichkeitsraums Großomega in der Grundmenge Großomega unseres Wahrscheinlichkeitsraums Omega AP.
53:21
All derjenigen Omega, wo X von Omega in B liegt. Diese Wahrscheinlichkeit ist gegeben als das Integral über B von X dx für B aus Script BD. Und Script BD sind die borellischen Mengen in
53:40
RD. Und das hier nenne ich 2.1, die Beziehung. Und was wir jetzt wollen, ist, wir wollen diese ganzen Wahrscheinlichkeiten irgendwie approximativ berechnen, indem wir eine
54:01
Approximation von F finden, die nenne ich F quer und das damit berechnen. Also gesucht ist eine Funktion F quer, mit der wir die
54:24
Wahrscheinlichkeiten in 2.1 berechnen können
54:46
durch genau die gleiche Formel, nur dass ich eben statt über F über F quer integriere. Also Integral über B, F quer von X dx
55:01
und das nenne ich 2.2. Und jetzt ist klar, wenn Sie F ersetzen durch ein F quer und das F
55:22
quer ist nicht genau gleich dem F, dann wird in aller Regel eben dieses Integral in 2.2 verschieden sein von dem Integral in 2.1. Und jetzt stellt sich die Frage, wie müssen Sie F quer wählen, sodass diese Schätzung, die Sie da in 2.2 machen, indem Sie die Wahrscheinlichkeit einfach
55:41
verproximieren durch das Integral über B, F quer dx, eine gute Schätzung ist von dem wahren Wert Integral über B, F von X dx und zwar eigentlich gut im Sinne von, dass es gut ist für alle Borelsch Mengen oder vielleicht auch, dass der maximale Fehler, den Sie machen, das wäre in dem Fall das Supremum über B aus Bd von Betrag von
56:00
Integral über B, F quer von X dx minus Integral über B, F von X dx, dass das klein ist. Und das wissen Sie im Prinzip eigentlich schon, aus der Vorlesung mathematischer Statistik, nämlich ist dieses F quer jetzt selber eine Dichte, also ist F quer
56:24
selbst Dichte. Das heißt, F quer ist nicht negativ messbar und integriert zu 1. Messbar lasse ich vereinfacht halber weg.
56:42
F quer von X ist größer als Null für X aus RD. So gilt nach dem
57:01
Lemma von Cheffet, und das wir einfach vergleiche, Vorlesung mathematischer Statistik. Wenn sich den
57:23
maximalen Fehler bei der Approximation von 2, 1 durch 2, 2 angucken, das heißt, wenn Sie sich angucken, das Supremum wie aus Bd, diesen Ausdruck
57:48
können Sie schreiben als den Integral über den Positivteil der Differenz von F quer und F
58:01
oder ich mache genauso den Integral und positiven Teil über die Differenz von F und F quer. Das heißt, ich mache hier mal Integral über RD, F von X minus F quer von X plus dX, was wiederum gleich ein Halbmal Integral über RD
58:21
vom Betrag von F von X minus F quer von X ist, wobei dieser Positivteil im ersten Integral eben definiert wird U index plus
58:42
ist das Maximum von U,0 für U aus R. Wenn Sie nicht in der Vorlesung mathematischer Statistik waren, würde es Ihnen an der Stelle ein bisschen komisch vorkommen, aber es ist nicht so schlimm, weil das
59:01
ist ein Resultat, das kann man eigentlich relativ schön am Bild erklären und wenn Sie in der Vorlesung waren, dann kennen Sie sich ja noch das Bild, aber ich wiederhole es trotzdem mal. Ich weiß gar nicht, gibt es denn hier irgendjemand, der nicht in der Vorlesung mathematischer Statistik war? Herr Wischoff. Okay, aber der Rest war und erinnert sich der ganze Rest noch an das
59:21
Bild? Alle? Erinnert sich irgendjemand nicht an das Bild? Geben Sie nicht zu. Aber wir wiederholen es trotzdem nochmal, kann da nichts schaden. Wir haben mal X und dann haben wir einerseits F von X und machen mal irgendeine Dichte.
59:41
Nehmen wir so eine Normalverteilung. Dann haben wir eine zweite Dichte. Das ist F quer von X.
01:00:05
Und dann können Sie sich überlegen, okay, das ist eine farbige Kräute, zweite farbige Kräute.
01:00:21
Was ist denn dieses Einhalbmal der L1-Abstand oder einfach der L1-Abstand? Das Integral über Rd von, also bei mir ist d gleich 1, von Betrag von f von x minus Betrag von f quer von x. Das ist einfach der Flächeninhalt zwischen diesen beiden Funktionen.
01:00:52
Und was ist das Ding, was dieser Positivanteil, dieser Positivanteil ist in dem Fall der Flächeninhalt,
01:01:01
wo f zwischen f und f quer, wo f oberhalb von f quer liegt. Das wäre das Blaue. Ich meine, ich kann bei der Formulierung natürlich sofort f und f quer vertauschen, dann sehen Sie auch, das ist, als zweites wäre das gleich auch dem roten Flächeninhalt. Das heißt, die erste Aussage ist hier, dass der Einhalbmal beides zusammen ist gleich dem blauen, gleich dem roten.
01:01:23
Und die zweite Aussage ist eigentlich, dass wenn Sie irgendwo ein b wählen, und wir wählen das b vielleicht mal hier, das sei unsere Menge b, und Sie gucken sich dann an das Integral über b f quer von x minus ein Integral b über f von x.
01:01:46
Das ist eigentlich das Integral über b von f quer von x minus f von x. Das ist die Differenz von den beiden. Da heißt, der eine Flächeninhalt wird positiv gezählt, der andere wird negativ gezählt. Und der maximale Betrag davon soll gleich dem L1-Fehler sein.
01:02:01
Und der entscheidende Trick ist jetzt, Sie gucken sich noch eine dritte Fläche an. Sie gucken sich die Fläche auch noch an. Und da Sie wissen, dass f und f quer beides dichten ist, ist blau plus weiß gleich eins, da f eine Dichte ist zu eins integriert. Rot plus weiß ist auch gleich eins, also ist blau plus weiß gleich rot plus weiß,
01:02:24
also ist blau gleich rot vom Flächeninhalt. Damit haben Sie mit einem Schlag, blau plus rot ist gleich blau oder rot. Sie haben den Teil. Weiter sehen Sie, was hier rauskommt, ist, naja, das kann hochgehen,
01:02:42
eine Fläche, eine Teilfläche von blau minus eine Teilfläche von rot. Davon bilden Sie die Differenzen, davon den Betrag. Der Wert wird maximal die Fläche von blau oder maximal die Fläche von rot. Beide Flächen sind gleich groß, nämlich gleich dem hier. Und Sie sehen, das Maximum wird auch angenommen, wenn ich nämlich genau b so auswähle, dass ich nur eine von den beiden Flächen betrachte.
01:03:05
Alles wäre der Beweis von Cheffé am Bild. Und ansonsten, wir hatten in der Skript zur mathematischen Statistik, finden Sie auch noch einen formalen Beweis. Ich wollte Ihnen das Skript noch in Toucan auch noch hochladen, für die, die nicht bei der Vorlesung mathematische Statistik angewandt waren.
01:03:23
Ja, was folgt jetzt daraus? Nun, was ich eigentlich machen möchte, ich möchte meine Flichte approximieren, um Wahrscheinlichkeiten zu approximieren. Damit diese Approximation der Wahrscheinlichkeiten aber gleichmäßig über alle möglichen Mengen gut ist, muss eben dieses Integral hier, der sogenannte L1-Wehler,
01:03:41
das Integral über Rd fnx minus fquare von x, klein sein. Also sollte fquare so gewählt werden, dass der sogenannte L1-Wähler integral über Rd,
01:04:17
hier steht Betrag von fnx minus fquare von x, aber ist ja egal, warum ich das schreibe.
01:04:22
Ich kann auch Betrag von fquare von x minus fnx schreiben, dass das klein ist, möglichst klein ist.
01:04:47
Ja, und damit haben wir im Prinzip ein Fehlerkriterium eigentlich gefunden. Nämlich wir wissen, wenn wir unsere Dichte schätzen, wie sollen wir den Fehler wählen? Wir wählen den Fehler durch den L1-Fehler.
01:05:04
Dann haben wir die Aufgabenstellung der Dichteschätzung.
01:05:29
Wir haben x, x1, x2 usw., das sei unabhängig identisch verteilt, mit Dichte f von Rd nach R.
01:05:55
Ausgehend von groß x1 bis groß xn, also von n unabhängigen Beobachtungen der Zufallsvariable x,
01:06:15
soll eine Schätzung, das ist eine Funktion fn von Rd nach R,
01:06:30
die auch noch von unseren x1 bis xn abhängt. Ich schreibe es mal so hin, fn von Punkt ist auch noch eine Funktion von x1 bis xn,
01:06:50
aber das unterdrücke ich in der Schreibweise. Meistens, ich könnte es auch formal so machen, dass eben fn nicht eine Funktion definiert auf Rd, sondern fn wäre eine Funktion definiert auf Rd Kreuz Rd hoch n.
01:07:02
Und dann würde ich fn von klein x immer als Abkürzung nehmen für fn von klein x und gleichzeitig noch die Zufallsvariable in groß x1 bis groß xn eingesetzt. Und dann sehen Sie, diese Schätzung ist eigentlich eine zufällige Funktion oder auch der Wert der Schätzung an einer Stelle x hängt eigentlich auch noch vom Zufall ab über die Zufallsvariabel in x1 bis xn, was meine gegebenen Daten sind.
01:07:25
Okay, soll eine Schätzung so konstruiert werden, dass der L1-Fehler der Schätzung, also das Integralbetrag von fn von x minus f von x dx über Rd,
01:07:53
und wenn Sie das jetzt sich nochmal ausführlich aufschreiben, was heißt es eigentlich? Eigentlich müssen Sie bei dem fn von x noch die Zufallsvariabel einsetzen.
01:08:11
Das heißt, der Fehler, der da rauskommt, ist eigentlich auch zufällig, hängt vom Zufall ab, und dieser Fehler soll möglichst klein sein.
01:08:39
Und jetzt beachten Sie natürlich, der Fehler, der eigentlich möglichst klein sein soll,
01:08:42
ist ein zufälliger Wert. Es ist nicht ganz klar, was heißt es, dass dieser zufällige Wert möglichst klein ist, eine Möglichkeit wird zu fordern, der Erwartungswert zum Beispiel soll möglichst klein sein. Dann haben wir ein klares Kriterium, was wir minimieren können. Oder wir gucken uns an, was passiert für diesen Fehler, für n gegen und endlich, konvergiert der zum Beispiel nach Wahrscheinlichkeit oder fast sicher gegen Null.
01:09:02
Solche Aussagen wollen wir machen. Oder werden wir machen?
01:09:21
Okay, jetzt stellt sich die Frage, wie schätzen wir eine Dichte? Ja, das kennen Sie auch schon aus der mathematischen Statistik. Wir nehmen den Kann-Dichte-Schätzer. Kennen Sie eigentlich auch schon aus der Einführung die Stochastik? Da habe ich den Kann-Dichte-Schätzer schon behandelt. Also wir nehmen mal den Kann-Dichte-Schätzer von Rosenblatt und Parsen.
01:10:03
Es ist mir ehrlich gesagt schleierhaft, warum der Kann-Dichte-Schätzer den Namen von zwei Leuten hat, zumal die ihre Artikel separat veröffentlicht haben. Der eine war 64 und der andere irgendwie so 63 oder so etwas oder 57. Aber ich kann es mir nur erklären, damals gab es noch kein Internet. Dann hat eben der eine das veröffentlicht und der andere Jahre später und die haben es gegenseitig nicht gemerkt oder so.
01:10:22
Aber eigentlich ist klar, einer müsste eigentlich zuerst gemacht haben. Der Kann-Dichte-Schätzer von Rosenblatt-Parsen hat die folgende Formel Fn von x, hängt ab von Parameter hn, sie nehmen 1 durch n mal hn hoch d,
01:10:42
dann die Summe i gleich 1 bis n, k von x minus groß xi durch hn und das weitere Parameter hat eine sogenannte Kernfunktion k, mit hn ist, wir machen vielleicht ein Wobei,
01:11:04
und der hat jetzt die Formel 2, 4, hn größer 0, das ist die sogenannte Bandbreite,
01:11:24
und k ist eine Funktion von r, d nach r. Und für die werden wir fordern, im einfachsten Fall würde man sagen, das soll eine Dichte sein. Wenn das Ganze eine Dichte ist, werde ich ihn gleich begründen,
01:11:42
ist der ganze Kann-Dichte-Schätzer auch eine Dichte. Dann würden wir eine Dichte durch eine Dichte schätzen, was Sinn macht. Wir werden aber später in der Vorlesung noch sehen im Hinblick auf die Konvergenzgeschwindigkeit. Es ist unter Umständen sinnvoll, da auch eine Funktion zu wählen, die nicht eine Dichte ist, die eventuell auch negative Werte annimmt, was erstmal ein bisschen strange ist,
01:12:01
weil sie unter Umständen Wahrscheinlichkeiten durch negative Werte schätzen, was nicht unbedingt schlau ist, aber deswegen formuliere ich es hier allgemeiner. Das sei eine messbare Funktion, ich lasse messbar weg, mit der Eigenschaft, dass sie integrierbar ist, also integral über Betrag von k von zt, z sei kleiner und endlich,
01:12:33
und weiter, sie soll zumindest zu 1 integrieren.
01:12:49
Also naheliegenderweise wird man, das ist der sogenannte Kernfunktion,
01:13:09
und dann die Bemerkung dazu, ist jetzt k selber eine Dichte, also ist das integral über, ist der Funktionswert immer nicht negativ,
01:13:24
integral ist ja schon 1, ist k eine Dichte, dann ist 2,4 ebenfalls eine Dichte, weil das 2,4 ist ein arithmetisches Mittelfunktionen, und die Id-Funktion ist einfach 1 durch h n hoch d mal k von x minus groß x i durch h n,
01:13:42
und diese Id-Funktion ist auch eine Dichte, ist k Dichte, so ist 4 als mittel, als arithmetisches mittel der Funktionen,
01:14:05
x wird abgebildet auf 1 durch h n hoch d, selbst Dichte.
01:14:23
Das kennen Sie aus der Vorlesung einfügig, du hast dich sogar, da habe ich Ihnen das damals vorgeführt, in der fünften Vorlesung so ungefähr, ne eher so siebte wahrscheinlich, ja ich habe es vergessen, aber zu Beginn der Vorlesung habe ich Ihnen vorgeführt, was passiert, wenn Sie diesen Kern, diese Kernfunktion,
01:14:42
also was machen Sie da oben, Sie halten x i mal fest, Sie halten h n fest, dann betrachten Sie die Funktion, x wird abgebildet auf 1 durch h n hoch d mal k von x minus x i durch h n, das führt dazu, dass Sie den Nullpunkt verschieben an die Stelle x i, und das 1 durch h n im Argument und 1 durch h n hoch d ist eine Reskalierung,
01:15:02
entweder Sie stauchen oder Sie strecken, die ganze Funktion, aber der gesamte Flächeninhalt bleibt 1, und der Funktion. Und wenn das k jetzt eine Dichte ist, dann sind diese einzelnen Dinge auch Dichten, und dann sehen Sie in arithmetisch, das mittel von Dichten ist wieder mittel, ist wieder eine Dichte.
01:15:21
Ok, das ist eigentlich der Standardfall, dass wir sagen, wir nehmen eine Dichte, aber wir werden eben in anderthalb Wochen so grob oder nächste Woche sehen, wenn ich die Konvergenzgeschwindigkeit mir angucke, und da werden wir einfach den erwarteten L1-Fehler betrachten und werden irgendwie annehmen, unsere Funktion f ist vielleicht zweimal stetig differenzierbar,
01:15:40
ist vielleicht dreimal stetig differenzierbar, und ich erlaube denn, dass dieser Kern auch negative Werte annimmt, dann schaffe ich es, dass es mit der schnelleren Geschwindigkeit konfigiert als nicht. Ist natürlich irgendwie ein bisschen blöd, von der Motivation her, wenn Sie sagen, ja, ich habe hier eine Wahrscheinlichkeit, die schätzt sich durch einen Term,
01:16:00
der wird offenbar negativ. Das ist ja so ähnlich, wie wenn Sie in einer Klausur zur Einführung die Stochastikvarianz gleich minus eins ausrechnen, und Sie merken es nicht, schreiben nichts dazu, dann würden wir normalerweise noch einen Zusatzpunkt abziehen, weil Sie nicht gesehen haben, dass die Varianz nicht negativ sein kann.
01:16:20
Es wäre genauso blöd, wenn man hier eine negative Wahrscheinlichkeit schätzt, aber auf der anderen Seite, wir können natürlich sofort unsere Schätzung so modifizieren, dass wir anschließend sagen, ja, da nehmen wir halt das Maximum von der Schätzung und Null. Das wird dann natürlich noch besser. Also so gesehen macht das nichts. Also diesen Ausdruck tun wir eher verbessern.
01:16:40
Aber auf der anderen Seite, wenn Sie hier eine negative Funktion haben, dann gilt chefe nicht mehr. Dann haben Sie auch nicht mehr diesen Zusammenhang, also es kann sich darüber streiten, ob es Sinn macht oder nicht. Ich wollte es erst nicht machen, ich wollte erst gesagt, ich mache diese ganze Dichteschätzung nur für Dichten wirklich. Es ist eine Dichte, aber es wird eigentlich ein ganz hübsches Resultat für die Konvergenzgeschwindigkeit, wenn wir auch negative Werte zulassen.
01:17:06
Gut, wir behandeln dann beim nächsten Mal erst mal ein Konsistenzresultat. Das haben wir im Prinzip schon in der Vorlesung der mathematischen Statistik gezeigt, aber wir machen es jetzt deutlich allgemeiner, nämlich für ganz allgemeinen Kern. Das Ding gezeigt, das machen Sie dann primär in den ersten Übungen, und dann gehe ich über zur Konvergenzgeschwindigkeit.
01:17:22
Das fängt erst mal relativ simpel an, ich mache so ein paar elementare Sätze zur Konvergenzgeschwindigkeit, dann beschäftigen wir uns aber mit unteren Schranken, und da beginnt dann die eigentliche Mathematik. Okay, dann bin ich fünf Minuten vor meiner Zeit, aber ich bin am Ende vom ersten Kapitel, höre ich vielleicht an der Stelle auf. Gut, sehe ich Sie am Freitag.