Differenzieren von Funktionen mit mehreren Variablen II
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Teil | 12 | |
Anzahl der Teile | 27 | |
Autor | ||
Lizenz | CC-Namensnennung - keine kommerzielle Nutzung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben. | |
Identifikatoren | 10.5446/34541 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | |
Genre |
1
2
4
5
6
7
10
13
14
15
16
17
18
19
21
22
24
25
26
27
00:00
Machsches PrinzipApproximationFolge <Mathematik>GleichungLineare AlgebraMathematikMatrix <Mathematik>MengeNumerische MathematikOptimierungPhysikerPolynomRechnenVektorrechnungZahlZahlentheorieFunktion <Mathematik>Physikalische GrößeNormierter RaumMatrizenringNumerisches VerfahrenQuadratVariableZusammenhang <Mathematik>UngleichungNullstelleAbbildung <Physik>Aussage <Mathematik>DifferenzenquotientDifferenzierbare FunktionDifferenzierbarkeitEbeneEinfach zusammenhängender RaumGeradeGradientenverfahrenGrenzwertberechnungGroße VereinheitlichungHypergraphIndexKoordinatenLineare AbbildungMomentenproblemStetige FunktionStetigkeitTeilmengeZahlenbereichSummeKonstanteNichtlineares GleichungssystemReelle ZahlVektorLängeAbstandParametersystemHöheAbleitung <Topologie>VektorfunktionBetrag <Mathematik>QuotientDimension 1GradientOffene MengeGreedy-AlgorithmusMittelwertsatz <Integralrechnung>RundungKugelkappeKreisflächeOptimumOptimierungsproblemRichtungAbleitungsfunktionMonster-GruppeRadiusPartielle AbleitungHalbkugelSchnitt <Mathematik>Partielle DifferentiationDiagonale <Geometrie>AbleitbarkeitMeterRichtungsableitungTangente <Mathematik>GraphReiheTrägerErweiterungFaktorisierungMittelwertOperatorVektorraumDifferentialDifferentiation <Mathematik>DimensionEinheitskreisHaar-MaßInhalt <Mathematik>KugelNorm <Mathematik>SinusfunktionSummandZustandsdichteGegenbeispielNichtlinearer OperatorSorte <Logik>Formation <Mathematik>Achse <Mathematik>NullVollständiger VerbandTurnier <Mathematik>StandardabweichungEnde <Graphentheorie>Art 3Konzentration <Wahrscheinlichkeitsverteilung>Computeranimation
Transkript: Deutsch(automatisch erzeugt)
00:01
präsentiert von Open Learnware, die Plattform für Lernmaterialien an der TU Darmstadt. So, dann mal einen schönen guten Morgen. Herzlich willkommen zum zweiten Teil der partiellen Ableitung. Wir hatten in der letzten Vorlesung uns
00:23
dem Problem zugewandt, wenn ich eine Funktion habe, die... Danke. Ja, also ich habe noch nicht so viel geschrieben, noch nicht so viel verpasst. Also wenn Sie eine Funktion haben, die D Variablen hat und nach RP geht, natürlich im Allgemeinen
00:44
auch eine Teilmenge von RD definiert, aber beschreiben wir mal von RD nach RP, wie wir so ein Ding ableiten. Und als erste Lösung hatte ich Ihnen die sogenannte partielle Ableitung präsentiert, bei der man eben sagt,
01:04
gut, wir können nicht nach mehreren Variablen gleichzeitig ableiten oder es ist zumindest nicht offensichtlich, wie es geht. Und deswegen leiten wir einfach erst mal nur nach einer ab. Und das war die partielle Ableitung nach der J-Variablen der Funktion f an der Stelle x0 und die hatten wir
01:22
definiert über einen eindimensionalen Differenzenquotienten Limesh gegen 0, f von x0 plus h mal ej von x0, ein kleines bisschen in Richtung des J-Einheitsvektor gelaufen, minus den Referenzwert an der Stelle x0 durch h. Wenn der Grenzwert existiert, dann ist das Ding partiell ableitbar
01:43
und diese Zahl da ist die partielle Ableitung. So, jetzt steht hier immer noch, ist eben keine Zahl. Was ist das Ding, was da jetzt steht? Im Nenner steht eine Zahl,
02:01
das h ist einfach eine reelle Zahl. Im Zähler steht die Differenz von zwei Bildern von f, f geht nach rp, also ist das eine Differenz von zwei Vektoren im rp. Wir haben hier also als Grenzwert kriegen wir den Vektor in rp raus. Und jetzt hatte ich letztes mal Ihnen zum einen gesagt, wie man so eine
02:25
partielle Abreitung konkret ausrechnet. Das ist im Prinzip einfach. Sie machen das so, wie man es aus dem R gewohnt ist. Sie tun so, als wären die restlichen D minus eins Variablen konstanten, ändern sich nicht und leiten einfach
02:41
der einen Variablen x, j ab. Und das zweite, was wir jetzt noch machen wollen, ist diesen Vektor da auseinandernehmen. Hier kommt jetzt als Ableitung ein Vektor raus und es liegt daran, dass f eben nach rp geht, p Koordinatenfunktionen hat. Und ich hatte Ihnen letztes mal schon den Satz hingeschrieben, der sagt,
03:02
Sie können eine Funktion, die nach rp geht, also deren Werte Vektoren sind, ableiten, indem Sie einfach jede Koordinate einzeln ableiten. Also wir haben wieder eine Funktion auf dem Definitionsbereich g in rd, das g wie immer offen. Also eine Funktion von g nach
03:22
rp und ein Punkt x0 in g. Jetzt sind die partiellen Ableitungen Vektoren in p, in rp. Aber Sie können feststellen, ob f in x0 partiell differenzierbar ist, indem Sie sich die Koordinatenfunktionen
03:42
anschauen. Also das Ding ist genau dann partiell differenzierbar, wenn jede Koordinatenfunktion das ist. Und Sie kriegen die Ableitung als Vektor der Ableitung der Koordinatenfunktion. Also die Koordinatenfunktionen f1 bis fp, das sind jetzt Funktionen von g nach r und wenn die
04:06
in x0 partiell differenzierbar sind, alle p Stück, dann ist auch das f da drin partiell differenzierbar und Sie kriegen die Ableitung, indem Sie die partiellen Ableitungen der
04:24
Koordinatenfunktionen in einen Vektor setzen. Also djf1 von x0, djf2 von x0 bis djfp von x0. So, was steckt da dahinter? Wir hatten Sätze von der Bauart schon häufiger. Wir haben gezeigt
04:47
am Anfang, als wir Konvergenz von Folgen im normierten Raum angeschaut haben, wenn Sie eine Folge im rd haben, dann konvergiert die genau dann, wenn jede Koordinatenfolge konvergiert. Wir hatten es bei Stetigkeit, den gleichen Satz, eine Funktion ist stetig, genau dann,
05:01
wenn alle Koordinatenfunktionen stetig sind. Und das ist hier genau das Gleiche, worauf es immer fußt, ist diese Eigenschaft für Folgen. Jeder Grenzwert, den wir hier betrachten und eine Ableitung ist auch nichts als ein Grenzwert, spielt sich irgendwie zurück auf den Grenzwert von Folgen. Und da die Grenzwerte von Folgen die schöne Eigenschaft haben, dass die
05:21
Koordinatenweise bildbar sind, haben wir das hier eben auch. Ich spiele es jetzt nicht ganz bis auf Folge zurück, sondern auf die entsprechende Aussage für Funktionsgrenzwerte. Also die Funktion f ist in x0 partiell differenzierbar. Genau dann, wenn nach Definition der Grenzwert
05:47
über Differenzenquotienten existiert, also den oben angeschriebenen Grenzwert f von x0 plus h e j minus f von x0 geteilt durch h, der muss existieren für j von 1 bis D. Für jede
06:09
partielle Ableitung muss der Grenzwert existieren. Das ist jetzt noch ein Vektor. Also das Ergebnis dieses Grenzwertes ist ein Vektor in Rp. Und jetzt hatten wir bei dem Funktionsgrenzwert
06:28
gesehen, wenn sie eine Funktion nach Rp haben, dann existiert deren Grenzwert an der Stelle genau dann, wenn für jede Koordinatenfunktion das gilt. Das waren Satz 465 und 484. Also
06:44
465 ist der für die Folgen, 484 ist der für den Funktionsgrenzwert. Also sie kriegen diesen Grenzwert existent, genau dann, wenn jede Koordinate konvergiert. Also wenn von diesem Ausdruck hier f von x0 plus h e j minus f von x0 durch h, die Kartekomponente,
07:07
das ist jetzt eine Folge in R, also ein Grenzwert in R, existiert immer noch für alle j gleich 1 bis D und alle k von 1 bis p. Das ist jetzt der Punkt, wo wir den Grenzwert auf
07:32
die Koordinatenfunktion runterspielen. Das ist jetzt die Kartekomponente von diesem Bruch. Gut, das 1 durch h können Sie aus dem Vektor ganz rausziehen. Dann haben Sie
07:43
Differenz von zwei Vektoren stehen. Vektoren zieht man komponentenweise ab. Also ist die Kartekomponente von diesem Bruch nichts als die Differenz der Kartenkomponente von dem f. Also wir haben da stehen die Kartekomponente von f an der Stelle x0 plus h e j minus die
08:06
Kartekomponente von f an der Stelle x0 durch h, muss existieren, immer noch für alle j von 1 bis D und alle k von 1 bis p. Was jetzt da steht, wenn man sich es anguckt,
08:30
ist der Differenzenquotient für die partielle Ableitung nach xj von der Koordinatenfunktion fk. Also was jetzt da steht ist, dass die Koordinatenfunktion fk an der Stelle x0
08:45
partiell differenzierbar ist und zwar für alle k von 1 bis p. Und die Formel sieht man
09:04
auch direkt da dran. Sie kriegen die Ableitung von dem ganzen Ding als Vektor der Komponenten. Was wir damit jetzt geschafft haben, ist, wir können die partiellen Ableitungen bestimmen
09:24
über einen Differenzenquotient in R und wir dürfen die partielle Ableitung bestimmen in jeder Koordinate einzeln. Was Sie also machen müssen, ist, um partielle Ableitung zu bestimmen ist, Sie müssen jede Koordinatenfunktion nach einer Variablen ableiten. Und damit
09:41
haben wir das ganze Problem der partiellen Ableitung vollständig darauf zurückgespielt, nur Funktionen von R nach R differenzieren zu müssen. Und das ist fürs Rechnen gut, weil Funktionen von R nach R differenzieren können wir. Und das ist das, was ich am Anfang sagte, wir brauchen hier keine neuen Ableitungsregeln. Wenn Sie partielle
10:04
Ableitung ausrechnen können, haben Sie alle Werkzeuge, die Sie dafür brauchen, schon zur Verfügung. Also das partielle Differenzieren ist damit vollständig auf R nach R zurückgespielt. Wir müssen nur Funktionen von R nach R differenzieren können
10:35
und können dann jede Funktion von D nach RP partiell differenzieren. Das kann im Einzelfall
10:47
mühsam sein, wenn die Funktion lang ist und viele Buchstaben enthält und man sich dann dauernd damit verwirrt, nach welchen man eigentlich gerade ableitet. Partielle Ableitungen ausrechnen oder bestimmen ist zum Teil etwas Konzentrationsarbeit,
11:03
aber es ist eben mathematisch nicht schwieriger als Funktionen von R nach R zu differenzieren, sondern man eben nur partielle Ableitungen haben will. So, das gibt jetzt einen ganzen Wust von Ableitungen. In R war das alles so einfach,
11:24
da gab es eine Funktion und die hatte eine Ableitung und das war eine Zahl und damit war gut. Und hier haben wir jetzt, wenn wir eine Funktion von RD nach RP haben, für jede Koordinatenfunktion und für jede Variable eine Ableitung. Das sind D mal P Zahlen und da will man natürlich irgendwie eine Ordnung reinbringen und die P Funktion mit
11:48
D Variablen, das schreibt schon irgendwie nach einer zweidimensionalen Darstellung nach einer Matrix und das wollen wir jetzt auch tun. Diese ganzen Ableitungen fasst man zweckmäßigerweise in eine Matrix zusammen. Das hat noch mehr Hintergrund als einfach
12:06
nur praktisches Sortieren. Da kommen wir später zu. So, die kriegt jetzt einen Namen. Also wir haben unser Standard Setting von der ganzen Zeit. Wir haben eine offene Teilmenge des RD. Wir haben eine Funktion, die auf diese Teilmenge definiert ist und nach RP geht
12:25
und die sei an einer Stelle x0 in G partiell differenzierbar, also die ganzen partiellen Ableitungen existieren. Und dann fasst man diese ganzen partiellen Ableitungen in einem Matrix zusammen und jetzt ist natürlich die Frage konventionsmäßig kommen die
12:45
verschiedenen Funktionen oder die verschiedenen Ableitungen in die Zeilen und Spalten und die Konvention an der Stelle ist, in die erste Zeile kommt die Koordinatenfunktion f1 nach allen Variablen abgeleitet, also hier steht die erste partielle Ableitung von f1 an der Stelle
13:01
x0, dann kommt die zweite partielle Ableitung von f1 an der Stelle x0 und so weiter bis zur d-ten partiellen Ableitung von f1 an der Stelle x0 und in jeder Zeile zählt man jetzt das f hoch, also hier steht die erste partielle Ableitung von f2 an der Stelle x0,
13:22
die zweite partielle Ableitung von f2 an der Stelle x0 bis zur d-ten partiellen Ableitung von f2 an der Stelle x0 und so geht das weiter und in der letzten Zeile ist dann das fp dran. Das fp müssen sie nach der ersten Variablen ableiten, nach der zweiten Variablen
13:42
ableiten, bis am Ende nach der d-ten Variablen das fp abgeleitet wird. Und da sehen Sie, die Ableitung oder die gesamte Information über die Ableitung ist für eine Funktion von R15 nach R23 schon relativ unübersichtlich. Aber man kann das nicht so als Matrix vorstellen
14:03
oder man sollte sich das als Matrix vorstellen und die kriegt einen Namen und zwar heißt die Jacobi-Matrix, deswegen wird die mit j bezeichnet, Index f an der Stelle x0, das ist die Jacobi-Matrix von f, also von f an der Stelle x0. Und wenn Sie jetzt
14:29
eine Funktion haben, die auf ganz g partiell differenzierbar ist, dann kriegt das wieder eine Funktion, die jedem x das jf von x zuordnet. Das ist dann die partielle Ableitungsfunktion. Und Sie haben jetzt in dieser Matrix mal zumindest alle partiellen
14:44
Ableitungen von allen Koordinatenfunktionen zusammengefasst. Sie sehen, es ist konsistent mit unserer Ableitungsberechnung auf R und Sie haben nur einfach nie gemerkt, dass wenn Sie von der Funktion an der Stelle die Ableitung ausrechnen, kommt da eigentlich
15:01
nämlich gar keine Zahl raus, sondern da kommt eine 1 x 1 Matrix raus. Das ist Ihnen nur noch nicht aufgefallen vorher. Von 1 x 1 Matrizen kann man natürlich mit den Zahlen identifizieren. Aber wenn Sie eben nur eine Funktion mit einer Variablen haben, dann kommt hier eine 1 x 1 Matrix raus und alles passt. So, wir haben gesehen,
15:25
häufig lassen sich Probleme für Funktionen, die nach R, P gehen, auf die Koordinatenfunktion zurückspielen. In dem Sinne sind Funktionen, die nach R gehen, die wichtigen Bausteine, aus denen man sich dann die Vektorfunktionen aufbaut. Und deswegen ist P gleich 1 ein
15:41
wichtiger Spezialfall. Und für P gleich 1 hat sich aus historischen Gründen eine andere Notation für die Jacobi-Matrix eingebürgert. Was ist mit der Jacobi-Matrix, wenn P gleich 1 ist? Wenn P gleich 1 ist, ist die Jacobi-Matrix nur eine Zeile dick. Dann ist das ein 1 x D-Vektor,
16:05
also ein Zeilenvektor der Länge D. Und den nennt man normalerweise nicht Jacobi-Matrix, also die Jacobi-Matrix von F an der Stelle x 0 ist dann aus R 1 Kreuz D ein R D-Zeilenvektor.
16:24
Und in dem Fall nennt man das Ding üblicherweise nicht Jacobi-Matrix, sondern den Gradienten. Und der wird notiert mit so einem auf der Spitze stehenden Dreieck, also auf der Spitze
16:42
stehende Dreieck F von x 0. Die auf der Spitze stehende Dreieck nennen vor allem die Physiker den Nabla-Operator, falls Ihnen das Wort mal runterkommt. Aber das ist einfach die Notation für die Jacobi-Matrix für eine Funktion von R D nach R. Und das ist in
17:03
dem Fall die Jacobi-Matrix. Und das ist einfach der Zeilenvektor, Ableitung von F nach der ersten Variablen bis Ableitung von F nach der d-ten Variablen. Und das Ding heißt Gradient von F. Es kann Ihnen passieren, also dieses Dreieck ist relativ gängig.
17:28
Der ein oder andere Autor schreibt das Ding auch als Grad F. Auch das dürfte man in dem einen oder anderen Buch mal finden. Gemeint ist damit dieser Vektor der D ersten
17:44
partiellen Ableitung für eine Funktion von R D nach R. Was haben wir jetzt also? Wir haben die partielle Ableitung als Matrix, also die Jacobi-Matrix als Matrix
18:00
aller partiellen Ableitungen. Spezialfall des Gradienten. Jetzt können Sie einen Zusammenhang zwischen Gradient und Jacobi-Matrix relativ leicht sehen. In jeder Zeile der Jacobi-Matrix steht ein Gradient. In der ersten Zeile der Jacobi-Matrix steht der Gradient von F1. In der zweiten Zeile steht der Gradient von F2 und so weiter bis zum
18:22
Gradient von Fp. Das ist die erste Bemerkung dazu. Also Bemerkung 411. Wenn man sich so ein bisschen an diese Notation gewöhnen will und das muss man tun, weil die ist
18:40
gängig, dann ist eine Sache, die man sich klar machen kann. Die Jacobi-Matrix von F ist eine Matrix mit P-Zeilen und die erste Zeile ist der Gradient von F1. Die zweite Zeile ist der Gradient von F2 bis zum Gradient von Fp. Der Gradient ist jeweils ein D-Vektor,
19:07
also haben Sie eine P-Kreuz-D-Matrix. Die Jacobi-Matrix ist immer eine Matrix aus dem F. Wenn Sie sich jetzt daran erinnern, dass F eine Funktion von Rd nach Rp, dann kann man sich
19:25
das fast perfekt merken. Also wenn Sie eine Funktion von Rd nach Rp haben, dann muss die Jacobi-Matrix immer eine Matrix sein mit den gleichen Dimensionen, aber leider andersrum. Also Funktion von Rd nach Rp gibt eine Jacobi-Matrix in Rp-Kreuz-D. Die beiden Buchstaben
19:43
müssen wieder auftauchen, nur in umgekehrter Reihenfolge. Und jetzt will ich Ihnen noch ein bisschen was über den Gradienten erzählen, was anschaulich ist über den Gradienten, was ich Ihnen im Moment noch nicht beweisen kann. Aber ich denke, es lohnt sich trotzdem
20:03
schon hier drauf hinzuweisen und Ihnen das nahezubringen, weil der Begriff jetzt hier kommt. Beweis liefer ich nach, wenn wir die Theorie dafür haben. Aber das ist fundamental, also beim Gradienten einfach wichtig, dass man eine Vorstellung dafür hat, was der tut,
20:23
weil der Gradient hat eine ganz anschauliche Bedeutung. Stellen Sie sich wieder Ihre Funktion vor von R2 nach R als Gebirge. Und was der Gradient dann macht, was der Gradient,
20:41
also Sie stehen an einem Punkt in dem Gebirge. Jetzt können Sie an der Stelle den Gradienten ausrechnen und dann ist die Frage, was gibt er Ihnen an? Und der Gradient gibt Ihnen an dieser Stelle, der Gradient ist jetzt ein Vektor. Ein Vektor im Rd, also gleicher Dimension wie der Definitionsbereich Ihrer Funktion. Und dieser Vektor zeigt im
21:05
Definitionsbereich der Funktion immer in die Richtung, in die der Hang am steilsten ansteigt. Also der Gradient ist ein Vektor, hat eine Richtung und einen Betrag. Und die Richtung des Gradienten ist die Richtung des steilsten Anstiegs. Wenn Sie irgendwann mal mit einer
21:25
Mathematiker auf Bergwandertour sind, kommt garantiert irgendwann der Spruch, ja wir machen das nach der Gradienten Methode, soll heißen immer den steilsten Weg rauf. Und dann geht es am schnellsten und man ist hinterher am fertigsten. Aber der Spruch
21:42
ist so, der kommt eigentlich immer. Also der Gradient zeigt Ihnen immer die Richtung, in die der Hang am steilsten steigt. Und der Betrag des Gradienten ist halt dann die Größe dieser Steigung. Also Sie haben einen besonders langen Gradienten, wenn es in die Richtung
22:05
des steilsten Anstiegs besonders steil rauf geht. Dann sehen wir einen besonders kurzen Gradienten in die Richtung des steilsten Anstiegs, der aber relativ mager ausfällt. Und das ist zum einen gut, sich klar zu machen als Vorstellung für den Gradienten und zum
22:26
anderen, wenn Sie später in numerische Verfahren gehen, die Grundlage für Unmengen Optimierungsverfahren an verschiedensten Stellen. Also wenn man, kann ich wieder die Wirtschaftsinformatiker ansprechen. Dreiviertel der Arbeit ist optimieren
22:42
irgendwelcher Größen. Aber ich kann auch die Informatiker direkt ansprechen, weil auch das Näherungsweise lösen von Gleichungen, was für Sie ein wichtiger Job ist, auf solchen Methoden beruht. Viele, viele Numeriken zum Optimieren von Größen und das Problem,
23:06
Gleichungen zu lösen, kann man auch als Optimierungsproblem auffassen und tut man oft, wenn Sie eine Gleichung lösen wollen, dann lösen Sie näherungsweise und optimieren und versuchen, den Fehler, den Sie dabei machen, gegen Null zu drücken. Sie suchen
23:20
den optimalen Fehler beim Nähern. Das ist auch ein Optimierungsproblem, Gleichungen zu lösen. Und eine der absoluten Standardmethoden, etwas zu optimieren ist, sagen wir, Sie suchen den größtmöglichen Wert oder den kleinsten, ist egal, Sie suchen den Gipfel im Gebirge. Wie finden Sie den nach der Gradientenmethode? Wenn Sie an irgendeiner Stelle sind, rechnen Sie den Gradienten aus. Der zeigt Ihnen,
23:41
wo es am meisten rauf geht. In unserem klassischen Greedy-Algorithmus ist das mal die richtige Richtung, um ein Stück weiterzulaufen. Also laufen Sie ein Stück in die Richtung des Gradienten, wo es am steilsten rauf geht, und rechnen einen neuen Wert aus und gucken, in welche Richtung der Gradient jetzt zeigt und auf die Weise suchen Sie sich Ihren Gipfel. Solche Methoden nennt man Gradientenmethoden und die sind
24:00
in der Optimierung unter Numerik hochweit verbreitet. Wenn Sie über die Methoden ein bisschen nachdenken, sehen Sie, die sind ziemlich stark, die konvergieren sehr schnell. Sie haben einen Nachteil, Sie suchen halt irgendeinen Gipfel. Sie rennen auf den nächstbesten Gipfel zu und wenn Sie halt Pech haben, dann ist dieser
24:23
Gipfel halt so ein kleiner Mittelgebirgshügel, der irgendwo in der Landschaft liegt und weit weg vom realen Optimum der Funktion. Gradientenmethoden sind immer schlecht im globalen Optima-Finden. Sie haben den Startwert. Wenn Sie Glück haben und der Startwert lag schon in Nepal, dann haben Sie die Chance, dass Sie auf Mount Everest landen und wenn Sie den
24:41
Startwerk irgendwo im Vogelsberg legen, dann landen Sie halt auf irgendeiner Erhebung im Vogelsberg und das war nicht so ganz der höchste Punkt. Aber es sind trotzdem ganz wesentliches Hilfsmittel, wird Ihnen hundertfach unter die Augen kommen und immer wenn Sie Gradientenmethoden lesen, denken Sie daran, das alles beruht einfach auf dieser anschaulichen
25:02
Eigenschaft des Gradienten. Der Gradient einer Funktion zeigt immer in die Richtung, wo es am steilsten rauf geht und wir können das, ich kann Ihnen das an einem Beispiel plausibel machen. Wie gesagt, Beweis geht jetzt noch nicht und ich begründe Ihnen auch bald, warum Beweis noch nicht geht. Wir schauen uns
25:21
die Funktion an, deren Graf einfach die obere Hälfte der Kugelkappe ist. Was ist das? Wir definieren das Ding auf dem Inneren des Kreises mit Radius 1 im R2. Also wir schauen uns an,
25:44
die Menge aller x, y in R2, deren 2-Norm kleiner als 1 ist. Das ist das Wer es nicht mehr weiß, die 2-Norm, Wurzel aus x² plus y², unser ganz
26:06
gewöhnlicher euklidischer Abstand und als f auf dieser Menge nehme ich die Funktion Wurzel aus 1 minus x² minus y². Das ist meine Funktion,
26:21
aber die hat einen ganz anschaulichen Grafen. Der Graf ist einfach sozusagen die Kuppel, die obere Halbkugel über der Ebene und wenn Sie jetzt sich die Kuppel vorstellen, dann ist irgendwie klar, wohin zeigt
26:42
immer die Richtung des stärksten Anstiegs, egal wo sie sind, nicht ganz egal wo sie sind, wenn sie im Ursprung sind, stehen sie ganz oben auf der Kuppel drauf, dann haben sie keinen steilsten Anstieg, da wird der Anstieg immerhin zum Mittelpunkt zeigen. Ich versuche mal das Ding zu malen.
27:02
Also wir haben die x-Achse, y-Achse, z-Achse. In der x, y-Achse haben wir den Einheitskreis, auf dem ist die Funktion definiert und der Graf, also
27:21
hier ist 1, da ist minus 1, da ist 1, 1, minus 1. Und der Graf ist eben diese Halbkugel, die da oben drüber liegt, jetzt wird es dreidimensional, jetzt wird es schrecklich. Also so ein Halbkugel Graf da oben drüber. Und wie sollte jetzt der
27:46
Gradient an jeder Stelle aussehen? Also wenn Sie was weiß ich an dieser Stelle hier sind, oben im Gebirge, in welche Richtung geht es am steilsten Rauf? Am steilsten Rauf geht es immer radialsymmetrisch auf den Durchbrung zu. Das wollen wir jetzt rauskriegen. Also wir rechnen mal den
28:08
Gradienten aus. Was ist der Gradient von dieser Funktion? Gradient ist der Vektor der partiellen Ableitung und wir haben gesagt, partielle Ableitungen
28:20
ausrechnen ist nichts Neues und nichts Schweres. Sie nehmen sich die Funktion da oben, leiten sie einmal nach x ab, leiten sie einmal nach y ab und schreiben das in den Vektor. Also Sie rechnen erst die partielle Ableitung nach x aus und dann die partielle Ableitung nach y und schreiben die in den Vektor. Was kommt da raus? Es kommt raus, wenn wir diese Wurzel
28:47
nach x ableiten. Die Ableitung der Wurzel ist eins durch zweimal die Wurzel. Also bleibt erstmal übrig zweimal die Wurzel im Zähler, im Nenner. Und jetzt haben wir noch die innere Ableitung. Was
29:08
kommt da raus? Wenn Sie die innere Ableitung nach x ableiten, dann kriegen Sie minus 2x raus. Jetzt nach y gibt den gleichen Nenner, weil es nur die Ableitung der Wurzel ist. Und wenn Sie die innere Ableitung nach y bilden,
29:23
gibt es minus 2y. Also haben wir diesen Wurzelfaktor, also erst mal kürzen sich die Zweier und dann haben wir diesen Wurzelfaktor in beiden Komponenten. Den können wir also vorziehen. 1 durch Wurzel 1 minus x Quadrat minus y Quadrat. Das Minuszeichen ziehen wir auch vor. Mal
29:46
der Vektor xy. So, was ist das für ein Vektor? Das ist jetzt der Gradient. Das Schöne ist, man sieht den Betrag im Prinzip sofort. Was passiert mit dem Betrag? Wenn x Quadrat plus y Quadrat 1 wird, also wenn sie am
30:06
Rand auf der Einheitskreisscheibe sind, dann wird der Betrag beliebig groß, dann wird die Steigung unendlich groß. Das passt, weil am Rand kommt die Kugel senkrecht aus dem Boden. Unendlich große Steigung. Wenn x und y
30:22
beide 0 sind, dann ist der Gradient 0. Auch nicht verwunderlich, wenn Sie oben auf der Spitze stehen, ist die Richtung des steilsten Anstiegs in keine Richtung, weil es keinen Anstieg mehr gibt und die Ableitung hat eine Nullstelle. Und wann immer Sie irgendwo dazwischen sind, ist das ein Vektor mit
30:42
Betrag, der zunehmend abnimmt, je mehr Sie in die Mitte kommen und dessen Richtung minus x minus y ist. Das heißt eben genauso wie erwartet einer, der auf den Ursprung zeigt und zwar umso länger, je weiter wir draußen sind. Also so sehen die Gradienten aus. Gibt so ein Feld, das
31:04
radial-symmetrisch auf den Ursprung zeigt. Passt also zu dem, was ich Ihnen gesagt habe, ist natürlich so kein Beweis. Wir haben es jetzt an einem Beispiel verifiziert, dass der Gradient irgendwie in Richtung des
31:20
steilsten Anstiegs zeigt und sein Betrag ungefähr der Größe dieses Anstiegs entspricht. Ich wie gesagt liefer das nach und will mich jetzt damit beschäftigen, Ihnen zu zeigen, warum ich es Ihnen im Moment nicht beweisen kann. Und das liegt an was, was ich auch schon erwähnt habe.
31:47
Bisher sehen die partiellen Ableitungen gut aus. Also wir hatten unser Problem, eine Funktion von RD nach RP wollen wir differenzieren. Die Idee, die Differenzenquotient direkt zu übertragen, läuft ins Leere. Wir leiten halt mal nach einzelnen Variablen ab und kriegen
32:03
schöne Ableitungen raus. Und was ich Ihnen jetzt zeigen will, ist, dass das tatsächlich schön funktioniert. Das Problem ist nur, Sie kriegen keine schöne Theorie damit. Und ich werde Ihnen jetzt ein, zwei abschreckende Beispiele zeigen, an denen man sieht, dass komische Dinge passieren können,
32:22
wenn sie partiell ableiten und dass insbesondere Erwartungen, die man an diesen Ableitungsbegriff hat, nicht funktionieren. Und das erste Beispiel zeigt, dass Sie unter Umständen Funktionen partiell differenzieren können, die nicht mal stetig sind. Und das ist irgendwie ein starker Widerspruch
32:44
zu dem, was wir von einem Differenzationsbegriff erwarten. Eigentlich sollte differenzieren was stärkeres sein als Stetigkeit. Und was zweites sieht man an dem Beispiel gleich auch noch. Wir haben am Anfang definiert alle Richtungs Ableitungen.
33:02
Also Ableitungen in jede Richtung und haben uns dann fokussiert auf die partiellen Ableitungen in Richtung der Koordinatenachsen. Warum macht man das? Die Idee ist, wenn ich in jede Koordinatenachsenrichtung differenzieren kann, dann kann ich ja, weil die Koordinatenachsen zur
33:22
Standardbasis gehören, ich kann jeden Vektor in jede Richtung sozusagen in die Standardbasis zerlegen. Und die Hoffnung ist, wenn man die Ableitungen in alle Standardbasisrichtungen kennt, dann kann man die Ableitungen in alle Richtungen ausrechnen, weil man ja jeden Vektor als Linearkombination der Standardbasis schreiben kann.
33:42
Das ist eine naheliegende und sehr richtige Vermutung und die funktioniert im Prinzip auch, nur für partiell differenzierbar nicht. Das sehen wir jetzt an dem Beispiel. Das ist das Beispiel 4.12. Und die Funktionen, die wir uns anschauen, die haben wir schon mal gehabt.
34:02
Ich habe sie nochmal mitgebracht. Also Beispiel 4.12. Wir haben eine Funktion von R2 nach R, damit man sie sich hinmalen kann. Also f von x, y. Das ist wieder so etwas stückweise definiertes.
34:26
x mal y durch x² plus y², wenn x, y nicht 0 ist und 0, wenn x, y gleich 0, 0 ist. Die hatten wir vor zwei, drei Wochen schon mal.
34:41
Ich habe den Graphen nochmal mitgebracht. Das war dieses fürchterlich unstetige Teil. Auf der Menge, wo x gleich y ist, ist die Funktion konstant ein halb. Auf der Menge, wo x gleich y ist, ist die Funktion konstant minus ein halb. Dazwischen windet sie sich irgendwie so rum.
35:04
Und in der Nähe der Null kriegt sie immer mehr Schwierigkeiten, das pünftig hinzukriegen und irgendwann steigt dann auch die Numerik hier aus und liefert so komische Zacken. Also eigentlich ist hier unten natürlich zum Beispiel keine Lücke. Hier unten ist keine wirkliche Lücke. Also es ist die Lücke genau bei 0. Hier ist immer der Wert minus ein halb.
35:25
Nur an der Stelle 0 ist er natürlich genau 0 und danach springt er sofort wieder auf minus ein halb. Das kann die Numerik aber nicht auflösen. Deswegen die Lücke da unten. So, was hatten wir über diese Funktion gelernt?
35:40
Das war das Beispiel 486. Da hatten wir gesehen, was man ja auch auf dem Bild unschwer erkennt, die Funktion ist nicht stetig in Null. Und ich will Ihnen jetzt zeigen, dieses Monster ist trotzdem partiell differenzierbar in Null.
36:01
Und das hat einen ganz banalen Grund. Wenn Sie sich die Funktion in Null anschauen, was passiert, dann gucken Sie sich die Funktionsvorschrift an. Was bedeutet partielle Ableitung? Partielle Ableitung bedeutet,
36:24
wir machen einen Schnitt der Funktion entlang der x-Achse. Also hier, da wo x gleich Null ist, also nein, wo x gleich Null ist, ist so. Und da wo y gleich Null ist, das wäre so. Und leiten nur nach dieser Funktion ab.
36:48
Was ist denn mit der Funktion auf der x-Achse? Also auf der x-Achse ist da, wo y gleich Null ist. Wenn Sie y gleich Null einsetzen, kommt als Funktion raus Konstant Null. Die Funktion ist also auf der Achse Konstant Null.
37:02
Das ist eine wunderbar differenzierbare Funktion mit Ableitung Null. Dementsprechend haben Sie eine partielle Ableitung. Wir rechnen es auch gleich noch aus. Aber das Ding ist eben noch nicht mal stetig. Also was ist die Ableitung von der Funktion?
37:20
Überall da, wo x, y nicht Null, Null ist, ist das Ableiten wieder Fleißarbeit. Können wir einfach ausrechnen. Das ist D1f von x, y. D1 Ableitung nach der ersten Koordinate, also nach x. Wir leiten das Ding nach x ab. Gibt eine Quotientenregel.
37:41
Ableitung nach dem oberen, also oberen Zähler abgeleitet nach x geht y multipliziert mit dem Nenner. Minus den Zähler. Mal Ableitung vom Nenner nach x gibt 2x. Geteilt durch den Nennerquadrat. Kann man noch ein bisschen zusammenfassen.
38:02
Das erste ist x²y plus y hoch 3 minus 2x²y, y hoch 3 minus x²y durch x² plus y²². Und was ist die Ableitung von dem Ding nach der zweiten Koordinate, also nach y?
38:24
Das können Sie jetzt entweder genauso ausrechnen oder man macht sich zu Nutze, dass die Funktion in x und y komplett symmetrisch ist. Also wenn Sie x und y austauschen, ändert sich an der Funktion mal gar nichts. Insofern ist auch die Rechnung für die Ableitung gleich und was rauskommt ist
38:42
x hoch 3 minus y²x durch x² plus y²². So, das ist außerhalb von 00. Und jetzt was ist in 00? Also was ist die Ableitung nach der ersten Variablen in 00?
39:01
Das Ding ist irgendwie so mit einem Sonderpunkt definiert. Wir kommen also nicht drumherum, den Differenzenquartienten direkt draufzuwerfen. Also limh gegen 0, f von h0 minus f von 00 durch h. Das ist die partielle Ableitung nach der ersten Variablen in 00.
39:27
Was ist das in dem Fall? Limh h gegen 0, f von h0 war h mal 0 durch h² plus 0². f von 00 ist 0 durch h.
39:42
Nein, jetzt steht h mal 0 ist halt 0. Also das ist der limh h gegen 0 von 0 und der ist 0. Also ist das Ding wunderbar differenzierbar nach der ersten Variablen auch in x. Auch in 0. Das gleiche passiert für die zweite Ableitung.
40:03
Die ist genauso 0. Also nicht die zweite Ableitung, die partielle Ableitung nach der zweiten Variablen. Nun, damit ist die Funktion partiell differenzierbar auf ganz R, auf ganz R².
40:26
Und der Gradient von f, nun das ist eine Funktion von R² nach R, also hat es einen Gradienten. Der Gradient von f, der ist, was da oben steht, also y hoch 3 minus x² y durch x² plus y²².
40:52
Und x hoch 3 minus y² x durch x² plus y²². Dieser Vektor, wenn x, y nicht 0 ist und der Vektor 00 für x, y gleich 00.
41:11
Das ist aus dem vorhin schon erwähnten Grund verwunderlich, dass die Funktion in 0 nicht mal stetig ist. Trotzdem ist sie wunderbar partiell differenzierbar.
41:21
Und jetzt kommt noch das zweite, was ich vorhin sagte. Wir würden irgendwie hoffen oder erwarten oder wollen, dass wenn sie alle partiellen Ableitungen haben, dass sie dann auch alle Richtungsableitungen haben und dass sie die Richtungsableitungen in Richtung 1,1
41:40
irgendwie aus den Richtungsableitungen Richtung 1,0 und in Richtung 0,1 kombinieren können. Und das geht hier auch schief und das geht sogar richtig grundsätzlich schief. Also wir schauen uns mal an, was ist mit den Richtungsableitungen in 0.
42:12
Also was wir bisher wissen, ist die Richtungsableitung in Richtung der Koordinatenachsen. Also in Richtung der Vektoren 1,0 und der Vektoren 0,1 existieren und sind 0.
42:26
Und die Frage ist, was ist mit den anderen? Wir nehmen uns also irgendeine Richtung her. Das ist ein Vektor in R2, der nicht gerade der Nullvektor ist. Und schauen uns an, wann existiert die entsprechende Richtungsableitung.
42:42
Und was ist das? F von Null plus H mal V minus F von Null durch H. Also F von H mal V. Das war es. V ist V1, V2.
43:03
Und dann haben wir die Funktion war XY. Also erste Komponente mal zweite Komponente. Das ist HV1 mal HV2. Geteilt durch erste Komponente Quadrat plus zweite Komponente Quadrat. Also H Quadrat V1 Quadrat plus H Quadrat V2 Quadrat.
43:24
Minus F von Null. F von Null ist Null. Und das Ganze geteilt durch H. Sieht unübersichtlich aus. Also sortieren wir uns das ein bisschen zusammen. Im Zähler steht H mal H mal V1 mal V2.
43:42
Und der Nenner, also der erste Nenner hat jeweils ein H Quadrat drin. H2 ist Unfug. Jeweils ein H Quadrat drin. Jetzt können wir kürzen und das andere H in Nenner schreiben. Dann haben wir V1 mal V2 durch H mal V1 Quadrat plus V2 Quadrat.
44:09
So und jetzt ist die Frage, wann existiert dieser Grenzwert? Also für welche V ist dieser Grenzwert hier sinnig? Was passiert, wenn H gegen Null geht?
44:21
Wenn H gegen Null geht, dann macht das H unten die Sache unangenehm. Das H unten sorgt dafür, dass der Bruch explodiert. Das heißt, wir müssen irgendwie mit dem Zähler dafür sorgen, dass der Bruch nicht allzu sehr explodiert. Wir müssen also dafür sorgen, dass wenn H gegen Null geht, der Zähler auch gegen Null geht.
44:40
Und das ist schwierig, weil im Zähler ist kein H drin. Deswegen ist es sehr schwierig, mit dem Zähler irgendwie eine H-Abhängigkeit hinzukriegen. Und Sie haben nur eine einzige Chance, diesen Grenzwert zum Konvergieren zu bringen. Und das ist, Sie müssen den Zähler halt ganz Null setzen. Also wenn V1 mal V2 gleich Null ist, dann klappt das natürlich.
45:03
Und wann immer V1 mal V2 nicht Null ist, steht da eine Konstante mal 1 durch H. Und das haut ab für H gegen Null. Und was heißt V1 mal V2 gleich Null? Das heißt, entweder V1 ist Null oder V2 ist Null.
45:20
Also nur für die Richtungsableitungen in Richtung der Koordinatenachsen. Und das heißt, genau die partiellen Ableitungen existieren und keine andere Richtungsableitung in irgendeine andere Richtung.
45:44
Wir haben also alle Richtungsableitungen, die existieren, schon ausgerechnet. Alle anderen gibt es nicht. Und das bedeutet insbesondere nicht nur, dass Sie sich aus dem Wissen der partiellen Ableitungen nicht den Wert der Richtungsableitungen in Richtung 1,1 zum Beispiel ausrechnen können.
46:02
Sie können, wenn die partiellen Ableitungen existieren, noch nicht mal daraus folgern, dass die Richtungsableitungen in anderen Richtungen existieren. Das passiert, sieht man auch wieder an dem Bild. Wenn Sie in Richtung der Koordinatenachsen laufen, haben Sie konstant Null. Dann ist alles gut. Und wenn Sie in irgendeine andere Richtung laufen,
46:21
dann haben Sie immer einen wilden Sprung an der Stelle Null in jeder anderen Richtung. Also wenn Sie in Richtung 1,1 laufen, also auf der Diagonalen hier unten, dann ist die Funktion auch konstant. Dann ist die Funktion konstant minus ein halb, aber an der Stelle Null springt sie auf Null. Die ist konstant minus ein halb, Null und wieder minus ein halb.
46:41
Und das ist nicht differenzierbar. Dementsprechend haben Sie also nur diese beiden Richtungsableitungen in Richtung der Koordinatenachsen. Und man sieht daraus, dass wenn Sie nur wissen, eine Funktion ist partiell differenzierbar, dann können Sie aus den partiellen Ableitungen nichts über die Richtungsableitungen folgern.
47:02
Sie können daraus keine Stetigkeit folgern. Sie wissen im Prinzip gar nichts. Es könnte sein, dass Sie so ein hässliches Endlein vor sich haben. Und dementsprechend ist das, das ist das, was ich Ihnen am Anfang sagte, die partiellen Ableitungen sind leicht auszurechnen,
47:22
aber sie liefern keine stimmige Theorie. Was man im Hinblick auf das Weitergehende beachten kann, wenn Sie sich die Ableitung von der Funktion noch mal genauer anschauen, dann stellen Sie fest, das Ding ist zwar partiell differenzierbar,
47:43
aber die partiellen Ableitungen sind nicht stetig. Also Sie können F in Null Null partiell differenzieren, aber die partiellen Ableitungen, die Sie dabei rauskriegen, wenn Sie auch noch die partiellen Ableitungen außerhalb der Null dazu nehmen, sind auch keine stetigen Funktionen.
48:01
Und wir werden feststellen, dass das der wesentliche Defekt an der Stelle ist. Jetzt habe ich hier stetig partiell differenzierbar benutzt. Ich benutze niemals einen Begriff, ohne ihn zu definieren. Also Definition 413.
48:20
Wir haben wieder unsere Teilmenge G, Stetig partiell differenzierbar als Begriff auch relativ klar.
48:44
Partiell differenzierbar und die partiellen Ableitungen sind stetige Funktionen. Was ich jetzt machen will, ist höhere Ableitungen definieren. Also zweite, dritte, fünfte partielle Ableitung ist jetzt relativ naheliegend.
49:03
Also ich habe Ihnen erste partielle Ableitungen gezeigt. Ich habe Ihnen gezeigt, partielle Ableitungen sind irgendwie noch nicht das Gelbe vom Ei, aber mal wenigstens ein Anfang. Bevor wir uns der Frage zuwenden, wie wir jetzt die partiellen Ableitungen zu einer runden Theorie abrunden können,
49:24
will ich noch den Thema partielle Ableitung fertig machen. Und das heißt, wir müssen halt auch fünf Mal ableiten können. Das ist jetzt der nächste Schritt, aber davor machen wir kurz das Pauschen.
49:41
So, ich würde dann gerne der zweiten Hälfte weitermachen. Und wie gesagt, das Thema höhere partielle Ableitungen anschneiden. Der Weg ist jetzt relativ klar. Wenn Sie eine Funktion,
50:01
machen wir es mal langsam, von Rd nach R haben, und Sie leiten die partiell ab, dann kriegen Sie den Gradienten. Der ist eine Funktion von Rd nach Rd. Der Gradient hängt immer noch von den gleichen Variablen ab, hat jetzt aber d-Komponenten, jede partielle Ableitung.
50:22
Und diese Funktion von Rd nach Rd können Sie natürlich wieder ableiten. Und das ist dann, das liefert Ihnen zweite partielle Ableitung. Da kommt jetzt eine ganze Menge raus, da kommt jetzt d² Stück raus, weil Sie natürlich jede Kombination ableiten können. Sie können die Ableitung nach der dritten Variable
50:41
und nach der fünften Variable ableiten. Oder Sie können auch die Ableitung nach der zweiten Variable nochmal nach der zweiten Variable ableiten. Und so weiter. Und Sie sehen, das gibt kombinatorisch schnell irrsinnige Mengen Ableitungen. Und das wird unübersichtlich. Ein weiterer Nachteil der partiellen Ableitung. Aber definieren wir das mal.
51:01
Also, wir haben wieder eine Funktion auf einer offenen Definitionsbereich G. Wir wollen N-departielle Ableitungen bestimmen. Also nehmen wir ein N aus N Stern, größer 2 gleich 2. Erste partielle Ableitung haben wir schon. Und wir nehmen eine Stelle x0 in G,
51:22
an der wir die Ableitung bestimmen wollen. So, wir haben eine Funktion auf G definiert nach Ap. Und wir nennen die an der Stelle x0 N mal partiell differenzierbar, beziehungsweise N mal stetig partiell differenzierbar.
51:42
Also, die Definition ist jetzt gleich für beides. Das stetig, also alles was in Klammern steht, bezieht sich auf die Definition von stetig partiell differenzierbar. Und der Text ohne Klammern ist die Definition für N mal partiell differenzierbar.
52:01
Was müssen wir dazu haben? Wir müssen haben, dass es erstmal N minus erste partielle Ableitungen gibt. Sonst haben wir keine N minus erste Ableitung zum differenzieren. Also das F muss N minus 1 mal partiell differenzierbar oder stetig partiell differenzierbar sein.
52:26
Und zwar wo? Das ist das gleiche Thema wie schon bei Enten Ableitung in einer Variablen. Es nutzt den nichts, wenn die Funktion nur in x0 N minus 1 mal stetig, also N minus 1 mal partiell differenzierbar ist.
52:41
Weil um eine Ableitung zu bestimmen, müssen Differenzenquotienten bilden. Das heißt, sie müssen sich dem Punkt x0 nähern können von irgendwie. Und dazu brauchen sie die N minus erste Ableitung in einer ganzen Umgebung von x0. Und nicht nur an dem Punkt. Aus dem Wert einer Funktion an einem Punkt kann man nie seine Ableitung bestimmen. Wenn sie nur wissen,
53:02
wenn sie nur wissen, dass dieser Hörsaal hier, weiß ich nicht, 95 Meter über normal 0 liegt, dann wissen sie noch lange nicht, in welche Richtung es bergab oder in welche Richtung es bergauf geht. Also sie können aus dem Funktionswert allein niemals eine Ableitung bestimmen. Und deswegen brauchen sie, dass diese N minus erste Ableitung, die sie wieder differenzieren wollen,
53:23
wirklich eine Funktion ist in einer Umgebung von x0. Im Prinzip würde kleine Umgebung von x0 reichen. Ich setze jetzt mal gleich voraus, dass sie auf ganz G partiell differenzierbar ist. Wenn das nicht so ist, machen sie ihr G kleiner und die Sache ist erledigt.
53:41
Also partiell differenzierbar in G. Und alle diese N minus ersten partiellen Ableitungen, das sind jetzt ziemlich viele, die müssen wieder partiell differenzierbar sein.
54:00
Also entweder partiell oder stetig partiell differenzierbar sein. Wenn sie die N minus ersten Ableitungen wieder partiell differenzieren können, dann haben sie eben die ente partielle Ableitung.
54:22
Was ist mit Notation? Da schreibe ich jetzt gar nichts Allgemeines hin, sonst werden wir wahnsinnig. Sondern ich schreibe Ihnen einfach ein paar Beispiele hin. Wir hatten bei den partiellen Ableitungen drei verschiedene Notationen. Die gibt es hier natürlich alle auch noch.
54:40
Also zum Beispiel könnten Sie folgende partielle Ableitung bilden D1, D3, D1F. Was heißt das? Sie nehmen ihr F, leiten nach der ersten Koordinaten ab. Das Ergebnis leiten Sie nach der dritten ab und das, was rauskommt, wieder nach der ersten. So ist das zu lesen. Sehen Sie diese Ds einfach als Operatoren, die Sie auf das F drauf werfen.
55:02
F, erst D1 drauf, dann D3 drauf, dann D1 drauf. Also das F wird sozusagen in die Prozedur gesteckt. Erste Ableitung ausrechnen, das Ergebnis kommt in die Prozedur dritte Ableitung ausrechnen. Also dritte partielle Ableitung ausrechnen und dann das Ergebnis wieder erste partielle Ableitung ausrechnen.
55:27
So, was man auch häufiger sieht, wäre so eine Schreibweise D2 hoch 3, D1F. Was ist damit gemeint? Damit ist gemeint, erst mal F einmal nach der ersten Variablen ableiten und dann dreimal nach der zweiten.
55:46
Also das wäre eine vierte partielle Ableitung, einmal nach der ersten Variablen abgeleitet und dreimal nach der zweiten. In den anderen Notationen zum Beispiel so. Wir hatten noch die Notation im Bruch.
56:03
Und da würde man schreiben D3F zum Beispiel nach Dx1 nach Dx2². Was ist damit gemeint? Oben an dem F, an dem D, im Zähler notiert man, wie viel insgesamt abgeleitet wird. Das ist das Gute an der Notation. Da sieht man sofort, das ist eine dritte partielle Ableitung.
56:23
Und unten steht, differenziere zweimal nach x2 und danach einmal nach x1. Also erst nach x2 differenzieren, dann nochmal nach x2 und dann nach x1. Und dann hatten wir noch die dritte Notation Fx1x2x3, wäre die partielle Ableitung von F erst nach x1, dann nach x2, dann nach x3.
56:54
Diese letzte Notation ist, wenn man 17. partielle Ableitungen ausrechnet, höchst unangenehm zu schreiben, dann wird sie niemand mehr benutzen.
57:05
Also wenn Sie an das F17-Indizes dranhängen müssen, dann sieht das ganz scheußlich aus. Da kann man sich dann je nach dem mit anderen behelfen.
57:23
So, gut, höhere Ableitungen können wir jetzt ausrechnen. Das ist im Prinzip auch nichts Neues. Sie müssen halt die Ableitung wieder ableiten. Ein Beispiel habe ich mitgebracht. Ein Beispiel, an dem man halt mal ein bisschen ableitet, aber an dem man dann hinterher auch was sieht.
57:41
Also wir betrachten mal wieder was mit nicht allzu vielen Variablen. Also Sie können diese partiellen Ableitungen ganz schnell in die völlige Unübersichtigkeit treiben. Klar, wenn Sie eine Funktion mit sieben Variablen und zehn Ausgangsparameter, also zehn von R7 nach R10 haben, dann haben Sie schon 70 partielle Ableitungen erster Ordnung.
58:07
Und wenn Sie sich jetzt überlegen, wie viele Möglichkeiten es kombinatorisch gibt, die Dinge mit verschiedenen jetzt dreimal partiell abzuleiten, dann dürften Sie irgendwo in 1000 dann liegen. Deswegen rechne ich Ihnen eine von R2 nach R vor. Sonst säßen wir hier bis Juli.
58:24
Und zwar nehmen wir, das ist jetzt ziemlich egal, x hoch 3y plus x e hoch y. Gut, im Prinzip wissen wir, was wir tun müssen. Was ist d1f von xy?
58:42
f nach der ersten Variablen partiell differenziert, also nach x partiell differenziert. Sie lassen das y als Parameter stehen und differenzieren nach x. Es gibt 3x²y plus e hoch y. Was ist d2f von xy? Das ist die partielle Ableitung erster Ordnung nach der zweiten Variablen.
59:04
Differenzieren Sie das Ding nach y, kriegen Sie x hoch 3 plus x e hoch y. Jetzt kommen die zweiten partiellen Ableitungen. Was müssen wir machen? Wir müssen die ersten partiellen Ableitungen wieder ableiten. Es gibt jetzt vier Möglichkeiten. Sie können die erste partielle Ableitung nochmal, also
59:23
die partielle Ableitung nach der ersten Variablen, nochmal nach der ersten Variablen ableiten. Also nochmal nach x differenzieren. Was kriegen Sie dann? 3x² gibt 6x, 6xy, e hoch y nach x differenziert. Das ist nicht mehr viel. Sie können aber auch die erste partielle Ableitung nach der zweiten Variablen ableiten. Das gibt dann d2d1f von xy.
59:49
Das passiert, wenn Sie das Ding nach der zweiten Variablen ableiten. Dann gibt der erste summanten 3x² und der zweite bleibt in e hoch y, weil e hoch y nach y differenziert ist e hoch y.
01:00:03
dann können Sie die zweite Ableihe, die partielle Ableihe nach der zweiten Variablen von f nach der ersten ableiten. Was kommt raus? Sie nehmen den Ausdruck und differenzieren nach x. Es gibt 3x² plus e hoch y. Und was Sie
01:00:22
noch machen können, ist Sie differenzieren den Ausdruck der partiellen Ableihe nach der zweiten Variablen nochmal nach der zweiten Variablen. Dann ist das x hoch 3 nach y differenziert 0 und es bleibt übrig x e hoch y. Und so können Sie jetzt weitermachen. Jetzt können wir die dritten partiellen Ableitungen ausrechnen. Das heißt Sie müssen von jeder dieser vier
01:00:41
zweiten partiellen Ableitungen jeweils die Ableitungen nach d1, nach d2 ausrechnen. Es gibt jetzt acht Stück. Die male ich Ihnen auch noch alle hin. Also was passiert? Wir fangen an die Ableitung, die zweite Ableitung nach der ersten Variable nochmal nach der ersten Variablen abzuleiten, gibt
01:01:04
d1 3f von xy. Wenn Sie das nach x differenzieren, kommen 6y raus. Sie können das gleiche Ding auch nach d2 ableiten. Wenn Sie das tun, was passiert, wenn Sie die zweite Ableitung nach der ersten Variable nach
01:01:23
der zweiten ableiten, kriegen Sie 6x. So jetzt können wir den Ausdruck hier rechts, d1 d2f, einmal nach d1 und einmal nach d2 ableiten, gibt d1 d2f von xy, also das Ding hier nochmal nach x, gibt 6x. Sie können
01:01:50
ihn aber auch nach d2 ableiten, also d2 d1 d2. Was kommt da raus? Wenn Sie das nach y ableiten, dann kriegen Sie wieder e hoch y. So was
01:02:06
haben wir noch für Möglichkeiten? Jetzt sind wir hier, d2 d1f, nochmal nach d1 ableiten, also d1 d2 d1f von xy. Den Ausdruck, also unten links nach x
01:02:22
abgeleitet, gibt 6x. Dann den Ausdruck nach d2 abgeleitet, d2² d1f von xy, den nach y abgeleitet, gibt e hoch y. Und jetzt kommt der rechts unten, die zweite Ableitung nach der zweiten Variable, nochmal nach der ersten
01:02:41
abgeleitet, also d1 d2² f von xy, ist e hoch y und schlussendlich dreimal nach der zweiten Variable ableiten, gibt x e hoch y. Sie sehen, wenn jemand von Ihnen, jetzt haben wir den einfachstmöglichen Fall
01:03:02
genommen von a2 nach r, wenn ich von Ihnen der Klausur verlange, berechnen Sie mir alle fünften partiellen Ableitungen, dann zeigen Sie mir zu rechten Vogel. Das werden ziemlich viele. Und jetzt will ich Ihnen sagen, zeigen, warum es doch nicht ganz so schlimm ist und zumindest als
01:03:21
dritte und vierte Ableitung durchaus im Bereich des Möglichen liegen. Schauen Sie sich die Ergebnisse nochmal an und Sie werden feststellen, da tauchen manche Dinge verdächtig oft gleich auf. Also zum Beispiel gibt es unten bei den letzten acht, bei den acht dritten partiellen Ableitungen, kommt dreimal 6x raus und zwar hier, hier und hier. Was sind das für
01:03:52
Ableitungen? Das ist d1 d2 d1, d2 d1 d1 und d1 d1 d2. Also immer zweimal nach der
01:04:01
ersten Variable und einmal nach der zweiten in allen Reihenfolgen, in allen möglichen. Das gleiche haben Sie hier, wenn Sie d2² d1 anschauen, d1 d2² und d2 d1 d2, also zweimal nach der zweiten, einmal nach der ersten, kommt immer das gleiche raus. Wenn Sie sich die zweiten partiellen
01:04:23
Ableitungen anschauen, ist das gleiche dort auch passiert. Ob Sie erst nach der zweiten und dann nach der ersten Variable differenzieren oder erst nach der ersten und dann nach der zweiten scheint irgendwie egal zu sein. Kommt nämlich das gleiche raus. Und das ist tatsächlich so, zumindest unter
01:04:41
den richtigen Voraussetzungen, die hier erfüllt sind. Und dieses Ergebnis ist fundamental für die ganze Ableiterei nach mehreren Variablen und heißt das von Schwarz nach dem, nach Laurent Schwarz, Vergleiche Cauchy-Schwarz-
01:05:03
ungleichung. Der Name taucht häufiger mal auf. Und er sagt, wenn Ihre Funktion nicht nur partiell differenzierbar ist, sondern stetig partiell differenzierbar, dann ist es tatsächlich wurscht, in welcher Reihenfolge Sie differenzieren. Dann ist immer so, dass Sie die
01:05:23
Reihenfolge der partiellen Ableitungen vertauschen dürfen und der Wert ändert sich nicht. Schreibt das mal so mir in Textform hin. Also Sie haben eine Teilmenge von Rd offen. Sie haben eine Funktion auf der Teilmenge G nach Rp. Und jetzt ist die wesentliche Voraussetzung n mal
01:05:45
stetig partiell differenzierbar. Und das stetig lassen Sie bitte nicht weg. Da kommt gleich das warnende Beispiel. Und wenn Sie das haben, dann ist die Reihenfolge der partiellen Ableitung bis zur Ordnung n, also klar
01:06:13
mehr als Ordnung n ist nicht, weil das Ding ist hier nur n mal partiell differenzierbar, also bis zur Ordnung n vertauschbar.
01:06:21
Das heißt, wenn die Aufgabe ist, berechnen Sie mir alle zweiten partiellen Ableitungen. Dann müssen Sie zweimal nach x differenzieren, zweimal nach y differenzieren und einmal nach x und einmal nach y differenzieren. Aber das einmal nach y und einmal nach x differenzieren können Sie sparen. Das kommt gleich heraus. Und auch
01:06:41
bei diesen dritten partiellen Ableitungen, was hätten Sie tun müssen? Na, man hätte dreimal nach der ersten, kommt man nicht drum rum, dreimal nach der zweiten auch klar und dann noch die beiden Varianten zweimal nach der ersten, einmal nach der zweiten und die Variante einmal nach der ersten und zweimal nach der zweiten. Also es sind nur vier und nicht acht, die man berechnen muss. Und Sie sehen auch insbesondere, wenn die Ableitungsordnung höher wird, kann
01:07:02
man sich damit sehr, sehr viel sparen. So, aber wie gesagt, kein Satz ohne Warnung. Das Ganze funktioniert nur, solange Sie stetige partielle Differenzierbarkeit haben. Wenn die
01:07:23
partiellen Ableitungen nicht mehr stetig sind, kann das schiefgehen. Das heißt, bevor Sie Satz von Schwarz anwenden, gucken Sie mal kurz auf die Funktion. Im Normalfall wird die Funktion beliebig oft glatt sonst wie sein, irgendein Sinus, irgendein Polynom, irgendwas, wo Sie sowieso wissen, das ist wunderbar differenzierbar. Und dann können Sie den Schwarz anwenden.
01:07:44
Also, aber ich will Ihnen zeigen, dass es schiefgeht, wenn das Ding nicht stetig partiell differenzierbar ist. Und dazu gibt folgendes Standardbeispiel wieder eine Funktion von R2 nach R, f von xy ist x mal y mal x² minus y² durch x² plus y², wenn das
01:08:10
x nicht gerade der Ursprung ist. Wir sehen, das ist immer so die gleiche Bauweise. Und an der Stelle 00 setzen wir das Ding 00, äh, 0, nicht 00, sondern 0. Also auch wieder so eine Funktion,
01:08:27
irgendwas gebrochen, rational x und y und am Ursprung 0. Und das ist jetzt ein Beispiel, bei dem der Satz von Schwarz schief
01:08:41
geht. Ich werde Sie nicht komplett vor xen, weil da müssten wir einiges ausrechnen. Ich gebe Ihnen die ersten partiellen Ableitungen an. Die können Sie selber nachrechnen. Also, was sind die ersten partiellen Ableitungen von dem Ding? Die erste Ableitung nach x stellt sich raus, ist y mal x hoch 4 plus
01:09:11
4x²y² minus y hoch 4 durch x² plus y²², wenn das xy nicht
01:09:22
00 ist und 0 am Ursprung. Also diese Form von Funktionen, irgendwelche Polynome durch x² plus y² und 0 im Ursprung. Damit können Sie so ziemlich für jede benötigte Aussage das
01:09:41
Gegenbeispiel konstruieren. Alles, was schief gehen kann, geht schon bei denen schief. Und die zweite partielle, also Ableitung nach der zweiten variablen Partielle, ist von der Form x mal x hoch 4 minus 4x²y² minus y hoch 4 durch x² plus y²², wenn Sie außerhalb
01:10:07
vom Ursprung sind und auch 0 im Ursprung. So, all das können Sie sozusagen, wenn Sie noch ein bisschen differenzieren üben wollen, das Übungsaufgabe
01:10:21
mitnehmen. Und wir schauen uns jetzt an, was ist mit den vermischten partiellen Ableitungen d2, d1f und d1, d2f. Und wenn schwarz gelten würde, dann müssten die beiden gleich sein. Also rechnen wir aus d2, d1f von x, y, äh, von 00. Was ist das nach Definition?
01:10:44
Limes h gegen 0, d1f von 0h minus d1f von 00 geteilt durch h. Sie müssen die erste partielle Ableitung nach der zweiten partiell differenzieren. Also nehmen Sie die erste partielle Ableitung und stecken das h in die zweite
01:11:03
Variable. Und jetzt muss man es einsetzen. Jetzt habe ich gerade die erste partielle Ableitung verschwinden lassen. Da steht sie noch. Was kommt da raus? x ist 0, y ist h.
01:11:22
Also haben wir, also gut, erst mal durch h unten. So, d1f von 0h setzen also in die Ableitung, in die erste partielle Ableitung x gleich 0 und y gleich h. Das gibt h mal, x hoch 4 ist 0. Der zweite Summa enthält auch ein x, ist auch 0.
01:11:43
Also minus h hoch 4 durch und im Zähler, im Nenner steht x ist 0, y ist h, h hoch 4. Minus d1f an der Stelle 00, das ist 0. Also limes h gegen 0. Wenn man es jetzt alles zusammen kürzt, steht oben
01:12:01
minus h durch h, das ist minus 1. Also die zweite Ableitung d2d1f am Ursprung ist minus 1. Und jetzt rechnen wir die zweite partielle, also jetzt rechnen wir die andere Gemischte aus d1d2f an der Stelle 00.
01:12:25
Das ist der limes h gegen 0. Wir wollen die zweite partielle Ableitung nach der zweiten Variablen partiell nach der ersten Variablen ableiten. Also nehmen Sie sich das d2f her. Schauen Sie es an der Stelle h0 und 00 an.
01:12:43
Und teilen Differenz durch h. Was kommt raus? Großer Bruchstrich durch h. Oben d2f von h0, also in der zweiten partiellen Ableitung, in der Ableitung, in der Ableitung nach der zweiten Variablen x gleich h und y gleich 0 setzen.
01:13:04
Gibt h mal, x ist h, gibt h hoch 4, y ist 0. Das macht die beiden anderen Submanten oben im Zähler 0. Durch h hoch 4 im Nenner. Minus d2f von 00 ist 0. Und wenn Sie es jetzt hier zusammen kürzen, dann kürzt sich
01:13:21
alles raus. Jetzt kriegen Sie h durch h. Kommt 1 raus. Und jetzt haben Sie die eine partielle Gemischte ist minus 1, die andere ist 1 und der Satz von Schwarz zieht hier nicht. Und das liegt daran, dass die ersten partiellen Ableitungen,
01:13:44
also die hier oben, eben nicht stetig in Null sind. Und dann können Sie den Satz von Schwarz nicht ziehen. So, das ist die Abteilung partielle Ableitungen.
01:14:03
Partielle Ableitungen sind einfach zu berechnen und bisher haben wir aber keine schöne Theorie. Trotzdem bewahren Sie sich die partiellen Ableitungen im Herzen, weil, wie gesagt, mit dem, was ich Ihnen jetzt vorführe, was zu einer schönen Theorie führt, kann man nicht rechnen.
01:14:22
Also nicht wirklich real rechnen. Und deswegen braucht man beide Sichtweisen. Was wir jetzt machen wollen, ist die mathematisch puristisch richtige Definition der Ableitung, die die zu einer schönen Theorie führt,
01:14:41
die stimmig ist. Und wir werden dann die Brücke zu den partiellen Ableitungen schlagen. Und ich werde Ihnen zeigen, dass was Sie wirklich können müssen, ist partielle Ableitungen ausrechnen. Wenn Sie die partiellen Ableitungen ausrechnen können, dann haben Sie mit der richtigen Theorie dahinter den gesamten Ableitungsbegriff im mehrdimensionalen Griff.
01:15:03
Deswegen habe ich mit den partiellen angefangen. Hier sind das Handwerkszeug, das wichtig ist. Und wenn man die partiellen im Griff hat, dann kriegt man auch die jetzt kommenden totalen Ableitungen in den Griff. Aber ohne die totalen Ableitungen bleiben die partiellen ein Torso,
01:15:22
weil sie keine irgendwie wunderschön geartete Struktur kriegen oder irgendwelche schönen Aussagen bedifferenzierbaren Funktionen beweisen kann. So, das ist irgendwo ja unser Ziel. Also so ein bisschen sollte man immer den Hinterkopf haben.
01:15:42
Wo wir hinwollen, sind Extremwertprobleme in mehreren Variablen. Und da werden wir, wenn man sich überlegt, wie man es in einer Dimension gemacht haben, da haben wir das notwendige Kriterium bewiesen. Und dann haben wir den Satz von Taylor benutzt, um ein hinreichendes Kriterium für maximale Minimalstellen zu beweisen.
01:16:01
Wir werden einen Satz von Taylor brauchen. Und nur mit partiellen Ableitungen keine Chance. Also jetzt kommt der Abschnitt 5. Das ist noch mal differenzieren von Funktionen in mehreren Variablen.
01:16:24
Aber jetzt eben der Begriff der totalen Ableitung. Und im Prinzip fangen wir wieder da an, wo wir schon bei den
01:16:41
partiellen Ableitungen angefangen haben. Das Ausgangsproblem war, wie verallgemeinern wir den Differenzierungsbegriff auf Funktionen in mehreren Variablen? Und wir hatten festgestellt, die naive Variante
01:17:01
nehme den Differenzenquotienten aus der eindimensionalen Theorie und übertrage ihn geht schief, weil wir eben nicht durch Vektoren teilen können. Das Problem ist das x minus x Null im Nenner. X minus x Null ist jetzt ein Vektor und durch den dürfen wir nicht teilen.
01:17:26
Und wir hatten das im ersten Schritt so gelöst, dass wir gesagt haben, gut, wir differenzieren halt nur nach einer Variablen und reduzieren das auf die Weise auf eindimensionale Probleme. Und damit haben wir uns diesen Zoo von partiellen Ableitungen eingehandelt. Und die Hoffnung ist jetzt, ich will nicht so ein Zoo, ich will eine Ableitung.
01:17:43
Ich will irgendein Objekt, das ein Ding ist und die ganze Ableitung beschreibt. Und was man dazu macht, ist man muss sich noch mal ein bisschen dran erinnern. Was war so die anschauliche Bedeutung von Ableiten? Ableiten hatte was mit Steigung zu tun, aber nicht nur mit Steigung,
01:18:04
sondern wenn Sie an einen Tailor im einfachsten Fall oder einem Mittelwertsatz denken. Die grundsätzliche Idee an der Ableitung ist, sie wollen ihre Funktion, ihre komplizierte Funktion durch eine Gerade approximieren. Wir wollen eine lineare Approximation der Funktion machen und suchen dafür die Tangente,
01:18:23
weil die Tangente die bestmögliche Approximation durch eine Gerade an die Funktion darstellt. Und in dem Zusammenhang hatten wir diesen schon vorbauend eingebauten Satz 517. Verlang nicht, dass jetzt jeder sagt, ach, das war der.
01:18:42
Ich schreibe ihn noch mal kurz hin. Wenn Sie eine Funktion auf dem Intervall nach R haben, dann ist die in X0 aus I differenzierbar und die Ableitung an der Stelle X0 ist gerade A.
01:19:02
Genau dann, wenn Ihre Funktion schreiben können, als die Gerade mit Steigung A durch X0, F von X0. Das ist die Tangentengleichung F von X0 plus A mal X minus X0.
01:19:20
Jetzt ist natürlich die Funktion nicht gleich der Geraden. Wenn Sie die Funktion durch die Gerade approximieren, machen Sie einen Fehler. Fehler R von X. Und A ist dann die richtige Steigung, ist dann die Tangentensteigung, wenn dieses R schön klein ist. Und das kann man über den Grenzwert ausdrücken,
01:19:41
wenn der Grenzwert von dem R geteilt durch den Betrag von X minus X0 gleich Null ist. Wenn das R, also wenn Sie mit dem X gegen X0 gehen, besser als linear, schneller als linear gegen Null fällt. Das war der Satz 517, hatten wir damals bewiesen, waren vier Zeilen.
01:20:03
Äquivalente Definition der Ableitung. So, und jetzt schauen wir uns die mal an. Die erste Zeile ist vektormäßig völlig unkritisch, weil da steht kein Quotient mehr, da steht nur noch eine Summe. Wenn Sie jetzt F, also wenn X jetzt ein Vektor ist und F von X auch ein Vektor,
01:20:23
dann ist F von X ein Vektor, F von X0 auch. X minus X0 ein Vektor. Über das A reden wir noch. Und das R muss halt auch ein Vektor sein, funktioniert alles. Und was steht da unten? Da steht wieder ein Quotient, so ein Mist.
01:20:40
Aber der geniale Punkt ist, dieser Quotient ist jetzt ein Quotient von Beträgen. Und was wir jetzt machen ist, wir schreiben mal ganz frech das Betrag Norm. Wenn wir da das Betrag Norm schreiben, dann steht da eine Zahl durch eine Zahl. Das ist okay. Und wir werden feststellen, dann funktioniert das.
01:21:02
Das ist die Definition 5.1. Was wir also machen ist, wir übertragen nicht stumpfsinnig den Differenzenquotienten von eindimensionalen Funktionen, weil das nicht geht, sondern wir übertragen dieses äquivalente Definition der Ableitbarkeit aus dem Satz 5.1.7.
01:21:24
Also Definition 5.1. Wir haben unser übliches Setting. Wir haben eine Teilmenge G vom RD offen. Wir haben den Punkt X0 da drin und wir haben eine Funktion GF, die auf dem Definitionsbereich G definiert ist, nach RP geht.
01:21:46
Und die nennen wir jetzt total differenzierbar. Das total steht da, um das Ganze von partiell zu unterscheiden. Also total differenzierbar im Sinne von eben nicht partiell, sondern total.
01:22:03
Wenn man dann länger mit dem Zeug hantiert, stellt man fest, total differenzierbar ist der richtige Begriff. Und irgendwann verschwindet dann das total aus dem Sprachgebrauch. Also wenn Ihnen irgendjemand in einem Buch unterkommt, die Funktion F von R3 nach R5 sei differenzierbar, dann ist damit immer total gemeint.
01:22:21
Also wenn jemand nur differenzierbar schreibt, dann meint er damit total differenzierbar. Wenn jemand partiell differenzierbar meint, schreibt das explizit hin. So ist die eigentlich einhellige Konvention. Aber ich werde jetzt hier versuchen, niemals darauf zu achten,
01:22:41
zumindest in der nächsten Stunde noch immer total oder partiell dazu zu schreiben. Also wir nennen so eine Funktion total differenzierbar in X0. So, was muss gelten? Es muss diese Gleichung da oben gelten. Jetzt schauen wir uns die nochmal dimensionsmäßig an. Und das ist was, was Sie, wenn Sie mit diesen mehrdimensionalen Ableitungen
01:23:01
zu tun haben, ganz oft selber auch tun sollten. Wenn irgendwelche Gleichungen da stehen, schauen Sie erst mal, ob das, was da steht, dimensionsmäßig sinnig ist. Dass Sie also nur Vektoren des gleichen Rd addieren und nicht plötzlich einen Rd-Vektor mit einem Rp-Vektor addieren. So kann man auch seinen eigenen Fehlern gut auf die Schliche kommen.
01:23:20
Also was wir uns anschauen, was wir als Definition übernehmen wollen, ist diese Gleichung hier. Was steht da? Wenn F von Rd nach Rp geht, ist F von X in Rp. F von X0 ist in Rp. X minus X0 ist in Rd.
01:23:41
X ist im Definitionsbereich, F von X ist im Bildbereich. Das R von X muss in Rp sein, sonst haben wir keine Chance, weil das muss ich auf das F von X0 addieren können. Was muss das A sein? Das A steht vor einem Rd-Vektor und A mal X minus X0 muss ein Rp-Vektor werden.
01:24:02
Sonst kann ich so nicht addieren. Das heißt, das A hat überhaupt keine andere Wahl. Das A muss so sein, dass es aus einem Rd-Vektor einen Rp-Vektor macht. Und das wird es tun. Und zwar, also das A muss so was sein wie eine Abbildung von Rd nach Rp.
01:24:26
Und das Schöne ist, es ist nicht irgendeine, sondern die Ableitung ist, das sollte man sich dran erinnern, was ist die Ableitung? Eine lineare Approximation. Dementsprechend wird das A eine lineare Abbildung werden.
01:24:41
Und jetzt holt uns plötzlich die gesamte lineare Algebra aus dem ersten Semester wieder ein. Also es muss eine lineare Abbildung geben, eine lineare Abbildung. Und ich nenne die mal ganz wie damals, Groß Vieh. Die muss von Rd nach Rp gehen und die muss erfüllen,
01:25:07
dass f von x das gleiche ist wie f von x0 plus phi von x minus x0. Das phi macht uns jetzt aus dem Rd-Vektor einen Rp-Vektor.
01:25:20
Das phi ist das, was oben das A war, plus R von x. Es bleibt wieder ein Rest übrig, x aus g. Und das R muss eine Funktion sein von g nach Rp. R von x muss ein Rp sein, sonst kann ich es nicht addieren.
01:25:43
Und jetzt übernehmen wir den letzten Teil von oben. Dieser Grenzwert muss 0 sein. Das R muss schneller als linear gegen 0 gehen, wenn x gegen x0 geht. Also limes x gegen x0. Betrag R von x oder in dem Fall Norm R von x durch Norm von x minus x0 gleich 0.
01:26:06
Das ist wortwörtlich die Definition von oben übernommen. Mit der richtigen Anpassung für das A. Wenn wir uns überlegen, wenn wir das richtig modifizieren wollen, dann müssen wir das durch eine Abbildung von Rd nach Rp ersetzen.
01:26:20
Und das verrate ich Ihnen jetzt, was die Sache richtig macht, ist Sie müssen da eine lineare Abbildung nehmen. Das A oben war die Ableitung von f. So war der Satz oben formuliert. f ist in x0 differenzierbar. Und die Ableitung ist A, wenn diese Gleichung gilt.
01:26:43
Also ist das phi irgendwie die Ableitung. Und so ist es auch. Also in diesem Fall, wenn dieses A existiert, sodass das R schnell genug gegen 0 geht, dann nennt man dieses phi die Ableitung und schreibt dafür df von x0.
01:27:06
Das ist dieses phi. Und das ist die totale Ableitung. Oder eben im späteren Sprachgebrauch die Ableitung von f in x0.
01:27:20
Dieses df ist die Schreibung dafür d wie differenzieren, d wie differenzial. Großdf von x0 ist die Ableitung von f an der Stelle x0, ist die totale Ableitung, ist die lineare Abbildung, die diesen Satz 517 zum Laufen bringt.
01:27:43
Gut, dann kommt jetzt der übliche Nachsatz bei den Differenzierungsdefinitionen. Wenn so die Funktion nicht nur an einer Stelle x0, sondern in allen Stellen x0 von g total differenzierbar ist,
01:28:00
dann nennt man sie eben total differenzierbar auf g. Und die Funktion df, die von g geht, das lasse ich mal gerade noch offen, das ist die Ableitungsfunktion. Also sie können jetzt jedem x0 aus g seine Ableitung zuordnen.
01:28:25
So, und was ist jetzt die Ableitung von f an der Stelle x0 für ein Ding? Eine lineare Abbildung von rd nach ap. Also die Ableitungsfunktion geht von g in die Menge der linearen Abbildungen,
01:28:42
also der Abbildungen von rd nach ap, die linear sind. Und da sehen Sie jetzt, kann man das angucken und sehen, es gibt viele Vorteile dieser Definition, wenn sie denn passt. Ein Vorteil ist, Sie haben jetzt die Ableitung und nicht mehr 35 Partielle.
01:29:04
Der Nachteil ist, das Ding ist ein ziemlich abstraktes Konzept. Die Ableitung einer Funktion ist nicht mehr irgendwie eine Menge von Zahlen, sondern ist eine lineare Abbildung. Insofern ist das, was ich Ihnen vorhin sagte, eigentlich noch schlimmer. Man hat sich in der Schule nicht nur belogen und behauptet,
01:29:20
die Ableitung wäre eine Zahl und es ist in Wahrheit gar keine Zahl, sondern eine 1-Kreuz-1-Matrix. Es ist in Wahrheit noch nicht mal eine 1-Kreuz-1-Matrix, sondern die Ableitung einer Funktion von r nach r ist eine lineare Abbildung von r nach r. Das hat man Ihnen aber nur nicht erzählt, sinnigerweise nicht erzählt, weil die linearen Abbildungen von r nach r identifizieren sich mit den 1-Kreuz-1-Matrizen
01:29:43
und damit mit den Zahlen und deswegen ist es völlig okay, Funktionen von r nach r zu sagen, die Ableitung ist eine Zahl. Hier funktioniert das nicht mehr, hier müssen wir jetzt da durch. Die Ableitung einer Funktion von rd nach rp an einer Stelle ist eine lineare Abbildung von rd nach rp.
01:30:02
Ist die lineare Abbildung, und so muss man es immer sehen, wenn Sie eine Funktion haben und eine Stelle x0, dann ist die Ableitung dieser Funktion an der Stelle x0 die lineare Abbildung, die das f am besten linear approximiert. Im gleichen Sinne wie die Ableitung im Eindimensionalen diejenige Tangente beschrieben hat,
01:30:23
die die beste lineare Abproximation des Graphens. Und hier haben Sie auch die lineare Abbildung, die dem f am nächsten liegt, in x0. So, das ist die Definition der totalen Ableitung.
01:30:40
Das passt ganz gut, dass hier die Vorlesung zu Ende ist. Dann können Sie den Begriff ein bisschen sacken lassen, ein bisschen darüber nachdenken und auch vielleicht schon mal überlegen, wie könnte ein Zusammenhang zu den partiellen Ableitungen aussehen. Für heute will ich es damit bewenden lassen und danke für die Aufmerksamkeit.
Empfehlungen
Serie mit 3 Medien