IoT Workflows und Analytics: MQTT, Nifi, Cassandra, KNIME (7) - TIB AV-Portal

IoT Workflows und Analytics: MQTT, Nifi, Cassandra, KNIME (7)

00:00

1

Hochschule Bonn-Rhein-Sieg (H-BRS)

Formale Metadaten

Titel

IoT Workflows und Analytics: MQTT, Nifi, Cassandra, KNIME (7)

Serientitel

IoT Workflows und Analytics: MQTT, Nifi, Cassandra, KNIME (Lehrveranstaltung Energie 4.0, Kapitel 9), OER4EE - Technologien für die Energiewende

Anzahl der Teile

7

Autor

Lizenz

CC-Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen und das Werk bzw. diesen Inhalt auch in veränderter Form nur unter den Bedingungen dieser Lizenz weitergeben.

Identifikatoren

10.5446/64886 (DOI)

Herausgeber

Hochschule Bonn-Rhein-Sieg (H-BRS)

Erscheinungsjahr

Sprache

Inhaltliche Metadaten

Fachgebiet

Umweltwissenschaft / Ökologie Technik

Genre

Abstract

Dieses Material ist Teil der Lehr-Lern-Materialien von "OER4EE - Technologien für die Energiewende" und zugleich Bestandteil der Lehrveranstaltung Energie 4.0, Kapitel 9. Inhalt dieses Screencasts: IoT Workflows und Analytics: MQTT, Nifi, Cassandra, KNIME: KNIME Zeitreihenanalyse (2)

Schlagwörter

Energie 4.0, Erneuerbare Energien, Digitalisierung, Internet of Things, IoT, Big Data, Sensordaten, Datenmodellierung, OER4EE

Regenerative Energien

Ingenieurwesen allgemein

Ingenieurwissenschaften

Sprache

Text

Bild

00:00

Computeranimation

Transkript:

00:00

Wir haben gesehen, dass wir ein Stück weit mit dem AR-Verfahren, dem Autoregressiven Lerner kommen, aber dass das noch ordentliche Fehler beinhaltet. Ich zeige Ihnen jetzt, obwohl wir ja wissen, dass das suboptimale Daten sind, um den Tag zu lernen, diese ersten 30% eines Tages, ein Verfahren, was trotzdem in der Lage ist,

00:25

das Ganze schon mal ein Stück weit zu verbessern. Und insbesondere zeige ich Ihnen, dass diese Autoregressiven Lerner eigentlich eine gute Idee sind, wenn die Daten entsprechend passen. Dazu mache ich einen Trick. Wir benutzen einen Moving Average, um die Daten vorzubehandeln, bevor wir in den AR gehen.

00:44

Falls sich jemand mit Zeitreinanalysen auskennt, ja, es gibt Verfahren, die AR und MA miteinander verbinden, die ARMA-Verfahren und Varianten davon. Das hier ist kein ARMA-Verfahren. Das werde ich zum Schluss auch noch einmal kurz erläutern, wo der Unterschied ist. Das ist aber eine Hinführung zu weiteren Verfahren, eine, die wir hier sehr naheliegend machen können.

01:05

So, was erweitern wir eigentlich? Wir haben hier unseren Workflow, Time-Series-Autoprediction-Training mit dem Predictor und die Darstellung letztlich, die wird folgendermaßen erweitert, statt einfach nur aus der Datenbank durch Anschluss

01:21

und Lesendaten zu entnehmen. Holen wir uns hier noch den Moving Average Note, behandeln die Daten vor, bevor sie dann in das Training gehen und wir müssen entsprechend natürlich auch die verschiedenen erhaltenen Daten über den Moving Average und so weiter auswerten und die verschiedenen

01:40

Fehler, also Original zu Moving Average, Moving Average zu Prediction und die finale Prediction zum Original müssen wir natürlich noch darstellen. Wir betrachten im weiteren Verlauf zwei Tage, den 12.3.2010 entstanden durch diese Datenabfrage und nachher auch den 13.3., um das Prozedere zu wiederholen und zu zeigen, dass es für

02:02

einen anderen Tag ähnliche Ergebnisse gibt. Die Methode ist jetzt eben der Moving Average mit seinen Standardeinstellungen im Blog, das ist Backwards Simple, ein Window von 21 Punkten und es wird angewandt auf Cons, Cons wird geglättet. Recherchieren Sie, was ein Moving Average ist als Aufgabe, kein kompliziertes Verfahren

02:21

und Sie die entsprechenden Begrifflichkeiten hier verstehen. Als Tipp, man muss immer überlegen, ob man sich bei den Daten, für die man einen Durchschnitt gerade bildet, bevor man weiter rückt, das ist dann das Moving dahinter, also bevor man den Durchschnitt bildet, muss man überlegen, welchen Anteil der Daten nimmt man eigentlich,

02:42

das ist das Fenster und die Anzahl der Punkte ist eben diese Fenster Länge, 21 hier in dem Falle, dann muss ich überlegen, gucke ich nach hinten oder sitze ich zentral und berechne für den zentralsitzenden Wert, hier schaue ich nach hinten ein Backwards Simple. Okay, dann kann ich im einfachsten Falle einfach nur eine Durchschnittsrechnung machen, ohne da noch eine Funktion drauf anzuwenden, das ist hier gemacht und dann können wir

03:04

uns eben angucken, wie ausschaut einmal die Original Kurve in grün und das, was wir dann erreicht haben mit unserer Durchschnittsbildung und am gleitenden Durchschnitt, das sieht so ein bisschen geschiftet aus, das ist glatt auf jeden Fall, das trifft den groben Verlauf

03:20

der Daten natürlich nicht ganz und da ist ein Fehler dahinter, ganz klar, den werden wir uns auch noch anschauen, jetzt machen wir aber erst folgendes, wir nehmen diese so gegleiteten Daten, die orange Kurve und stopfen die in den AR, wie oben, angewandt eben auf das gegleitete CONS, dann gucken wir uns, das ist hier in rosa gezeichnet den Fehler

03:42

und wenn man den MA Fehler akzeptiert, also den Unterschied zwischen orange und grün hier, da muss man noch nachdenken, ob wir das tun, aber okay, wenn man das aber so macht, dann erhält man schon ein recht gutes Verfahren, die Fehler hier sind deutlich kleiner als die Originalausschläge, deutlich und in den Bereichen, wo wir schon vorher ganz gutes

04:03

Abbildungsverhalten gehabt haben, ist es noch einmal besser und hier sie sehen die großen Ausschläge in den Bereichen, wo eigentlich das Verfahren noch gar nicht richtig lernen konnte, sind weitgehend weg, interessant, machen wir das weiter, aber jetzt, sie sehen in blau die Änderung mit einem anderen Verfahren, wie gesagt recherchieren sie zu den moving

04:23

averages, was man da machen kann, hier wird der harmonic mean center verwendet, also zentraler Punkt und mit einem harmonischen mean Mittel an der Stelle, zu übersetzen harmonisches Mittel, das sieht, da ist kein lag drin, den wir eben so hatten, diesen Schub da, der irgendwie

04:42

den Daten war, das sieht schon ein bisschen besser aus, ist natürlich geglättet, klar die Spitzen kommen nicht hinterher, wenn man den Fehler jetzt akzeptiert zwischen orange und grün, der ist ja nennenswert in den großen Ausschlägen, aber sonst eigentlich schon ganz überschaubar, wenn man das akzeptiert, dann bekommt man ein gutes Verfahren wiederum, die Ausschläge hier sind, gehen wir mal zurück, an ähnlichen Stellen natürlich wie hier,

05:04

die sind tendenziell an manchen Stellen ein bisschen höher, dafür im Rest etwas kleiner, eigentlich ein ganz gutes Verfahren, wir können center Gaussian verwenden als weitere Variante, also auch ein zentriertes Verfahren mit einer Gauss Kurve zur Verteilung der Gewichte, wenn man so will, oder der Gewichtungen für den Durchschnitt, und dann gucken wir uns das

05:21

mal an, das ist von der Kurve her geglättet, aber sehr nah an den Originaldaten, die Spitzen sind natürlich gekappt, okay, aber das war zu erwarten, und wenn wir uns dann den Fehler anschauen, darauf eben den AR anwenden und dann den Fehler anschauen, das ist quasi perfekt, wenn man den MA-Fehler akzeptiert, der schon besser ist als vorher, dann ist

05:42

das ein sehr gutes Verfahren, Problem ist eben der MA-Fehler, der noch übrig bleibt, und das sieht man hier, der Predictor ist in grün und der Fehler zu cons ist in gelb, das ist natürlich ordentlich, das ist der Haken an der Sache, umgekehrt, wenn das AR, geglättete Daten nur kommt, dann kann es je nach Auswahl der konkreten Methode sehr gut

06:03

funktionieren, unser Problem sind die großen Schwankungen in den Daten, und natürlich haben wir das Problem, dass die ersten 30% des Tages, die wir zum Lernen verwendet haben, gar nicht ideal sind, um das Ganze abzubilden, aber geschenkt, wir nehmen den 13.3., um zu zeigen, dass das kein Zufallstreffer war, das gleiche wieder der moving average, wieder

06:22

backward simple, 21er Windows, length auf cons angewandt, so la la, mit dem Shift-Teil drin, ist orange zu grün, entsprechend ganz okay, schon mal, wenn man sich das hier anschaut, das AR-Verfahren für das geglättete, das ist eigentlich okay, wir können uns den Center-Gaussian

06:40

anschauen, den anderen habe ich übersprungen, das war eben das beste Verfahren, das ist auch hier das bessere Verfahren, das ist mit sehr kleinen Fehlern, wenn man hier die Approximation akzeptiert, ist das ein super Verfahren im Ganzen. Wir haben gesehen, dass abhängig davon, was wir wollen, wir mit den, auch mit sehr einfachen eingebauten Tools bereits gute Vorhersagen treffen können, selbst wenn wir es eigentlich noch nicht richtig gemacht haben,

07:03

denn wie gesagt, das, was wir zum Trainieren benutzt haben, ist sehr suboptimal und einfach mal so zu glätten, ist vielleicht auch nicht so ganz ideal. Noch einmal zur Bemerkung, MA auf AR, das entspricht nicht dem ARMA-Verfahren, hier wird ein Moving Average als Glätte, als Smoothing für die

07:20

Werte gerechnet, kann auch Filter sagen, das ist ein Low Pass Filter, er wird im ARMA-Verfahren aber für geschätzte Fehlertherme verwendet, also hier wird der MA auf die Originaldaten angewandt und nicht wie im ARMA-Verfahren für geschätzte Fehlertherme. Das AR-Verfahren wird auf die

07:40

so geglättete Kurve angewandt. Also wir haben eine gewisse Variante von sowas wie AR und MA gemacht, aber eben anders als im ARMA-Verfahren. Am ARMA-Verfahren könnte man hier coden und anwenden, das könnte, ich habe eben das, Ihnen das illustriert, durchaus interessante Aspekte geben, das ist aber nicht Bestandteil von NIME und dieses Kurses hier, die Glättung macht hier

08:01

Sinn, am Verfahren kann man eben weiter arbeiten, ich wollte Ihnen das als Ausblick halt zeigen, denn eigentlich müssen wir vorher auch andere Daten bearbeiten, für die Arbeit mit Lastprofilen sollten wenigstens folgende Punkte berücksichtigt werden und zu unterschiedlich trainierten Modellen auch führen, Wochentag, Samstag, Sonntag zu Feiertag, diese drei Kategorien mindestens müssten getrennt werden, je nach Profilen würde es sogar Sinn machen, die Wochentage noch in

08:24

Kategorien zu teilen, die Jahreszeiten, Wintersommer, die Übergangsjahreszeiten, die zwei müssten separat betrachtet werden, wenigstens einmal, jeder weiß, dass eine solche Unterteilung, wenn man sich dann Lastprofile anschaut, eben zu unterschiedlichen Lastprofilen führt, die Menschen machen Sonntags, Feiertags bzw. Wochentags eben doch deutlich verschiedene Dinge,

08:44

das sieht man im Lastprofil und auch die Jahreszeiten tragen, dazu bei, denken Sie daran, wer beispielsweise mit der Stromversorgung pumpen für den Heizungsbetrieb, der natürlich im Winter und im Übergang interessanter ist, als im Sommer betreiben muss, der hat entsprechend weitere

09:03

Lasten, die man im Sommer nicht sehen würde. Das habe ich Ihnen hier jetzt als Ausblick gebracht, es gibt noch viel mehr Verfahren, die die Stelle des ARR einnehmen können bzw. diese erweitern, neben ARMA gibt es ARIMA, die neuronale netzbasierten Zeitreihen-Approximationen,

09:20

ob die besser sind, sei mal dahingestellt, mindestens mal müsste man in diese Verfahrensklassen hier gehen und wenn Sie dazu weiteres sehen wollten, kann ich beispielsweise empfehlen, den Jochen Hirschler, Machine Learning für Zeitreihen, Einstieg in Regressions, ARIMA und Deep Learning Verfahren mit Python, das lässt sich natürlich übertragen auf andere Programmiersprachen oder hier auch diesen entsprechenden Link. Mit diesem Ausblick auf ein Thema, was Sie sich nach der

09:47

Datenmodellierung im Unternehmen, im beruflichen Kontext eben irgendwann erschließen würden, schließe ich jetzt dieses Modul und wünsche Ihnen viel Freude und viel Erfolg bei Anwendung, das Gelernten. Danke für Ihre Aufmerksamkeit.