Internet of Things (IoT) und Big Data (2)
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 2 | |
Author | ||
License | CC Attribution - ShareAlike 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/63994 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
00:00
Computer animation
06:18
Computer animation
12:31
Computer animation
Transcript: German(auto-generated)
00:00
Beispiel HTW-Lastkurven für Einfamilienhäuser Im folgenden arbeiten wir mit einem konkreten Datensatz im CSV-Format. Dieser Datensatz repräsentiert Stromlastkurven, Haushaltslastprofile,
00:21
nennt man das auch, von 74 deutschen Einfamilienhäusern aufbereitet für das Jahr 2010. Unten gibt es eine Referenz, HTW nenne ich das, weil das von der Hochschule für Technik und Wirtschaft HTW in Berlin stammt. Unter der Leitung von Professor Volker Quaschning, das ist eine bekannte Grüße
00:41
in dem Bereich, ist das freigestellt worden. Also wir können das benutzen, davon können Sie sich überzeugen. Zum Beispiel ist hier der Link auf den Artikel, den ich Ihnen auch hochgeladen habe, den Sie anschauen sollten, auch später, wie das entstanden ist. Wir nehmen die Variante mit der
01:00
minütlichen Auflösung, das ist die grün markierte hier, Kilobyte, also Sie haben etwa 217 Megabyte hier bereits gesippt. Es ist irgendwie klar, warum ich diese kündliche Auflösung hier Ihnen erst einmal nicht hinsetze. Sie müssen das nicht aus dem Netz laden, also nicht von der HTW-Seite, sondern ich habe Ihnen das ebenfalls als Material bereits zur Verfügung gestellt, diesen Teil hier.
01:22
Vorsichtig beim Entpacken. Irgendwo gibt es auch eine Bemerkung, wie groß der Datensatz ist, 774 Megabyte oder so, also nicht ganz klein. Und jetzt folgt in der Tat das Praktikum. Wir arbeiten mit diesem Datensatz, mit MATLAB. Ich habe Ihnen bereits Skripte geschrieben, die die Daten
01:42
verarbeiten können, weil ich die für allerlei Zwecke benutze. Die Skripte ändern sich auch von Zeit zu Zeit, je nachdem welche Sichten auf die Daten, in welchen Einheiten mich das so gerade so interessiert, was ich daraus nehmen möchte. Und zwei solcher Beispiele stelle ich Ihnen hiermit auch zur Verfügung, ganz einfach. Das illustriert, ohne dass Sie von vorne anfangen müssen, wie man
02:03
in MATLAB-CSV-Dateien prinzipiell einlesen kann. Ich habe eine sehr einfache Variante gewählt, Read Matrix glaube ich nur, das kann man auch mit Tabellen machen, aber egal, reicht hier locker. Und die Spalten auseinandernehmen, verrechnet und plotz produziert. Und das dient nicht einfach nur dazu, dass Sie ein bisschen wieder in MATLAB reinkommen, sondern natürlich auch,
02:23
dass Sie mit diesen Daten arbeiten, sie visualisieren und interpretieren können. Wir werden Sie an mehreren Stellen mindestens gedanklich konzeptuell noch einsetzen und deswegen sollten Sie diesen Datensatz dann gut kennen. Ich leite Ihnen im Screencast das ein bisschen an. Sie sollen das
02:42
natürlich aber auch selber bearbeiten und nicht nur hier gucken. Für das Praktikum benutzen Sie die folgenden Dateien. Der Link ist in Lea gegeben zu unserem Dokumenten-Server. Der Original-Datensatz liegt dort. Den Artikel finden Sie dort und auch die beiden MATLAB-Skripte, die ich verfasst habe,
03:02
die Sie benutzen können, wie Sie wollen. Entpacken Sie das Sub-Archiv. In das entstehende Verzeichnis kommen auch die beiden Skripte. Je nachdem, wie Sie das entpacken, wird das flach einfach ins aktuelle Verzeichnis gelegt. Es entsteht ein neues Verzeichnis. Jedenfalls müssen auf die gleichen Ebenen wie die entstehenden Dateien die Skripte gesetzt werden, sonst klappt die
03:24
Verarbeitung nicht direkt. So sieht der Inhalt aus des Datensatzes und auf die gleiche Hierarchie-Ebene müssen Sie eben auch die Skripte legen. Die komprimierte Größe ist net, aber die entpackte Größe ist nicht so net. Bloß für die minütliche Auflösung sind es schon 774 Megabyte. Das ist
03:43
natürlich auch der Haken von ASCII-Files, dass die groß sind, anders als die Binärformate, aber das ist ebenso. Aber es sind immer noch kompakte Formate und man kann hier ein bisschen reduzieren. Wir werden das auch eindampfen. Für unsere Verarbeitungszwecke werden Sie im Skript merken,
04:02
wie das gemeint ist. Zuerst arbeiten Sie mit dem Skript, das Single im Namen trägt. Sie werden auch sehen, warum das so heißt. Sie sollen das zum Laufen bekommen. Nach dem Lauf sollte ein Unterverzeichnis mit Plots entstanden sein und die Aufgabe ist, was genau zeigen denn diese Plots. Wie entstehen sie? Danach bringen Sie das zweite Skript, was agg, wie Aggregation im Namen trägt,
04:27
zum Laufen. Nach dem Lauf sollte ein weiteres Unterverzeichnis mit Plots entstanden sein und was genau zeigen diese Plots ist dann die Frage. Nächste Frage. Wie unterscheiden sich die beiden Skripten und wofür sind sie je nützlich? Also was bringen Ihnen denn die Outputs? Falls es
04:43
Schwierigkeiten mit Matlab, den Daten, den Skripten und so weiter bei Ihnen gibt, eine Auswahl möglicher Outputs ist ein paar Folien weiter zu sehen, damit auch diejenigen, die aus irgendwelchen technischen Gründen kurzzeitig abgekoppelt sind von der Live-Arbeit schon einmal gucken können. Außerdem nutzen Sie es als Referenz, um zu sehen, ob das bei Ihnen auch
05:02
funktioniert, wie es soll. Danach, wenn das soweit geklappt hat, sollten Sie sich die Quelle anschauen. Die ist ja ebenfalls hochgeladen und die Abbildung auf Seite 3 betrachten. Die soll so aussehen. Was zeigt diese Abbildung? Sollte im Text gut zu erkennen sein. Das ist ein sehr einfach zu
05:24
lesender Artikel. Und dann sollten Sie die Abbildung vergleichen mit dieser hier. Eines der beiden Skripte kann nämlich bei richtiger Konfiguration die unten gezeigte Abbildung erzeugen. Sie sollen sie reproduzieren, sich auch klar machen, dass das so gedacht ist, dieser Output. Und dann vergleichen Sie diese Abbildung mit der auf der vorangegangenen Folie.
05:44
Das sollte ganz gut gelingen. Und fragen Sie sich, wo die was gleich ist und wo die Unterschiede sind natürlich. Erst zum Schluss des Praktikums sollten Sie die weiteren Hinweise hier durchgehen oder wenn technisch irgendetwas schief läuft und Sie das nicht kurzfristig klären können. Also zur
06:04
Referenz habe ich hier noch weitere Hinweise abgelegt. Sie sollten natürlich erst einmal anhalten, die Aufgaben bearbeiten und dann weitermachen. Ich mache das hier im Screencast natürlich direkt. Zum Vergleich. Der Vergleich zwischen Artikel und Matlab-Skript dient dazu,
06:22
die Verarbeitung der Daten beispielhaft zu verstehen und dabei auch das Skript zu debuggen. Es gibt ja einen Referenzartikel und die Daten, die wir verarbeiten, sollten ja die gleiche sein wie in diesem Artikel. Sie überzeugen sich also davon, dass das klappt, dass Sie sie richtig interpretieren und zusammenrechnen können. Dann schauen Sie hier, Sie müssen die Wirkleistung
06:42
hier bekommen und das Skript erzeugt die so, dass das auch das Richtige ist. Da sind ja sehr viele Daten enthalten. Sie müssen ja einen Teil zusammenrechnen, um dieses Bild hier zu erzeugen. Das sollte man im Skript also verstehen. Das ist einfach, aber man sollte verstehen, wie das gemacht ist. Und dann sollten Sie sehen, dass die schwarze Linie, hier die etwas flache, etwas eckige Linie,
07:05
das sind die Ausgangsdaten und die blaue Linie, die hier gezeigt ist, dass Sie das Gleiche zeigen, wenn man beachtet, dass die Leistungswerte hier in Megawatt und hier Wirkleistung in Watt sind. Und dann müssen Sie natürlich noch auf die Höhe achten. Hier sind Sie bei maximal etwa 1,8. Das
07:25
ist hier an dieser Stelle erreicht. Hier ist der höchste Teil von dieser Kurve. Die geht hier nicht hoch, das ist grün. Hier bleibt sie flach. Und dann sollten Sie sich noch angucken, warum das hier wahrscheinlich eckig ist und warum das hier spitz zuläuft. Das hat mit der Darstellung zu tun,
07:42
wie die Punkte miteinander verbunden werden bzw. wie die Lücken gefüllt werden zwischen den Messpunkten oder den Datenpunkten. Okay, also das erklärt Ihnen zumindest ein Teil der Lösung, vielleicht doch noch nicht alles. Dann habe ich ein paar Beispielplots, die entstehen sollten,
08:03
je nach Konfiguration der Skripten. Da kann man ein bisschen was einstellen natürlich und ändern. Ausschnitt aus den Stromlastkurven in einminütiger Auflösung für Einfamilienhäuser ist hier gezeigt. Im Plot sind Lastkurven von drei der 74 Häuser gezeigt. Das Jahr der Messung ist natürlich die ganze Zeit 2010. Mehr Daten sind da gar nicht. Und ein spezieller Tag ist geplottet.
08:25
Wer das in Matlab noch nie gesehen hat, kann sich auch mal angucken, wie ich dafür sorge, dass hier unten auf der Achse nicht zahlen sofort laufende Nummern erscheinen, sondern dass hier das Datum kommt. Einfacher Trick, aber sehr wirkungsvoll. Ausschnitt aus den Stromlastkurven
08:41
jetzt in 15minütiger Auflösung. Schauen Sie sich an, wie das im Skript gemacht ist. Gleiche Situation wie eben. So sieht die minütliche Auflösung aus und das ist die aggregierte Sicht. Achten Sie hier darauf. Hier sind Sie bei maximal vier Kilowatt. Hier sind diese vier Kilowatt erst erreicht. Die Aggregation schlägt natürlich einen Teil der Spitzen weg und das ist ja auch
09:03
gewollt. Und dann sehen Sie Beispiel Plots hier in Nummer drei. Einminütige Auflösung für eine durchschnittliche Lastkurve. Schauen Sie sich an, wie sowas erzeugt wird. Ein spezieller Tag ist wieder geplottet. Ein anderer Tag. Und das Ganze in der aggregierten Form. Schauen wir hier bis 0,7.
09:26
Geht es hier und dort. Das sind durchschnittliche Lastkurven und auch hier natürlich die Frage, wozu taugen die denn eigentlich? Die Frage war im Praktikum ja auch, was nicht nur was zeigen die
09:41
Plots, sondern wozu dienen sie denn eigentlich jeweils in einer praktischen Anwendung. Das sollen Sie mal kurz überlegen, wenn Sie es bisher noch nicht gemacht haben sollten. Und dann gibt es, wenn man aufmerksam, dass die Skripten durchschaut, ganz zum Schluss auch einen Abschnitt, der falls ausgeben kann. Den kommentieren Sie bitte nur um, wenn Sie sich angeguckt haben,
10:07
was dann passiert. Nach dem Zusammenziehen mit den Zeitstempeln sehen diese Daten, die ich da eben gezeigt habe. Minütliche Auflösung und in Kilowatt und nicht noch aufeinander im Durchschnitt gerechnet. Im CSV-Format dann zum Beispiel so aus. Hier ist ein Ausschnitt,
10:24
nicht der Anfang, sondern ein Ausschnitt aus dem entsprechenden Fall, was hier erzeugt wird von einem der Skripte. Und hier haben Sie natürlich auch gleichzeitig noch ein Beispiel fürs CSV-Format. Das sollten Sie nun mittlerweile verstehen. Das war ja eine Aufgabe von vorhin. Und wir werden diese
10:41
Daten verwenden, um in weiteren Praktika Datensysteme damit zu füttern. Und noch eine kleine Warnung. Das liebste Datenverarbeitungstool der Menschheit scheint in mir Excel zu sein. Jede Tabellenkalkulation krankt aber gerne daran, dass die deutsche Variante mit den englischen
11:01
Zahlen nicht so richtig brillant klarkommt, selbst wenn man die Einstellungen passend wählen sollte. Die Tabellenansicht dieser Datei hier ist in englischer Notation ausgegeben. Also die Zahlen haben nicht das Komma, sondern den Punkt als den Lizymaltrenner. Das macht in einem deutschen Excel ordentlich Probleme. Ich habe Ihnen dargestellt, was passiert, wenn man es direkt
11:23
reinliest. Das ist hier in dem Fall noch kein Desaster, führt aber relativ schnell zu Desastern, weil diese Zahlen nämlich auch gar nicht mehr als wirklich als Kommazahlen oft interpretiert werden. Eine deutsche Excel-Variante hat also Probleme mit englischen Zahlen und daher ist ein Ersetzentipp mit einem Texteditor des in der CSV-Datei stehenden Kommas durch ein Semikolon gefolgt,
11:45
von einem Ersetzen der Punkte durch ein Komma anzuraten. Auf die Weise erzeugen Sie ein CSV-Format, was als trenner einen Semikolon hat. Das ist eigentlich ein ganz weit verbreiteter Klassiker. Auch lässt sich super verarbeiten, Deutsch und Englisch, weil es keinen Stress macht,
12:00
auch in den deutschen Varianten nämlich nicht. Und dass Sie Punkt in Komma getauscht haben, lässt das Ganze dann, wenn Sie das so gemacht haben, völlig simpel in Excel nachbearbeiten. Dann können Sie die Zahlen korrekt interpretiert einlesen, verarbeiten, plots damit bauen, wenn Sie das möchten. Kein Problem. Also das sollten Sie wissen. Bitte nicht mit den englischen Zahlen
12:22
direkt in der deutschen Excel-Variante arbeiten. Selbst wenn Excel da so ein paar Vorkehrungen hat, funktioniert eigentlich nie wirklich richtig.