We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Datenmodellierung für Sensor- und Simulationsdaten (2)

00:00

Formal Metadata

Title
Datenmodellierung für Sensor- und Simulationsdaten (2)
Title of Series
Number of Parts
7
Author
License
CC Attribution - ShareAlike 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Dieses Material ist Teil der Lehr-Lern-Materialien von "OER4EE - Technologien für die Energiewende" und zugleich Bestandteil der Lehrveranstaltung Energie 4.0, Kapitel 4. Inhalt dieses Screencasts: Datenmodellierung für Sensor- und Simulationsdaten: Kernfragen
Keywords
Computer animationDiagram
Computer animation
Transcript: German(auto-generated)
Kommen wir nun zu den Kernfragen, die man sich für die Datenmodellierung stellen sollte, jedenfalls wenn man effizient sein möchte. Man betrachtet vier Sektoren, Daten, Fragen, das ist der inhaltliche Teil, Speicher und
Performance, das ist mehr der technische beziehungsweise kostenseitige Teil, jedenfalls was die Geschwindigkeit und die Anzahl der Festplatten betrifft, bleiben wir ja im Bereich der Daten zunächst, da werden Sie sich klassische Fragen überlegen können, die erste ist, welche sind denn überhaupt
verfügbar, die nächste, die auch schon Richtung Menge zielt, in welcher Frequenz, also Messdaten, die zeitstempelbasiert aufgezeichnet werden, kommen ja in einer gewissen Regelmäßigkeit meistens ja oder nein, das hat man eben zu überlegen, kommen sie beispielsweise sekündlich, dann ist die Datenlass
sicherlich deutlich größer als wenn sie viertelstündlich kämen und so weiter. Die Datenqualität ist für die inhaltlichen Untersuchungen, die damit möglich sind, natürlich wichtig, es könnten Kosten involviert sein, beispielsweise wenn ich neue Sensorien installieren muss, um an die Daten heranzukommen, also Fragen, die sich damit beschäftigen, wo komme ich denn eigentlich dran,
in welcher Qualität und der nächste Komplex, der ganz eng damit zusammenhängt, ist, welche Arten von Fragen will ich denn eigentlich stellen, wie wichtig sind mir diese Fragen, das hat mit den Kosten zu tun, investiere ich oder nicht, wenn ich die Sensorik noch nicht installiert hätte, habe ich die nötigen
Daten, um meine Fragen, die mich interessieren, zu beantworten, also Sie sehen, hier gibt es bereits ein intensives Wechselspiel, aber es ist nicht nur so, dass wir uns inhaltlich fragen, habe ich was ich brauche, was brauche ich eigentlich, um meine Fragen, die ich habe, zu beantworten, sondern ich muss mir natürlich auch technisch überlegen, wo lege ich das hin und wie schnell komme ich da wieder dran und
dann bin ich in einem Komplex, der sich mit den Partitionen beschäftigt, in jedem Falle werden die Daten, die ich speichere in Cassandra, in jedem anderen Datensystem, Plattenspeicher, verschwenden in irgendeiner Weise, wenn ich redundant speichere mit Replikaten eben, dann noch einmal mehr und ich
muss ja, hatte ich Ihnen gesagt, ich muss das machen, ich muss partitionieren, ich muss mit Replikationsfaktor größer als eins, sagen wir ja mindestens mal, mit drei speichern, um ausfallsicher zu bleiben, also Partition habe ich Punkt, ich brauche eine ganze Menge Festplatten, umgekehrt will ich es natürlich gar nicht übertreiben, bei den Partitionen frage ich mich dann auch oder bei
meiner Datenmodellierung, muss ich Daten mehrfach abspeichern, sind Denormalisierungen nötig, kleiner Bemerkung dazu kommt auf der nächsten Folie, aber hier schon vorweg, wie viel Redundanz ist in meinen Daten, ist das nötig, um Speicherbedarf klein zu halten, will ich hier natürlich wenig haben, für die Performance mag es aber sehr sinnvoll sein, das zu tun, damit ich Daten schneller an
Ort und Stelle habe, umgekehrt frage ich mich da, wie viele Partitionen muss ich denn abfragen, um an meine Daten zu kommen, je mehr, desto länger könnte das im Zweifelsfall dauern, an die Daten heranzukommen, Größe der Partition ist natürlich auch eine Frage und so weiter und so fort und dann
dreht sich das hier fröhlich im Kreis und ich muss einen geeigneten Kompromiss für diese vier Sektoren meiner Kernaspekte finden, wir werden uns vorwiegend beschäftigen damit, welche Daten verfügbar sind, in welcher Frequenz sie kommen und wie es um die Partitionen bestellt ist und die
Denormalisierungen, das wird on the fly mit diskutiert, ein Wort dazu, ein logisch ideales, ein sogenanntes normalisiertes Datenmodell ist vollkommen redundanzfrei, die sogenannten Denormalisierungen, das sind dann eben die Redundanzen, lassen sich oftmals, mit diesen
Denormalisierungen lassen sich oftmals wesentlich größere Performanceverbesserungen erreichen, als mit einem Tuning der Konfiguration des Datensystems beziehungsweise Tabelle, wie können wir uns das im Beispiel vorstellen, wir beachten noch mal unsere beiden Tabellen HTW und dann HTW-DT beziehungsweise den entsprechenden Materialized View, Teile der Zeitstäpel sowie iHouse waren ja
redundant im Vergleich zu HTW, dafür ist die Abfrage deutlich performanter, ich habe was ich brauche in schöne kleine Schnipsel geteilt, ich muss also nicht immer gleich alle Häuser zum Beispiel rausziehen und ich halte auch das logische ideale Modell bei sehr vielen Häusern
überhaupt nicht durch, also die Tabelle, wo ich in die Spalten die einzelnen Häusern packe, dass es nutzlos, weil es a, unbequem ist und b, wenn es zu viele Häuser sind, überhaupt nicht mehr richtig klappt, also ich bin aus Performancegründen und auch aus Handhabungsgründen dazu gezwungen oft solche Denormalisierungen zuzulassen, also damit müssen wir schlicht leben,
aber sie kosten mehr Speicher.