Datenmodellierung für Sensor- und Simulationsdaten (2)
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 7 | |
Author | ||
License | CC Attribution - ShareAlike 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this | |
Identifiers | 10.5446/64696 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
00:00
Computer animationDiagram
05:11
Computer animation
Transcript: German(auto-generated)
00:00
Kommen wir nun zu den Kernfragen, die man sich für die Datenmodellierung stellen sollte, jedenfalls wenn man effizient sein möchte. Man betrachtet vier Sektoren, Daten, Fragen, das ist der inhaltliche Teil, Speicher und
00:24
Performance, das ist mehr der technische beziehungsweise kostenseitige Teil, jedenfalls was die Geschwindigkeit und die Anzahl der Festplatten betrifft, bleiben wir ja im Bereich der Daten zunächst, da werden Sie sich klassische Fragen überlegen können, die erste ist, welche sind denn überhaupt
00:43
verfügbar, die nächste, die auch schon Richtung Menge zielt, in welcher Frequenz, also Messdaten, die zeitstempelbasiert aufgezeichnet werden, kommen ja in einer gewissen Regelmäßigkeit meistens ja oder nein, das hat man eben zu überlegen, kommen sie beispielsweise sekündlich, dann ist die Datenlass
01:03
sicherlich deutlich größer als wenn sie viertelstündlich kämen und so weiter. Die Datenqualität ist für die inhaltlichen Untersuchungen, die damit möglich sind, natürlich wichtig, es könnten Kosten involviert sein, beispielsweise wenn ich neue Sensorien installieren muss, um an die Daten heranzukommen, also Fragen, die sich damit beschäftigen, wo komme ich denn eigentlich dran,
01:25
in welcher Qualität und der nächste Komplex, der ganz eng damit zusammenhängt, ist, welche Arten von Fragen will ich denn eigentlich stellen, wie wichtig sind mir diese Fragen, das hat mit den Kosten zu tun, investiere ich oder nicht, wenn ich die Sensorik noch nicht installiert hätte, habe ich die nötigen
01:42
Daten, um meine Fragen, die mich interessieren, zu beantworten, also Sie sehen, hier gibt es bereits ein intensives Wechselspiel, aber es ist nicht nur so, dass wir uns inhaltlich fragen, habe ich was ich brauche, was brauche ich eigentlich, um meine Fragen, die ich habe, zu beantworten, sondern ich muss mir natürlich auch technisch überlegen, wo lege ich das hin und wie schnell komme ich da wieder dran und
02:04
dann bin ich in einem Komplex, der sich mit den Partitionen beschäftigt, in jedem Falle werden die Daten, die ich speichere in Cassandra, in jedem anderen Datensystem, Plattenspeicher, verschwenden in irgendeiner Weise, wenn ich redundant speichere mit Replikaten eben, dann noch einmal mehr und ich
02:22
muss ja, hatte ich Ihnen gesagt, ich muss das machen, ich muss partitionieren, ich muss mit Replikationsfaktor größer als eins, sagen wir ja mindestens mal, mit drei speichern, um ausfallsicher zu bleiben, also Partition habe ich Punkt, ich brauche eine ganze Menge Festplatten, umgekehrt will ich es natürlich gar nicht übertreiben, bei den Partitionen frage ich mich dann auch oder bei
02:44
meiner Datenmodellierung, muss ich Daten mehrfach abspeichern, sind Denormalisierungen nötig, kleiner Bemerkung dazu kommt auf der nächsten Folie, aber hier schon vorweg, wie viel Redundanz ist in meinen Daten, ist das nötig, um Speicherbedarf klein zu halten, will ich hier natürlich wenig haben, für die Performance mag es aber sehr sinnvoll sein, das zu tun, damit ich Daten schneller an
03:06
Ort und Stelle habe, umgekehrt frage ich mich da, wie viele Partitionen muss ich denn abfragen, um an meine Daten zu kommen, je mehr, desto länger könnte das im Zweifelsfall dauern, an die Daten heranzukommen, Größe der Partition ist natürlich auch eine Frage und so weiter und so fort und dann
03:21
dreht sich das hier fröhlich im Kreis und ich muss einen geeigneten Kompromiss für diese vier Sektoren meiner Kernaspekte finden, wir werden uns vorwiegend beschäftigen damit, welche Daten verfügbar sind, in welcher Frequenz sie kommen und wie es um die Partitionen bestellt ist und die
03:42
Denormalisierungen, das wird on the fly mit diskutiert, ein Wort dazu, ein logisch ideales, ein sogenanntes normalisiertes Datenmodell ist vollkommen redundanzfrei, die sogenannten Denormalisierungen, das sind dann eben die Redundanzen, lassen sich oftmals, mit diesen
04:02
Denormalisierungen lassen sich oftmals wesentlich größere Performanceverbesserungen erreichen, als mit einem Tuning der Konfiguration des Datensystems beziehungsweise Tabelle, wie können wir uns das im Beispiel vorstellen, wir beachten noch mal unsere beiden Tabellen HTW und dann HTW-DT beziehungsweise den entsprechenden Materialized View, Teile der Zeitstäpel sowie iHouse waren ja
04:26
redundant im Vergleich zu HTW, dafür ist die Abfrage deutlich performanter, ich habe was ich brauche in schöne kleine Schnipsel geteilt, ich muss also nicht immer gleich alle Häuser zum Beispiel rausziehen und ich halte auch das logische ideale Modell bei sehr vielen Häusern
04:42
überhaupt nicht durch, also die Tabelle, wo ich in die Spalten die einzelnen Häusern packe, dass es nutzlos, weil es a, unbequem ist und b, wenn es zu viele Häuser sind, überhaupt nicht mehr richtig klappt, also ich bin aus Performancegründen und auch aus Handhabungsgründen dazu gezwungen oft solche Denormalisierungen zuzulassen, also damit müssen wir schlicht leben,
05:06
aber sie kosten mehr Speicher.