We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

The real Big Data – Potentiale eines satellitenbildgestützten Temperaturdatenarchivs

00:00

Formal Metadata

Title
The real Big Data – Potentiale eines satellitenbildgestützten Temperaturdatenarchivs
Title of Series
Number of Parts
68
Author
License
CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Im Rahmen eines Forschungs- und Entwicklungsprojektes bauen wir (Mundialis) ein 15 Jahre zurückreichendes Temperaturdatenarchiv für ganz Europa, das auf Satellitendaten basiert, auf. Das Archiv beinhaltet vier Temperaturschritte pro Tag und hat eine räumliche Auflösung von einem Kilometer und ist damit genauer und besser, als jegliche, auf Interpolation von wenigen Klimastationen basierenden interpolierte Datensätze. Der Vortrag konzentriert sich auf zwei Hauptaspekte: - Verarbeitung von Fernerkundungsdaten im Terabyte-Bereich mit High-Performance-Computing mit GRASS GIS - Potentielle Anwendungsfelder der aus diesem Archiv generierten Information
Keywords
1
Thumbnail
13:04
24
39
58
59
Thumbnail
36:34
IREEN <Datenbanksystem>MARKUS <Unternehmensspiel>Open sourceSupercomputerGrass (card game)SoftwareParticle detectorComplete metric spaceFortschreibungPermanentMODISIndexEnde <Graphentheorie>SatelliteSoftwareRow (database)Set (mathematics)MetreZahlRaw image formatPixelComputer animation
Blu-ray DiscPixelInterface (chemistry)Row (database)Raw image formatSoftwareData centerRAMSupercomputerServer (computing)Volumetric flow rateBefehlsprozessorParallel programming modelRun time (program lifecycle phase)Grass (card game)BerechnungDatabaseInterpolationSpline (mathematics)Variable (mathematics)MODISData compressionWorkstation <Musikinstrument>HöheHeat waveParticle detectorRun-time systemInternationalization and localizationRadial basis functionElectronic design automationMARKUS <Unternehmensspiel>PixelRow (database)Moment (mathematics)HöheZahlGebiet <Mathematik>Core dumpFactorizationBefehlsprozessorWorkstation <Musikinstrument>SpacetimeCalculationInterface (chemistry)MetreServer (computing)NumberAtomic nucleusLinieRAMSatelliteDatabaseData centerPOWER <Computerarchitektur>SequenceEnde <Graphentheorie>Raw image formatSpacetimeInterpolationLengthWell-formed formulaComputer animation
PredictionRow (database)PredictionComputer animation
Electronic design automationParticle detectorHöheMetreTime seriesRow (database)LanglebigkeitRoute of administrationHöheEnde <Graphentheorie>Direction (geometry)Propositional formulaComputer animation
EmailMARKUS <Unternehmensspiel>Point at infinityLinieComputer animationLecture/Conference
Workstation <Musikinstrument>HöheRow (database)SatelliteLinieComputer fileInterpolationComputer animation
Row (database)Data qualityMoment (mathematics)InterpolationDirection (geometry)FactorizationMeasurementLecture/Conference
Transcript: German(auto-generated)
Es geht um, ob es ein real big data ist, weiß ich nicht, aber es ist auf jeden Fall ein Titel, der euch ja schon mal hier reingebracht hat, insofern es ja schon mal funktioniert. Die Idee ist eigentlich mal vorzustellen, wie man wirklich mit einem wirklich dicken Datensatz eigentlich umgeht.
Natürlich mit freier Software und dann so ein bisschen so einen Ausblick zu liefern, was man mit den Daten vielleicht hinterher auch machen kann. Aber das wäre natürlich auch super, wenn wir nach dem Vortrag der ein oder andere die Hand hebt und sagt, cool, könnte man vielleicht auch dies oder jenes damit noch machen.
Wir sind da selber noch so ein bisschen in der Erfindungsphase. Vielleicht ganz kurz die Erklärung. Mundialis haben wir gegründet vor zwei Jahren, im Mai 2015. Dezember 2015 ist der Markus Netheler dazu gekommen. Wir hatten vorher schon die Idee uns so mit Big Data und Fernerkundung und Sachen auseinanderzusetzen.
Mit Markus kam dann auch die Kompetenz da rein. Das hatten wir so bei uns nicht. Aktuell sind wir sieben. Auch hier noch mal der Aufruf. Wir haben eine Stellenausschreibung draußen. Also wenn jemand Lust hat, solche Sachen zu machen, der kann mich gerne ansprechen. Bonn ist eine tolle Stadt, da kann man schöne Sachen machen.
Ja, Agenda ganz kurz, worum geht es heute? Dann habe ich The Real Big Data. Ich habe das mal ausgerechnet auf die Pixel, die wir da wälzen. Das ist eine schöne Zahl. Dann die Frage zu beantworten, wie verarbeitet man eigentlich solche Datenmengen in Bezug auf Infrastruktur, Software und natürlich auch mal die Verarbeitungsschritte darzustellen
und dann am Ende auf ein paar Anwendungsfelder überzugehen. Ganz platt gesagt, worum geht es? Es geht eigentlich darum, die Daten, die wir auf der linken Seite sehen, das ist eine Satellitenrohdatenszene mit Wolkenlücken,
in das, was wir auf der rechten Seite sehen, zu überführen durch geostatistische Interpolationsmethoden. Im Grunde genommen sendet der Satellit nur da Daten, wo keine Wolken sind und die wollen wir auffüllen. Und um so ein bisschen mal die Dimension schon mal aufzuzeigen, bauen wir ja sozusagen ein Raumzeitdatenarchiv auf.
Das geht zurück auf einen Satellitensensor, das ist der Modissensor, da habe ich gleich noch eine extra Folie zu. Der Modissensor ist auf zwei Satelliten aufgebaut und jeder Satellit sendet einen Tages- und einen Nachtwert, das seit 15 Jahren.
Und wir rechnen das runter auf eine Auflösung von 250 Metern. Da kann man sich schon mal vorstellen, dass das eine ganze Menge Daten sind und dazu sendet der ja noch immer. Das heißt, es geht um das Archiv, aber eben auch darum, dass alles, was jetzt runterkommt, permanent weiter fortgeschrieben wird.
Dieser Modissensor, Moderate Resolution Imaging Sensor, ist ein Sensor, wie eben gesagt, auf zwei NASA-Satelliten. Das Schöne daran ist, das sind freie Daten, die kann ich mir im Grunde genommen runterziehen. Ich habe es gerade gesagt, immer Tag- und Nachttemperaturwerte von zwei Satelliten sind vier Datensätze pro Tag
bezogen auf die ganze Landoberfläche. Das alleine ist schon relativ viel. Und das Problem, wie eben schon angesprochen, sind letzten Endes die Wolkenlücken. Und wir wollen aber komplette Datensätze daraus machen. Hier mal einfach eine Szene von Mitteleuropa und in dem kleinen Ausschnitt einfach mal aufgezeigt.
So was, wenn man da unten sieht, das kennt man als Temperaturkarte, das ist schön, aber relativ nutzlos. Und bei dem Ausschnitt sieht man halt wirklich, was man durch so eine hohe Auflösung eigentlich für eine Genauigkeit erreichen kann. Ich kann natürlich noch wesentlich weiter reinzoomen an der Stelle.
Jetzt mal auf die Datensätze zu kommen. Ich habe das gesagt, 15 Jahre, ganz genau gesprochen ist wahrscheinlich sogar schon ein bisschen mehr, 365 Tage. Vier Datensätze. Das heißt, wir reden von 21.900 Datensätzen, die seitdem existieren.
Das ist mal gerechnet am Beispiel der Bundesrepublik mit einer Fläche von 357.000 x² km. Da komme ich auf eine Zahl von 5,7 Millionen Pixel pro Datensatz. Das rechnet sich relativ simpel.
Ich muss im Grunde genommen die Fläche nehmen und dann muss ich gucken, wie viele Pixel habe ich bei einer 250-Meter-Auflösung im Quadratkilometer, dann komme ich auf diese Zahl. Wenn ich mal auf die 21.900 Datensätze rechne, dann komme ich auf eine Gesamtpixelanzahl nur für Deutschland, die wir da wälzen von 125 Milliarden. Das ist schon ein paar Pixel. Und wenn ich das mal weltweit hochentapuliere, dann rechne ich 147.000.000 x² km.
Diese 16 Pixel pro Quadratkilometer, die 21.900 Datensätze, dann komme ich bei 51.000.000 einzelnen Pixelzellen raus, die wir da wälzen.
Das ist eine Zahl, die mir jetzt noch nicht so oft begegnet. Was ich demgegenüber relativ spannend fand, wenn man das mal in Byte und Terabyte ausdrückt, ist das gar nicht so viel eigentlich. Erst die tolle Zahl und jetzt, sagt man, wenn ich es mal wirklich in belegtem Speicherplatz runterrechne, ich lese das jetzt nicht alles in Detail ab,
aber bei der Welt habe ich bei 286 einzelnen Teils, die der Satellit mir sendet, habe ich so etwa 357 GB Rohdaten. Und im finalen Produkt, das haben wir natürlich auch erst hochgerechnet, wir rechnen im Moment nur Zentraleuropa,
die Welt kommt später dran, landen wir irgendwann mal bei 57 Terabyte. Das ist doch relativ überschaubar, wir messen gerade auch an die Zahlen, die ich da eben gemeldet habe. Gute Nachricht, wir brauchen kein Rechenzentrum mehr. Wie, wenn wir diese Datenmengen verarbeiten? Wir haben im Grunde genommen uns für einen 2-Server-Cluster entschieden,
die jeweils 8 Kerne haben und 32 GB RAM. Also das ist von der Rechenpower her dann doch relativ überschaubar. Man muss immer so ein bisschen abwägen. Ich könnte natürlich auch einen Server nehmen, aber die Begrenzung liegt da immer bei der Input-Output-Kapazität. Insofern haben wir uns dann auf diese 2-Server-Cluster entschieden, haben davor einen Jobmanager
gesetzt, ein Software-Grid-Engine, die im Grunde genommen jeden Datensatz als einen Job betrachtet und dadurch jagt. Und wenn ich das jetzt mal in Zeit ausdrücke, dann wird jeder Job, das sind jetzt die Zahlen für Mitteleuropa,
dann brauche ich für einen Job von diesen 4 Teils auf eine CPU gerechnet etwa 9 Minuten. Wenn ich das mal hochrechne, wenn ich das auf einer Kiste mit einer CPU rechnen würde, dann wäre ich so 136 Tage am Rechnen.
Das ist dann wiederum viel. Dadurch, dass wir das parallelisieren können, auf verschiedene Cores verteilen können, landen wir für Mitteleuropa etwa bei 205 Stunden, das sind so 9 Tage, so um den Dreh 8-9 Tage. Das ist die Idealvorstellung. Da geht natürlich noch ein bisschen was verloren, also sagen wir mal 2 Wochen.
Dann hat man so einen Datensatz für Mitteleuropa an der Stelle durchgerechnet. Software-Setup. Im Grunde genommen ist das relativ simpel. Wir importieren diese Daten. Das ist ein HDF-Format mit GDAL nach GRASS und berechnen das eigentlich mit GRASS 7.2 Standardmodulen.
Was wir da genau tun, gehe ich jetzt gleich noch mal drauf ein und legen die im Grunde genommen erst mal als Geotips ab, verwalten die aber in einer Datenbank mit diesem TGRASS, das Temporal Framework von GRASS-GIS, vereinfacht.
Ich kann aber auch das mal in Häppchen servieren, das ist glaube ich besser. Das ist das Bild vom Anfang, was wir eben gesehen haben, das ist der visualisierte Rohdatensatz. Irgendwann, 19. Juli 2011, von diesem einen Satellitenüberflug, wie wir sehen, muss es nicht schon ein ganz toller Sommer gewesen sein.
Wir haben relativ viele Wolken. Und der erste Schritt ist im Prinzip eine Art Datenverdichtung, wo einfach geguckt wird, zeitlich auch gewichtet, eine Woche vor, eine Woche zurück. Haben wir an anderen Stellen, wo wir keine Daten haben, haben wir da Daten. Dann verdichtet sich das schon mal an der Stelle.
Und dazwischen wird dann im Grunde genommen mit einer Art raumzeitlicher Interpolation, da kommen noch verschiedene Faktoren rein, die der Satelliten mitsendet, also es werden urbane Gebiete und Gewässer werden gesondert betrachtet, die Höhe spielt eine Rolle, wird das im Grunde genommen interpoliert. Und ich habe einen kompletten Datensatz.
Sieht toll aus, habe ich Markus auch gesagt. Ich habe gesagt, schönes Bild, ist schön bunt, ist voll. Die Frage ist natürlich, stimmt das, was wir da haben? Und das ist eigentlich ganz schön hier zu sehen. Das ist im Grunde genommen eine Gegenüberstellung von einem wahllos gewählten interpolierten Punkt,
der genau da liegt, wo eine Messstation ist. Vielleicht kurz zu den Messstationen, da habe ich keine Folie zu. In Deutschland gibt es so etwa 800 bis 900 Temperatur-Messstationen. Und alles, was ich als Temperaturkarte kriege aktuell, wird dazwischen interpoliert.
Und da habe ich natürlich mit den Satellitendaten wesentlich höhere Bildpunktdichte. Man muss ein bisschen beachten, die Station misst immer in zwei Meter Höhe. Der Satellit misst die Bodentemperatur. Das kann man nicht direkt vergleichen, aber wenn man sich den Trend da mal anguckt,
mit der blauen gestrichelten und der roten Linien, dann sieht man doch, dass das eine relative Folge hat, also relativ gut passt. Und wenn man das dann noch mittelt, und das ist im Prinzip diese blau-rote Linie in der Mitte, dann sieht man, dass wir eigentlich fast eine hundertprozentige Übereinstimmung
zwischen den von uns interpolierten Werten haben mit den tatsächlich an der Station gemessenen. Mit eben dem Unterschied des eines Bodens, des anderes Höhe. Das ist natürlich jetzt ein Punkt, das machen wir natürlich für mehrere Punkte, um da zu gucken. Aber es zeigt eigentlich, so ganz verkehrt ist das eigentlich nicht, was wir da tun. Gut, da bin ich auch schon im Grunde genommen bei den Anwendungsfällen,
die wir uns so überlegt haben, was man eigentlich relativ gut rauskriegen kann. Über solche Datensätze sind städtische Hitzeinseln. Erstmal denkt man jetzt, früher ist es doch schön, wenn es warm ist, aber das kann tatsächlich auch in Mitteleuropa ein problematisches Phänomen sein.
Wenn einfach Lebensqualität beeinträchtigt wäre, gesundheitliche Folgen, würde ich denke, dass gerade in den Entwicklungsländern mit zunehmender Verstädterung das Problem natürlich noch deutlich verschärft ist. Ich habe das hier mal in der Grafik gegenübergestellt. Das ist Mailand, Stadt Mailand. Auf der linken Seite, diese acht Pixel, die wir da sehen, das ist der Datensatz,
den man im Moment von der ECAD, das ist eine europäische Climate Association Dataset, bekommt. Die haben eine 25 Kilometer Auflösung. Und rechts wären das im Prinzip diese interpolierten Daten von uns. Zumal kann man eigentlich schon sehen, aufgrund der Auflösung habe ich eine wesentlich höhere Aussagekraft, um sowas zu detektieren.
Ein anderes Phänomen, auch da hatten wir letztes Jahr eine lange Diskussion, es war leider kein Projekt daraus geworden, Verbreitungsgebiete von Krankheitserregern. Also letztes Jahr ging es um die Tigermücke, die ich da abgebildet habe. Das andere ist ein Kornbock. Und oft ist die Ausbreitung solcher Schädigen ziemlich an die Temperatur gekoppelt,
beziehungsweise oft auch an die Ausbreitung der Würztiere. Und die hängen direkt an der Temperatur. Und auch da habe ich ein Beispiel aus Datensätzen. 2003, ein sehr, sehr heißes Jahr.
Das sieht man oben in der Mitte, ist der Gardasee unten. In Grün kann man das noch ein bisschen besser betrachten. Das kriegt man über solche Daten tatsächlich dann raus, dass man eben sieht, oh, der ist ja im Winter noch wesentlich wärmer gewesen. Das heißt, das ist offensichtlich so ein Pool, wo sich bestimmte Schädlinge tatsächlich eine Chance haben, auch zu überwintern.
Solche Vorhersagen oder auch Prognosen kann man natürlich auch aus solchen Daten ableiten. Hier ist es noch in der anderen Grafik. Und da gelegt da auch wieder dieser europäische Datensatz. Und daneben unserer, man sieht letzten Endes höhere Auflösungen, mehr Daten muss eigentlich besser sein, das man da hat.
Ich glaube, ein Thema, was uns beide interessiert, ist natürlich weniger Landwirtschaft als vielleicht mehr der Weinbau. Auch da gab es auch tatsächlich schon Projekte im Vorfeld, wo Markus Feuer gearbeitet hat. Man kann natürlich über solche Zeitreinanalysen auch sehr lokal tatsächlich Temperaturtrends rausarbeiten.
Nicht in einem globalen Feld, sondern wirklich lokal. Und was die damals gemacht haben, die haben tatsächlich Weinbaugenossenschaften in Italien beraten in Bezug auf Rebsortenanbau, um einfach zu gucken. Ich denke, das gilt auch für Obstbau, also alles, was so ein bisschen langfristig angebaut wird.
Ich als selbsternannter Weinexperte muss natürlich einschränken, dass man nicht immer die freie Wahl hat, was man da anbaut, sondern wenn ich jetzt nach Frankreich oder Spanien gucke, dann sind halt die Regionen, da sind die Rebsorten auch festgelegt. Da hilft das natürlich dann gar nichts. Aber auch in der Richtung sehen wir durchaus Anwendungsfeld. Auch solange war ich bei mir.
Und auch ein Punkt, wo ich auch eher zufällig draufgeschlossen bin, als Anwendungsfeld, langlebige Infrastruktur. Es ist offensichtlich so, dass Asphaltbeläge, auch wie lange die halten und welche Eigenschaften die haben,
wo das sehr eng an die Temperatur geknüpft ist. Da haben wir natürlich mit unseren Daten den Vorteil, dass wir tatsächlich die Bodentemperatur haben und nicht die in zwei Meter Höhe. Und da kann ich mir auch gut vorstellen, dass man gerade mit der Auflösung entlang von so einer überregionalen Straße, was einen Planungsprozess angeht, da eigentlich sehr gute Aussagen drüber treffen kann.
Das war es nämlich, glaube ich schon. Danke.
Danke, Till. Überpünktlich. Gibt es Fragen? Du hast vorhin dieses Schaubild gezeigt, wo man diesen Temperaturtrend gesehen hat, den Vergleich.
Hast du da auch einen Vergleich, welches jetzt von dieser roten Linie dann interpoliert war? Gibt es da eine Auswertung, wie der Unterschied ist zwischen dem Interpolierten und dem tatsächlich Gemessenen?
Das ist das ja im Grunde genommen. Also oben ist ja die Legende, das Rote ist das Interpolierte und das Blaue ist die wirklich Gemessene. Genau, aber da gab es ja dann in der roten Linie welche, die direkt von den Satelliten kommen als Datensatz und welche, die hinter Wolken sind.
Das ist ja sowieso, du siehst, von Februar bis Mai. Ich habe jetzt ehrlich gesagt, da oben irgendwo in Trento war das. Du kannst davon ausgehen, dass da interpolierte Daten drin sind. Du meinst, welche Punkte da dazwischen sind. Welche Dateien der Linie sind interpoliert und welche nicht?
Das wäre sicher eine interessante weitere Methode. Und vielleicht da noch ein Teil zu den Gutdaten, die die Interpolation hat. Was mache ich dann nächstes Jahr?
Ja, sonst noch Fragen? Oder alle erschlagen von großen Datenmengen? Ich wollte mal fragen, ob es neben der Möglichkeit der reinen Interpolation auch noch Verfahren gäbe aus dem Bereich Wettervorhersage,
also dass man auch Dinge anlernen kann. Und die NOA, da weiß ich halt eben, die haben auch Bodenfeuchtigkeiten, Bodentemperaturen und so was, dass man daraus was ableiten kann. Also Temperatur ist natürlich ein ziemlich treibender Faktor da, was ich sage mal jetzt Richtung Bodenfeuchte und ähnliche Dinge geht.
Wir haben uns eigentlich so ein bisschen das Ziel gesetzt, uns erstmal mit der Temperatur auseinanderzusetzen und das dann in weiteren Schritten auch auszuweiten auf andere Datensätze. Das wäre so das eine, was wir aktuell auch diskutieren und tatsächlich überlegen ist, dass die Daten des Deutschen Wetterdienstes,
die aktuellen Mess- und Verhersagedaten, die sind ja jetzt Open Data. Das wäre natürlich spannend da einfach mal zu gucken, wo bringe ich die übereinander. Ich glaube insgesamt, das Schlimme ist, wenn wir darüber diskutieren,
was wir da alles machen können, dann endet das immer in einem Oh ja, ja, ja und das und das und das und das. Und ich bin eigentlich ein Freund davon, sich erstmal so auf die eine Sache so ein bisschen zu fokussieren. Ich glaube, das Potenzial, was da drin liegt, das ist, glaube ich, gigantisch.
Und du möchtest ja auch noch Themen für die nächsten Jahre, die nächsten Forskis-Veranstaltungen haben. Ach, da habe ich noch nie ein Problem.
Werdet ihr vielleicht in der Zukunft andere Sensoren zusätzlich auswerten? Also andere Sensoren an sich haben wir aktuell nicht in der Planung. Wir schielen ein bisschen auf Sentinel-3, der auch so einen Sensor hat,
der allerdings auch eine ganz andere Auflösung hat. Die ist, ich weiß nicht genau, ist schlechter, auf jeden Fall. Das machen wir aber tatsächlich, wir sind ja unter uns, das ist eher politisch motiviert, weil die Datenqualität von Modus ist eigentlich schon sehr gut
und die Abdeckung mit vier Datensätzen pro Tag ist eigentlich auch sehr gut. Wir schielen so ein bisschen in Richtung Sentinel, weil da einfach gerade auch viel möglich wird, wenn du mit den Daten was tust. Also das ist so eher die Fokus, die wir im Moment so ein bisschen sehen.