We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Entwicklung eines Datenstandards für mikroskalige Modellergebnisse

00:00

Formal Metadata

Title
Entwicklung eines Datenstandards für mikroskalige Modellergebnisse
Title of Series
Number of Parts
13
Author
License
CC Attribution - NonCommercial - NoDerivatives 3.0 Germany:
You are free to use, copy, distribute and transmit the work or content in unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Producer

Content Metadata

Subject Area
Genre
Abstract
Mit Hilfe der numerischen Modellierung werden komplexe Prozesse auch in kleinräumig gegliederten Gebieten und innerhalb von Städten darstellbar. Durch geringe Gitterweiten und numerischen Restriktionen benötigen derartig hochauflösende Untersuchungen sehr viele Ressourcen; die Nachnutzung der Modellergebnisse ist aber noch wenig ausgeprägt. Vergleiche von Modelldaten, Weitergabe der Ergebnisse oder die Reproduzierung von Simulationen werden gegenwärtig durch uneinheitliche Datenstrukturen, nicht standardisierte Variablennamen und fehlende Angaben zum Modell-Setup erschwert. In der Meteorologie verwendete Datenkonventionen, wie z.B. der CMIP6 Standard, sind auf großskalige Modelldaten angepasst, beinhalten aber bisher nicht die Größen und Variablen, die in der mikroskaligen hindernisauflösenden Modellierung relevant sind. Dies betrifft sowohl die numerische als auch die physikalische Modellierung. In dem Projekt AtMoDat (Atmospheric Model Data) soll der bisherigen Standard auf die Bedürfnisse der mikroskaligen Modellierung erweitert werden. Bisher wurde mit Hilfe einer Online Umfrage (uhh.de/orm-survey) einige mikroskalige Modelle und deren Eigenschaften erfasst und Vorstellungen und Anregungen zu dem Standard gesammelt. Ergebnisse daraus werden vorgestellt. Vorläufige Variablennamen für die Mikroskala werden für den AtMoDat-Standard vorgeschlagen. Die Methodik der Erweiterung wird vorgestellt und diskutiert. How to cite: Voss, V., Schlünzen, K. H., and Grawe, D.: Entwicklung eines Datenstandards für mikroskalige Modellergebnisse, 12. Deutsche Klimatagung, online, 15–18 Mar 2021, DKT-12-31, https://doi.org/10.5194/dkt-12-31, 2020.
Computer animation
Computer animation
Computer animation
Transcript: German(auto-generated)
Herzlich willkommen zu meinem Vortrag. Mein Name ist Vivian Forst und ich bin wissenschaftliche Mitarbeiterin an der Universität Hamburg in der Arbeitsgruppe für Mieson-Mikroskalige Modellierung. Und ich arbeite im Projekt Atmodat mit. Atmodat ist im Grunde kurz Atmospheric Model Data, wo wir uns im Grunde um Datenstatisierung kümmern.
Und in meinem Vortrag geht es heute um die Entwicklung eines Datenstandards für mikroskalige Modellergebnisse. Und deshalb würde ich gerne mal anfangen mit, warum wir das brauchen. Also warum wir einen Datenstandard brauchen. Ich glaube, viele von uns oder wenn nicht sogar alle, haben Modelldaten in irgendeiner Form gearbeitet, produzieren und veröffentlichen diese.
Aber es ist mir wahrscheinlich auch schon mal aufgefallen, dass Daten, die sie dann wieder verwerten möchten, eventuell nicht ganz so leicht wieder zu verwenden sind, weil sie entweder nicht ausreichend dokumentiert sind oder nicht ordentlich beschrieben sind. Genau, also das ist so ein bisschen so die Problematik. Und wenn wir so darüber nachdenken, was wir gerne
haben möchten, wie so ideale Datensätze aussehen sollten, dann gibt es im Grunde drei Komponenten, die ich hier aufgelistet habe. Zum einen sollten diese Daten fair sein, also fair ist kurz für findable, accessible, interoperable and usable. Also dass die eben auffindbar sind, dass man diese Daten auch einsehen kann, dass die in verschiedenen Tools ausgewertet werden können und eben auch wieder verwendet werden.
Im Idealfall tut man dies dann, indem man solche Daten in einem selbstbestreitenden Datenformat abspeichert und diese Daten dann auch mit ausreichend Informationen ausstattet, sodass man dann auch anhand der Daten selber schon alle Informationen hat und benötigen kann, die man dann braucht für seine Arbeit.
Genau, wer arbeitet denn mit Daten? Also im Grunde genommen haben wir drei Gruppen. Wir haben einmal den Data Producer, der die Daten erzeugt und diese dann produzieren möchte. Dann gibt es den Data Creator, welcher vorne dann im Namen des Repositoriums im Grunde schaut, ob entsprechende Mindestanforderungen an die Daten vorhanden sind, die dann in den Datensatz mitbringen sollen, damit die dann veröffentlicht werden können.
Man fügt dann diesen Daten auf die DOE hinzu, dass diese dann auch zitiert bzw. gefunden werden können. Und dann haben wir dann auch den Daten User, der diese Daten dann downloaden möchte und weiter benutzen möchte oder basiert auf diesen Daten arbeitet.
Genau, und da ist ein bisschen die Problematik, dass je nachdem, welches Repositorium man sich anschaut, es gibt unterschiedliche Mindestanforderungen an den entsprechenden Daten, sodass man das Ganze dazu führen kann, dass eben Information zu den Daten unterschiedlicher Ausführlichkeit und Qualität vorliegen kann. Das kann dann letztendlich im schlimmsten Fall dazu führen, dass die Nachbarkeit von Modelldaten verringert wird oder nicht gewährleistet ist.
Genau, wenn wir uns jetzt mal überschauen, was es bereits gibt, dann werden wahrscheinlich viele oder die meisten von euch jetzt mal an CMIP denken. Also CMIP ist ja das Modell to Comparison Project, was im Grunde schon dazu ausgelegt ist, dass man eben Modelldaten leicht vergleichen kann.
Weil es auch nicht in dem Aspekt darum geht, dass man eben Klimamodelldaten, Globalmodelldaten einfach austauschen kann und entsprechend auch analysieren kann. Genau, und im Zuge dessen gibt es im Grunde zwei weitverbreitete Komponenten dabei, einmal das Netz-CDF-Datenformat, das ein selbstverschreibendes Datenformat ist,
und die Climate and Forecast Conventions oder kurz CF Conventions, die dann so spezifische Eigenschaften wie Variabeln, Nameeinheiten, Namensstruktur der Files etc. so definieren, dass man solche Daten dann einfach dann auch weiterverwenden kann. Genau, Netz-CDF und CF werden insgesamt viel benutzt.
Also es gibt viele Modelle oder Modelle, die auch diese beiden Komponenten eben auch für ihre Daten benutzen, auch für Obstsituationstatten wird das benutzt. Aber gerade wenn wir uns mal außerhalb der Klimamodellierung bzw. umschauen, dann gibt es auch, wie in der Mikroskala beispielsweise,
dann gibt es eben auch Phänomene, die nicht von den globalen Modellen abgedeckt werden. Und diese Variablen, die dann sowas betreffen würden, die werden teilweise nicht vom Standard abgedeckt. Und im Grunde ist das auch das Ziel von AdMirror, also es gibt im Grunde zwei Ziele. Zum einen, dass wir diesen Datenstandard, also einen entwickeln, womit wir Daten branden können oder labeln können,
dass diese dann in gewisse, gewisse Mindestanforderungen an Information und an gewissen Standard vorweisen. Und dann gibt es im Grunde noch den zweiten Punkt, und da bin ich involviert, dass wir eben diesen Datenstandard, dass die Existenzstandards, die erweitert werden sollen, auf kleinere Modelle, die Comparison Projects, MIPS oder eben auch die mikroskalige Modellergebnisse.
Genau, wenn wir dann gucken, was die mikroskalige Modellierung so beinhaltet, wir haben im Grunde zwei Aspekte. Wir haben einmal die numerische Modellierung und einmal die physikalische Modellierung. Und wenn wir uns in den numerischen Raum schauen, dann gibt es verschiedene Filterungen, also Modelleigenschaften. Es gibt verschiedene Filterungsmethoden. Gitterweite kann variieren.
Darfschwängende Hindernisse oder das Einlesen von Hindernissen kann verschieden sein. Und der CDF ist, wie gesagt, als Datenformat durchaus geläufig, aber nicht unbedingt standardisiert, beziehungsweise auch nicht immer der Standard. Und auf der anderen Seite, in der physikalischen Modellierung haben wir dann zwar nicht so viel Auswahl in der Filterung, aber es gibt eben verschiedene Möglichkeiten der Messpunkte.
Also man kann da verschieden sich das angucken. Und soweit ich das weiß, gibt es da zum Beispiel noch gar keinen Datenstandard. Und auch ein wichtiger Aspekt ist eben, dass gerade Daten aus der physikalischen Modellierung eben auch dazu verwendet werden, um mikroskalige Modellergebnisse zu validieren. Also dementsprechend wäre es auch voll Interesse, solche Daten einfacher miteinander vergleichen zu können
oder eben gut oder genau nachnutzen zu können in der Hinsicht. Hier ist ein kleines Beispiel, was für Variablen wir so haben. Das ist jetzt hier ein Plot von meiner Kollegin Karoline Ferner. Sie befestigt sich mit Niederschlag oder mit Schnee im mikroskaligen Modell Mitras.
Und hier haben wir jetzt eine Variable, die nennt sich Amount Rain in the Past 24 Hours. Also es ist der Long Name dieser Variable. Und da das jetzt eine neue Variable ist und wir beschlossen haben aus unserem Projekt oder unserer Gruppe, dass wir solche, dass wir zum Beispiel diese Variable gerne standardisieren würden, hat es aber noch keinen Standard namen. Und wenn ich jetzt gucke, was es dann für so äquivalente Variablen gibt,
ich habe beispielsweise mal geschaffen, was Modell dafür Variablen verwendet, die mit Regen zu tun haben. Da gibt es, da haben sie zwei Variablen, die halt den Rain Rate oder Pickness of Rainfall Amount. Aber ich kann jetzt nicht sagen, ist es jetzt wirklich das gleiche oder äquivalent. Also dadurch wäre das eigentlich schon mal ganz sinnvoll, wenn man eben entsprechend solche Variablen auch hänseig damit auch andere Modelle dann eventuell als Beispiele,
man sowas dann ihre Modelle auch anpassen kann. Genau, dann so typische Eigenschaften, die wir in der mikroskaligen Modellierung haben, die halt noch nicht im Standard vorhanden sind, sind eben, dass wir Prozesse haben, die an Oberflächen, Wänden, Lächer stattfinden, also Wärmeflüsse, Strahlungsflüsse.
Wir haben die Gebäude, die halt eine ganz wesentliche Rolle spielen und eben auch Bäume, die auch einen Effekt haben auf Strahlung oder auf Flüsse, auf Windfelder. Also das sind so die Aspekte, die in der mikroskaligen Modellierung eben noch nicht standardisiert sind. Genau, was wir so bisher unternommen haben, ist, also im Grunde sind das hier drei Punkte, die ich gleich ein bisschen vorstellen werde.
Zu allererst habe ich eine Onlineumfrage in die Community herausgegeben, wo ich versucht habe zu erfahren, welche Modelle so genutzt werden und welche Eigenschaften diese Modelle so haben, um so einen Überblick darüber zu haben, was denn so genutzt wird und was wieder damit so gearbeitet wird. Dann habe ich sämtliche charakteristische Variablen gesammelt, die wir in der mikroskalischen und amerischen Modellierung verwenden.
Und dann habe ich auch angefangen, den Datenstandard, den wir bereits entwickelt haben, auf unsere Datensätze anzuwenden und dann das zu ermöglichen. Genau, hier habe ich jetzt eine kurze Übersicht über diese Umfrage.
Also wie gesagt, im Grunde habe ich diese Umfrage bestellt. Die ist auch mal noch aktiv, also wer möchte da bitte gerne teilnehmen? Also über den Link oder über den QR-Code könnt ihr entsprechend da teilnehmen. Und zu dieser Umfrage frage ich im Grunde ein bisschen was zu den Modellen ab, zu den Modellen ab, die ein bisschen Daten man benutzt hat und möchte ein bisschen sich Eigenschaften, die so haben, was man so weiß.
Auch welche Wiederoutput von diesen Modellen ausübe oder Input. Also im Grunde frage ich da so ein bisschen technisches ab, um zu schauen, was gibt es da für Gemeinsamkeiten, Unterschiede. Und als Ergebnisse habe ich solche unten links jetzt hier, das sind die Filterungen, die also alle drei Filterungsmethoden verwendet werden.
Im Gitter haben wir hauptsächlich oder fast ausschließlich AKWC und eben eine Mischung aus Non-Uniform oder Uniform-Grid, nachdem was die Modelle so können. Also wir haben auch eine ganze Menge an verschiedenen Input-Dateien. Da gab es ganz viele, ganz viele Beispiele wie nameless oder dass das ein Model-Output von einem Pre-Prozessor eingelesen wird.
Und dass im Output eben auch neben Netze, die auch eben ASCII-Dateien oder Binär-Dateien haben. Genau. Das sind so ein paar kleine Ergebnisse, die ich da rausgezogen habe. Genau. Und auch hier nochmal ein Teil der Umfrage, wo ich nochmal gefragt
habe, ob die Leute, die da einen Teil genommen haben, auch sich bewusst sind, dass es was wie Standards gibt und ob sich die Darsteller auch angewandt haben. Da sieht man zum Beispiel, dass ungefähr die Hälfte, also fünf Leute, es waren noch nicht so viele Leute, die die vollständig ausgefüllt haben. Deswegen sind das die wenigen Ergebnisse. Aber fünf Personen haben gesagt, sie haben, ihnen sind Konventionen bekannt, aber fünf nicht.
Und zwar haben keine Antwort gegeben, aber um die Anwendung dieser Konvention haben viele eben anscheinend keine Antwort gewusst oder beantwortet. Hier ist jetzt ein kleiner Ausschnitt davon zu der Variablenauflistung, die wir nicht erzählt haben. Wie gesagt, also ich habe da jetzt versucht zu identifizieren, welche Variablen wir in der Mikroskala haben und mir bereits überlegt,
welche Standardnahmen diese erhalten, also oder welche ich mir schenatisieren möchte. Und hier unten links habe ich diese Tabelle mit einem kleinen Beispiel. Also so zum Beispiel ist eine Variable, die heißt bei uns Total Density und im Standard heißt sie R-Density. Also die ist charakterisiert, die gibt es bereits. Und hier drunter habe ich drei weitere Variablen.
Die unterste ist die, die ich eben gezeigt habe. Und da drüber sind zwei, die sich dann mit Strahlung auf Gebäudebänden befassen. Und diese haben eben, wie gesagt, noch gar keinen Standardnamen. Aber hier hätte ich jetzt anhand des Longnames, das wäre jetzt ungefähr mein Vorschlag dafür, wie wir diesen Standardnamen dann gerne. Ja, das wäre im Grunde auch der Standardnamensvorschlag.
Genau, der Abmodat-Standard wurde auch veröffentlicht dieses Jahr. Also falls da jemand interessiert, da darf er gerne reinschauen. Der ist auch im Moment nicht linked und im Grunde habe ich dann das versucht dann anzuwenden, dass ich dann den Standard anwende. Und wenn ich das dann teste, also wir haben auch im Rahmen des Projektes einen Checker entwickelt, womit unsere Daten geprüft werden können, ob sie bereits dem stahlendemischen Abmodat-Standard und auch sehr konform sind.
Und hier habe ich jetzt ein Beispiel dafür, wie das aussehen kann. Links habe ich einen Datensatz verwendet, wo zum Beispiel die Variable Windspeed noch nicht standardisiert wurde. Da sagt mir auch der Checker unten links dann auch, dass es eben kein Standardname oder kein Longname gibt. Und wenn ich das rechts habe, habe ich das im Grunde ergänzt.
Dann habe ich jetzt einen Standardname Windspeed und als Longname den Horizontal Windspeed. Und da sagte mir auch der Checker, dass es dann kein Fehler mehr aufgetreten ist. Und genau, das ist so ein Teil, wo wir das dann prüfen können, und wo wir dann auch prüfen, ob dann soweit alles konform ist. Diesen Checker, der ist auch verfügbar, den können Sie da auch gerne ausprobieren.
Also unten links ist der Link zum Repositorium und dann suchen wir auch gerne noch Teste. Also falls Sie Interesse haben, das mal auszuprobieren, mehrere Daten, dann dürfen wir das gerne tun. Genau, und dann komme ich nochmal kurz zu der Zusammenfassung. Also was wir bereits gemacht haben, in einer numerischen Modellierung habe ich, wie gesagt,
typische Variablen gesammelt. Diese Damen haben schon überprüft, ob sie bereits einen CF-Standard gibt oder nicht. Und dann entsprechende Vivalente aufgeschrieben. Das Ganze dann dokumentiert. Aus der Umfrage habe ich herausgezogen, dass Netz-CDF als Datenformat bevorzugt wird. Und dass neuere Variablen dann auch als sinnvoll erachtet werden oder gewünscht sind.
Dass wir verschiedene In- und Output-Formate haben, die dann letztendlich auch dazu führen, dass die einfache Handhabung der Daten und auch erschweren kann, beziehungsweise dass zusätzliche Falls auch eben benötigt werden, die dann um so eine Nachmittelsbarkeit eben auch zu gewährleisten. Gerade was auf die Eingabe von Gebäudedaten. Genau, und was ich auch noch als Punkt gelesen hatte,
in der Umfrage war, dass auch der Umgang in verschiedenen Koordinatensystemen wohl schwierig sein muss. Also das ist auch ein Aspekt, den wir berücksichtigen müssen. Und zu der physikalischen Modellierung, da haben wir noch nicht so viel geschafft. Also die Diskussion ist im Grunde noch im Gang. Wir überlegen, ob wir auch deren Daten in ein neues Datenformat übertragen möchten,
oder ob es auch möglich ist, das Netz-CDF gut zu wandeln, zum Beispiel. Genau, und dann komme ich auch schon zu den nächsten Schritten. Also was wir jetzt als nächstes planen, ist, dass wir definitiv nochmal mit der Community diskutieren möchten über unsere Variablen, die wir bestimmt haben und definiert haben, ob diese da akzeptiert sind, beziehungsweise ob es weitere Ergänzungen gibt.
Und dann würden wir das gerne tatsächlich auch dann für den CF-Standard weiter vorstellen, dass diese dann auch eingeklickt werden können. Es wird definitiv auch weiter Testungs mit den Tests, mit den Tools, die wir in unserem Standard, die wir in unserem Projekt entwickelt haben, um dann den Standard auch zu testen, ob es auch so weit funktioniert.
Das wird auch noch gemacht. Also da bin ich auch gerade dabei, das so weit vorzubereiten. Und genau, das letzte Punkt im Grunde, dass wir noch jetzt auch demnächst anfangen werden, dann uns zu überlegen, wie die physikalischen Modell-Ergebnisse startet. Genau, und damit beende ich im Grunde meine Präsentation.
Weitere Informationen finden Sie dann noch unter unserer Website. Und ich bedanke mich für Ihre Aufmerksamkeit.