PANGAEA
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Anzahl der Teile | 6 | |
Autor | ||
Lizenz | CC-Namensnennung 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. | |
Identifikatoren | 10.5446/43592 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | ||
Genre | ||
Abstract |
|
00:00
NeWSUniformer RaumTyp <Informatik>SLIP <Programmiersprache>Vorlesung/KonferenzBesprechung/InterviewComputeranimation
00:10
TermMiddlewareIndexDigital Object IdentifierProgramminspektionACCESS <Programm>PDF <Dateiformat>HauptidealringContent <Internet>ZahlMatrix <Mathematik>Relationale DatenbankWort <Informatik>Array <Informatik>DateiServerVollständigkeitValiditätExpertensystemDatentypReiheDatenmodellMiddlewareMetadatenÜbertragNetzwerkbetriebssystemSystems <München>HöheTermRang <Mathematik>Computeranimation
06:01
WhiteboardBlu-Ray-DiscPerspektiveTOMSystemplattformAnwendungssoftwareARCHIVE <Programm>PersonalinformationssystemSystementwicklungSoftwareentwicklerSchätzfunktionRAMLaufzeitsystemSystems <München>EnergieWORKS SuiteComputeranimation
11:51
ComputeranimationVorlesung/KonferenzBesprechung/Interview
Transkript: Deutsch(automatisch erzeugt)
00:00
Ich bringe sozusagen das, was ich jetzt hier so erzähle, am Beispiel von Pangea. Aber ich bin da so lange Jahre, bin ich also auch Co-Chair gewesen, also vom XU World Data System da. Und als solcher kenne ich also auch sehr, sehr viele andere Einrichtungen, die also ähnlich aufgestellt sind da. Und von daher kann man also vieles, was ich hier jetzt erzähle, auch mühelos auf andere Datenzentren übertragen.
00:26
Ja, was ist Pangea? Also uns gibt es eben, wie gesagt, also schon einen guten Vierteljahrhundert. Wir sind akkreditiert als World Radiation Monitoring Center von der World Meteorological Organization und aber auch als XU World Data System schon sehr, sehr lange.
00:46
Unsere technische Infrastruktur, vielleicht so als kleine Übersicht hier. Wir haben angefangen, also mit so einer klassischen Dreibeinarchitektur in den frühen 90er Jahren schon und hatten schon vorgesehen, dass wir also oben weg immer so ein Editorial System haben zum Ingest von Daten.
01:09
Das Ganze liegt näher, oh, ist jetzt nicht mehr da. Deswegen kann ich das sagen. Die Daten sind also alle relational gespeichert. Das ist also jetzt nicht nur klassisch und alt oder so, sondern man kann sagen, weltweit ist das fast überall so der Fall noch.
01:27
Und die Mittelwehr hier darüber, die erlaubt es hier dann auch, ein Datenmodell zu realisieren, was also voll normalisiert ist. Damit sind wir also sehr, sehr flexibel und können uns also mühelos an alle möglichen Wissenschaftsdisziplinen anpassen.
01:44
Also alles andere ist dann später gekommen, also insbesondere so auch dieses Ticket-System, was wir heute nicht mehr vermissen. Ja, vom Inhalt her, wir sehen uns als integralen Bestandteil der Forschung.
02:00
Wir haben seit den Ende der 90er Jahren, haben wir also mehr als 240 richtig große Projekte auch mit begleitet. Das heißt, wir als Infrastruktureinrichtung, wir sitzen nicht da und warten jetzt, bis da irgendwas kommt, sondern wir sind in vielen Fällen, sind wir also aktiver Bestandteil der Forschung.
02:20
So haben wir original auch angefangen. Das heißt, man saß teilweise mit diesen Leuten auch zusammen. Das heißt, Pangia ist aus der Forschung entstanden und wir haben in den Arbeitsgruppen gesessen und mit den Leuten geredet, was braucht ihr, wie soll das aussehen und so weiter. Davon sind wir ein Stück weit weg, also das ist der Größe geschuldet.
02:41
Auch von unseren Großinstitutionen haben wir uns also ein Stück weit entfernt oder wie man immer das nennt. Aber anders wäre so ein Betrieb also auch nicht mehr aufrecht zu erhalten. Wir sind also sehr, sehr heterogen aufgestellt, multidisziplinär. Wir haben sehr, sehr viele Daten, also wenn man 15 Milliarden Datenpunkte, also irgendwelche Items, Observationen,
03:06
habe ich kurz überlegt, wenn man das als RDF irgendwie da transformieren würde. Ich glaube, man hätte so seine Probleme damit. Okay, der Zuwachs ist also für etwa fünf Prozent pro Jahr.
03:23
Das bedeutet also, wir haben also einen echt regen Betrieb hier und müssen schauen, dass wir also auch mit unseren Ressourcen haushalten. Und es gibt mittlerweile richtig Engpässe in dem Editorial. Das heißt also, die Kuratoren, die da sind, reichen bei weitem noch nicht aus.
03:46
Das ist also unser Workflow, also von der Submission, Editorial, Archiving und Publication. Wir folgen den OECD-Principles, natürlich Lizenzen, Qualität, Harmonisierung, Effizienz. Das ist für uns also mehr oder weniger das wichtigste Kriterium.
04:02
Das heißt, das alles, was angelandet wird, das transformieren wir so, dass es also in unsere Relationale Datenbank hineinpasst. Das nennen wir mal, das ist dann auch Fitness for use und das kennen Sie schon. Das sind die üblichen Logos. Was machen wir eigentlich jetzt, während wir die Daten also bearbeiten?
04:23
Wir gucken, dass also die Metadaten, dass hier so komplett sind, dass hier so auch korrekt sind. Das ist die Situation, das ist die Contentbeschreibung, die Coverage, das haben wir alles gehört. Die Provenance wird immer wichtiger, die Terms of Usage natürlich. Das ist ein Identifier, Metadaten adäquat der wissenschaftlichen Domäne.
04:45
Das ist also auch etwas, wofür wir Domain-Experts brauchen. Das heißt, es sind Leute, die bei uns arbeiten als Kuratoren, sind in der Regel PhDs, also aus den jeweiligen Feldern. Bei der Datenvollständigkeit und Korrektheit wird es schon etwas schwieriger.
05:02
Da kann man sagen, bei der Completeness, okay, also wenigstens die Beschreibung sollte übereinstimmen mit dem, was also der Inhalt der Daten ist. Daneben können wir natürlich auch Datentypen überprüfen, ob eine Zahl wirklich eine Zahl ist. Das ist also einfach. Die Range of Values, das heißt, ob man tatsächlich
05:23
die richtige Methode hier verwendet hat. Stefan Frikenhaus hatte schon gesagt, die Validität von bestimmten Methoden, ob die Precision tatsächlich dem angemessen ist, was man da sieht. Das muss man überprüfen und so weiter. Hier nochmal kurz, was wir da machen.
05:42
Die Files, die angelandet werden, werden transformiert. Es wird entsprechend in Pakete verpackt. Man passt die Meta-Informationen entsprechend an und korrigiert. Auch genau so dasselbe mit den Datenmatrizen. Also ich würde mal sagen, so 98% oder so von allen Daten,
06:02
die über uns angelandet sind, sind Excel-Dateien. Irgendwas, irgendwie so. Und dann werden diese Daten dann importiert und dann gibt es noch so ein Proofread, möglichst eben auch unter Einbeziehung der PIs. So, Data Literacy. Jetzt bin ich am Thema etwa angekommen.
06:21
Das war der Hintergrund. Das ist für uns im Prinzip so eine Art Prozess. Zwischen dem, was bei uns angelandet wird, das umfasst auch die Interaktion mit den Forschenden und dem Data Editorial bzw. dem Projektdatenmanagement
06:41
oder dem Data Management Planning. Das wiederum hat also Auswirkungen auf die Systementwicklung. Das heißt also, in diesem Gefüge entwickelt sich das Gesamtsystem. Das heißt, wir geben das auch weiter an diejenigen, die uns und ihre Daten geben.
07:01
Das heißt also, wir versuchen auch hier in irgendeiner Weise auch didaktisch zu wirken und zu sagen, macht es doch besser so oder so oder das ist nicht korrekt. Die Unit stimmt nicht und so weiter. Ihr müsst in eurer Community gucken. Das machen wir alles. Aber intern läuft eigentlich das meiste ab. Also zwischen denjenigen, die das Editorial betreiben
07:25
und der Technik, da gibt es also eine enge Verknüpfung. Jeder neue Kurator bekommt ein Training, das also erst mal so initial eine Woche ist. Unsere Einschätzung ist, selbst wenn jemand einen PhD hat, alle, die wir bislang auf dem Job bekommen haben,
07:43
die brauchen etwa ein Jahr, bis die da angekommen sind und sagen können, okay, ich habe es im Griff. Ich kann das machen. Das ist nur so eine Vorstellung davon, wo eigentlich hier wir die Lücken haben. Das heißt also, man kann nicht einfach davon ausgehen, dass die Leute das von Anfang an beherrschen.
08:03
Wir haben regelmäßig Meetings. Das heißt, weil sich ständig alles entwickelt. Das ist wirklich ein Moving Target. Es kommen auch immer wieder neue Themen ran. Und wir müssen immer wieder alles neu diskutieren und auf den Tisch setzen. Okay, können wir das noch so machen? Müssen wir da zulegen? Prinzipiell hängt von Jahr zu Jahr
08:22
die Latte immer ein Stückchen höher. Also wir haben teilweise sehr primitiv angefangen da. Zum Beispiel haben wir damals als Autoren Namen erfasst. Heute haben die Leute im Vornamen, im Nachnamen nur Orket und dies und jenes und sind natürlich relational verknüpft.
08:41
Das sind alles so Entwicklungen über die Zeit. Das heißt, wir haben allgemeine Meetings, also alle sechs Wochen, wo sich die Technik auch mit den Kuratoren, also alle, die beteiligt sind, treffen und austauschen. Und wir haben auch noch ein Editorial Board, wo speziellere Themen, die nur das Editorial betreffen,
09:00
also diskutiert werden. Im Ticketsystem wird jeder Vorgang, egal ob Technik oder Editorial, festgehalten und wird konsortial abgearbeitet, bis man an den Punkt angekommen ist, okay, das so soll es sein. Alles, was wir letztendlich als Workflow
09:21
oder als Wissen für die Kuration, aber auch für die Technik erarbeitet haben, wird in einer Knowledge Base zusammengefasst. Das ist unser interner Wiki, den wir auch noch außen stellen. Teile davon werden auch für die Zertifizierung nachher benutzt. Letzte Folie. Ausblick also auf NFDI.
09:42
So, wie werden wir das in Zukunft, wie werden wir arbeiten? Ich will jetzt nicht durch alle diese bunten Bildchen hier wiedergehen. Hier unten sind unsere Datenzentren. Eins davon ist also irgendwie Pangea. Was wir zunehmend sehen, das ist, dass wir vermutlich von irgendwelchen Applikationen her
10:02
Data Submissions bekommen. Ich schätze, das ist hier der Entwurf aus der NFDI for Biodiversity, dass wir solche Cloud-basierten Research Data Commons oder einen vielleicht auch in der NFDI schaffen, mit einer Applikationsschicht obendrauf,
10:22
die auch unter Umständen verschiedene Cloud-Systeme verbinden kann. Und hier oben eben, wo diese kollaborativen Workspaces sind, wo man Toolboxen hat, wo man Tools also deployen kann. Wir haben jetzt viel über Jupiter gehört und so weiter. Diese Sachen, die werden massiv zunehmen.
10:42
Das heißt, hier aus solchen virtuellen Plattformen heraus werden viel der Daten angelandet werden, die dann letztendlich in den Archiven landen und publiziert werden. Und dann natürlich im Feedback wieder in solchen Cloud-basierten System landen sollten.
11:00
Und dafür müssen wir uns präparieren. Das hat ja die Frau Lasser sehr schön gesagt. Wir erwarten schon die Schwämme von den Jupyter Notebooks. Und wir haben seit zwei Jahren die ersten Applikationen auch
11:21
in diesem Bereich. Das heißt, man kann dann solche Sachen, die kann man auch direkt archivieren und publizieren. Das ist also der Trend. Dazu muss man wissen, wie man damit umgeht und was die Besonderheiten sind. Es gibt auch andere Umgebungen, die man dann berücksichtigen muss. Vor allen Dingen mal so was, was das Monitoring angeht,
11:40
wo solche Sachen über Sensorik, die ständig betrieben wird, angelandet wird. Da brauchen wir spezielle Workflows, um solche Sachen dann aufzufangen. Ja, das war es von meiner Seite. Links haben Sie schon gelesen, nehme ich an.