We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Datenmanagement in der Chemie - Was sind FAIRe Daten?

00:00

Formal Metadata

Title
Datenmanagement in der Chemie - Was sind FAIRe Daten?
Title of Series
Number of Parts
5
Author
License
CC Attribution - NonCommercial 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Keywords
Pascal (unit)BiochemistryPolymerisationKatalyseNuclear magnetic resonanceNoodlePolymilchsäurePatentMoleculeEnzymkinetikComputer animation
Transcript: German(auto-generated)
Guten Tag, sehr geehrte Damen und Herren. In diesem Video geht es um FAIRE Daten. Was ist FAIRE überhaupt? FAIRE ist ein Akronym und die sogenannten FAIRE-Prinzipien wurden 2016 publiziert von mehr als 50 Co-Autoren. Sie sehen hier rechts den Screenshot des
Journals scientific data und FAIRE steht also für findable, accessible, interoperable und reusable und das sind wirklich die grundlegenden Prinzipien des Forschungsdatmanagements, die bis heute dieses Feld sehr prägen. Findable heißt auffindbar. Die Daten müssen also von Mensch und Maschinen auffindbar sein. Dazu brauchen sie Metadaten, die sie maschinenlesbar machen
und den Kontext für die Forschungsdaten liefern. Dann kann man es zum Beispiel beim Sci-Finder, den Sie bestimmt schon kennen, wiederfinden. Die Zitation erfolgt dann mindestens eines persistenten Identifikators, auf Englisch auch persistent identifier, also eines PIDs und der
häufigste PID ist der sogenannte DOI, also der Digital Object Identifier. Das heißt, bei jeder Publikation heutzutage haben Sie nicht nur Seitenzahlen und Bandnummer und Jahrgang, sondern Sie haben eben diese etwas längliche Zahl, die Ihnen angibt, wie Sie ein Journal oder ein Journalartikel konkret wiederfinden. So können Sie auch Daten in ein Repositorium legen und dort
haben die Daten dann auch eine DOI-Nummer oder zumindest eine PID-Nummer. Wenn wir weiter gehen, wo finden wir die Daten? Es gibt kostenfreie Repositorien, zum Beispiel das Kimotion-Repositorium. Hier sehen Sie einen Screenshot davon. Auch hier hat ein Molekül oder zum Beispiel auch seine
Synthese und Analytikdaten wieder eine DOI-Nummer, über die man es eindeutig wiederfinden kann. Es gibt aber auch sehr viele Repositorien, die sind nicht kostenfrei. Zum Beispiel gibt es die Cambridge Crystallographic Database oder das Data Center, das eben kostenpflichtig ist. Das heißt, alle Universitäten oder zumindest alle deutschen Universitäten haben dort eine Lizenz und wenn Sie
jetzt crystallografische Daten publizieren wollen, dann hinterlegen Sie die Daten dort. Das Hinterlegen ist kostenlos, aber wenn dann jemand diese Daten herunterziehen möchte, dann ist in der Publikation, zum Beispiel für unsere Kupferkomplexe, eine solche CCDC-Nummer hinterlegt und anhand dieser Nummer können Sie die crystallografischen Daten dann herunterladen, passend zur Publikation. Dazu
brauchen Sie die Lizenz. Findable heißt eben, es ist auffindbar und das ist damit erfolgt. Damit bietet sich aber auch schon der Übergang zu Accessible. Wir brauchen standardisierte Kommunikationsprotokolle. Wie sind die Daten zugänglich? Zum Beispiel ist das eben gewährleistet durch kuratierte Repositorien, also gepflegte Repositorien und auch die
Nachnutzungsbedingungen müssen klar sein, wer darf mit diesen Daten etwas machen. Wenn Sie jetzt an kommerzielle Anwendungen im Vergleich zur akademischen Anwendung denken, ist das sehr wichtig und das muss aber nicht unbedingt heißen, dass es kostenfrei ist. Das, wie ich ja schon auf der vorhergehenden Folie erläutert habe, Kermotion ist komplett kostenlos. Es gibt aber auch
Repositorien, für die wir eben Lizenzen zahlen müssen, aber da ist es ganz klar, wer die Lizenz hat und sich eingeloggt hat, hat dann eben den Zugang. Damit ist es Accessible. Das heißt also, faire Daten sind nicht unbedingt Open Data oder offene Daten. Natürlich sind offene Daten im Zeitalter von Open Science wünschenswert, ist aber in vielen Bereichen aus Datenschutzgründen nicht
immer ganz erfüllbar oder gerade auch in der Kooperation zwischen akademischen Bereichen und Firmen, wo vielleicht Patente noch entstehen sollen, ist es ein wenig komplizierter. Aber auf die Art ist klar geregelt, wie man an die Daten herankommt. Der nächste Schritt betrifft
Interoperabilität, heißt, dass die Daten von Maschinen und Menschen lesbar sein sollen, aber dazu brauchen sie passende Datenformate. Also im Prinzip ist es so, es gibt PDFs, ja das kann man lesen, aber ein PDF ist so ähnlich wie ein Bild von Daten, das sind nicht die Rohdaten. Das heißt, besser ist es, man hat zum Beispiel TXT-Files oder CSV-Files oder OJCAM-Files und im
Grunde geht es da schon in den nächsten Schritt. Wir brauchen langlebige und etablierte Datenformate. Also in meinem Labor haben wir mehrere UVWIS-Geräte, ich nenne jetzt nicht den Namen der Firma, aber die schreiben Punkt BSK-Files und diese Files können sie nur öffnen und lesen, wenn sie die Software dieser Firma haben oder ein Gerät dieser Firma. Das ist natürlich ein Problem in zehn
Jahren, wenn diese Firma vielleicht pleite ist oder wenn die Geräte nicht mehr laufen oder wenn es eine neue Softwareversion gibt. Das heißt, da ist es sinnvoller, wenn diese Geräte direkt ihre Daten konvertieren, zum Beispiel in CSVs, weil CSVs werden wir auch noch in zehn oder zwanzig Jahren lesen und konvertieren können, um sie dann als Spektren in anderen Programmen anschauen zu
können. Das heißt also, die Interoperabilität ermöglicht den automatisierten oder auch teilautomatisierten Datenaustausch und auch die Dateninterpretation mit anderen Verarbeitungsprogrammen am Ende. Damit können dann auch Datensätze verknüpft werden, auch das ist
wichtig, wenn wir zum Beispiel daran denken, dass wir jetzt bei einem Molekül viele Charakterisierungsmethoden nutzen. Das heißt, ein Molekül wird einmal charakterisiert mit NMR-Spektren, mit UV-Spektren, mit IER-Spektren und diese ganzen Datensätze können dann in Repositorien auch miteinander verknüpft werden und auch interoperabel verfügbar sein. Im nächsten Schritt geht es ja auch
darum, dass die Daten nach nutzbar sind oder auch wiederverwendbar sind. Dazu ist es wichtig, dass sie genug Metadaten haben, das dokumentiert wurde, wie sind die Daten erstellt worden, bei welcher Temperatur wurden NMR-Spektren zum Beispiel gemessen. Zum Thema Metadaten schauen Sie bitte auf das Video mit den Metadaten später noch an. Da gibt es natürlich auch eigene Community-Standards
von den verschiedenen Disziplinen. Also ein NMR-Spektroskopiker hat andere vollständige Beschreibungen als jemand, der IER- oder Rahmenspektroskopiker ist. Da entwickelt also jede Methode innerhalb ihrer Subdisziplin, innerhalb der Chemie, ihrer eigenen fachgebietrelevanten Standards, die eben die Wiederverwendbarkeit der Daten dann gewährleistet. Auch da ist es wieder
wichtig, dass die Daten zitiert werden können, zum Beispiel mittels einer DOI und dass auch die Nachnutzungsbedingungen klar sind. Es gibt zum Beispiel verschiedene Lizenzen, dass das Ganze nicht kommerziell wieder genutzt werden kann oder dass die Daten tatsächlich komplett frei genutzt werden können, auch wieder kommerziell. Da gibt es viele verschiedene Lizenzmodelle und auch das
muss dann ganz klar und transparent sein. Um das nicht ganz so trocken wirken zu lassen, habe ich ein Beispiel mitgebracht aus unserer jüngeren Publikationsvergangenheit, zum Beispiel eine Publikation zum Thema der Biokunststoffherstellung, also die Herstellung von Polylactid und auch dem Recycling von Polylactid. Das ist ein Artikel, der ist im ChemSAS Chem erschienen, eine Zeitschrift
im Weile-Verlag unter Open Access-Bedingungen und jetzt ist es so in dieser Publikation, wenn Sie reinschauen würden, würden Sie Kinetiken finden, würden Sie ganz viele Bilder finden, aber das sind ja nur die Bilder von Daten, das sind ja nicht die Daten selbst. Und die Verlage machen
das heutzutage so, dass sie weiter unten ein sogenanntes Data Availability Statement zeigen. Da kann man dann notieren, welche Daten man wo publiziert hat oder wo man sie veröffentlicht hat. Das heißt, zusätzlich zu der eigentlichen Textpublikation gibt es dann eben eine Datenpublikation und dann gibt es hier zum Beispiel zwei Links. Diese Links verweisen auf die abgelegten Daten im
Repositorium Radar4Chem. Radar4Chem ist ein Repositorium, das ist komplett kostenfrei für Nutzende an deutschen Institutionen. Das heißt, wir können unsere Daten dort kostenfrei ablegen und andere können die Daten dort auch kostenfrei downloaden. Wie sieht das dann aus? Das sieht dann
so aus, dass man ein Datenpaket sieht und hier sind auch die Metadaten wieder zum Paper. Das heißt, das Paper verlinkt auf die Daten und die Daten verlinken zurück zum Paper, über die Metadaten geht das heutzutage. Dann sieht man die ganzen Autoren, man kann auch sehen, dass dieses Datenpaket 50 Megabyte hat. Das ist schon 280 mal angeschaut wurde als Beispiel. Und wie sieht das aus?
Da geht es zum Beispiel um Kinetikdaten. Das sehen wir auf dieser Folie. Das heißt, zum Komplex, das ist ein Tetramethylguanidin-Komplex mit Zinkchlorid, mit verschiedenen Mengen an Laktid wurden Polyvisationen durchgeführt. Das sind alles schön abgespeicherte Ordner und wenn man in diese Ordner hineingeht, könnte man sich tatsächlich die einzelnen Kinetiken herunterladen, könnte man
sich die Daten anschauen und das ist einmal gespeichert als ein SPC-File, was nicht unbedingt jeder lesen kann, aber noch mal konvertiert in das sogenannte J-Camp-Format und J-Camp ist ein offenes, freies Datenformat. Das heißt, das kann man mit jedem landläufigen Programm dann anschauen. Das heißt, in diesem Fall sind die Daten tatsächlich auffindbar, sie sind zugänglich,
in diesem Sinne sogar von Open Science, weil sowohl die Daten aus der Publikation sind Open Access publiziert, sie sind interoperable durch die Verwendung des J-Camp und durch die Lizenzen, die wir gewählt haben, sind sie auf jeden Fall wiederverwendbar. Das heißt, sie haben in diesem Video gelernt, für was das Akronym FAIR steht, also Findable, Accessible, Interoperable, Reusable
und wie wir solche Daten auch abspeichern können. Vielen Dank.