We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Datenmanagement in der Chemie - Grundlagen

00:00

Formale Metadaten

Titel
Datenmanagement in der Chemie - Grundlagen
Serientitel
Anzahl der Teile
5
Autor
Lizenz
CC-Namensnennung - keine kommerzielle Nutzung 4.0 International:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Schlagwörter
ChemieNMR-SpektroskopieMP-StörungstheorieKünstliche AusleseOrganische ChemieKatalyseWerkstoffforschungLebensdauerAnorganische ChemieChemieLebensdauerMetallMolekülOrganische ChemieKoordinationslehreAtomabstandMastzelleEisenkomplexeUV-SpektrometerKünstliche AusleseGraphenComputeranimation
Transkript: Deutsch(automatisch erzeugt)
Guten Tag, sehr geehrte Damen. Herzlich willkommen zum Videokurs Datenmanagement in der Chemie. Dieser Kurs besteht aus fünf Videos. Erstes Video, was sind Forschungsdaten in der Chemie? Was ist überhaupt Forschungsdatenmanagement? Warum ist Forschungsdatenmanagement für uns alle wichtig? Und was ist der Datenlebenszyklus? Im zweiten Video werden Sie lernen, was sind
faire Daten? Im dritten Video, was ist ein Datenmanagementplan? Im vierten Video, die Grundlagen der Metadaten kennenlernen und im fünften Video sehr chemisch spezifisch Inchie und Smals als strukturelle Repräsentatoren kennenlernen. Was sind Forschungsdaten in der Chemie? Das ist definiert. Forschungsdaten sind auch digitale Daten, die während wissenschaftlicher
Tätigkeit, zum Beispiel durch Messungen, Befragungen, Quellenarbeit entstehen. Sie bilden die Grundlage wissenschaftlicher Arbeit und dokumentieren ihre Ergebnisse. Was heißt das genau? Alle unsere synthetischen Daten, sprich Eintragungen in das Laborbuch, was wir genau synthetisch tun, was wir beobachten während einer Reaktion. Die Details, eine Reaktion erhitzt sich,
all das sind Forschungsdaten. Natürlich auch die analytischen Daten, dass wir eine Mehrspektrumal Substanz aufnehmen, HPLC-Daten haben, IRMS-Daten, vielleicht auch Kristallstrukturdaten. Auch das sind natürlich Forschungsdaten. Und wenn wir dazu theoretische Rechnungen durchführen, zum Beispiel Molekünorbitale berechnen, Energien, ganze Mechanismen berechnen, mit den verschiedensten
Methoden, all das sind Forschungsdaten. Was genau ist Forschungsdatenmanagement? Forschungsdatenmanagement umfasst den Prozess der Transformation, Selektion und Speicherung von Forschungsdaten. Was heißt das genau? Nun, nicht alle Daten, die wir messen, wollen wir auch unbedingt aufheben, weil vielleicht
mal das UV-Spektrometer kaputt geht, mittendrin die Lampe durchbrennt. Das sind UV-Daten, die möchte man nicht verwahren. Dann kann es auch sein, dass die Rohdaten in einem Datenformat von der Maschine produziert werden, die nie jemand mehr messen kann oder die nie jemand mehr verstehen kann,
der nicht genau dieselbe Anlage hat, mit genau derselben Software. Das sind sogenannte proprietary Datenformate, die man erst konvertieren muss. Da ist es also viel sinnvoller, ein CSV oder TXT auf zu bewahren als irgendein ganz kompisiertes proprietary Datenformat. Das heißt, das Ziel ist, dass die Daten langfristig und unabhängig vom Datenerzeuger zugänglich nachnutzbar und
nachprüfbar sein sollen. Nachnutzbar heißt wirklich für kommende Generationen. Dazu hat die RWTH University eine Forschungsdatenmanagement-Leitlinie aufgesetzt und zwar schon im Jahre 2016. Das heißt also, jeder eigenverantwortlich Forschende ist für sein eigenes Forschungsdaten
Management selbst verantwortlich. Das heißt, er muss natürlich die Regeln guter wissenschaftlicher Praxis einhalten, die Fachstandards sicherstellen und alle an einem Forschungsprojekt mitarbeitenden Personen sind verantwortlich für die Korrektheit der von ihnen erwogenen Daten und für die Einhaltung der getroffenen Regelungen. Warum ist FDM überhaupt wichtig? Jetzt für uns persönlich. Natürlich
möchte jeder von uns seine Daten schnell auffinden. Das geht natürlich gut, wenn man sie ordentlich strukturiert. Dann möchten wir Daten auch archivieren, das heißt Datenverlust vorbeugen. Wir möchten unsere Forschungsergebnisse nachvollziehen und auch fremde Forschungsergebnisse. Sprich, wenn sie zum Beispiel ihrer Bachelorarbeit sind, möchte ihr Betreuer auch noch ein Jahr später
ihre Forschungsergebnisse nachvollziehen können. Wenn die irgendwie in einem Laborjournal nur gekrackelt sind, ist das natürlich problematisch. Langfristig ist es auch gut, die Daten am Ende weitergeben zu können und nachnutzen zu können, weil man zum Beispiel auf einer Liganensynthese weitere Komplexsynthesen aufbaut oder auch Derivatsynthesen. Das heißt also, für die Generierung von langfristigem Wissen ist das vernünftige Dokumentieren und Organisieren von
Daten essentiell. Es vereinfacht aber natürlich auch die Zusammenarbeit. Also in unserer Forschung zum Beispiel arbeiten wir viel mit Ingenieuren und Physikern zusammen und auch hier ist es wichtig, Daten vernünftig zu sortieren, zu formatieren, dass andere Arbeitsgruppen auch damit arbeiten können. Wichtig ist es langfristig auch, Daten zu referenzieren. Das heißt zum Beispiel persistente
Identifikatoren zu verwenden. Das wären zum Beispiel so Dinge wie Deu-Nummern. Das kennen Sie schon von Publikationen, womit man Publikationen eindeutig auffinden kann und so genau kann man auch mittlerweile Datenpublikationen aufsetzen und auf die Art wiederfinden. Wichtig ist es natürlich dann auch, Vorgaben in Forschungsdaten-Policies gemeinsam mit Universitäten
zu erarbeiten, auch mit Drittmittelgebern, zum Beispiel der Deutschen Forschungsgemeinschaft, um das auch selbst für seine eigene Forschung umzusetzen. Ganz konkret, sie werden ihre Bachelorarbeit im Jahre 2021 angehen und ihr Betreuer wird ihre Daten mit ihnen besprechen, wird sie verarbeiten und möchte vielleicht zwei Jahre später daraus eine Veröffentlichung
schreiben und dann ist es natürlich wichtig, dass er ihre NMR-Daten nachvollziehen kann, dass er sie überhaupt findet. Dann wird er vielleicht feststellen, der Legand war doch nicht ganz so sauber oder er wird feststellen, das war ganz eigenheitlich benannt, ich bin mir gar nicht mehr sicher, ist das der Legand oder ein anderer. Das heißt also aus diesem Grund ist die Nachvollziehbarkeit der Daten wichtig. Für sie persönlich ist es aber auch wichtig,
weil sie nämlich bei der Nachnutzbarkeit der Daten feststellen, dass sie vielleicht bei der Bachelorarbeit an einem Thema arbeiten, zum Beispiel untersuchen sie die Aktivität von Paralympokatalysatoren in der Suzuki-Kreuzkuppel und zwei Jahre später beim Master im selben Arbeitskreis kümmern sie sich dann um die Selektivität in der Suzuki-Kreuzkuppel. Das
heißt also, sie selber müssen am Ende überlegen, wie kommen sie durch ihre Daten durch und wenn sie das im Bachelor und Master vernünftig lernen, ist das für sie sehr, sehr wertvoll, auch ganz später in der Doktorarbeit, weil da müssen sie ihre Daten selbst organisieren, wenn der Chef sie nicht langfristig zuzwingt und auch dann ist es wichtig, dass man durch seine eigenen Daten durchsteigt. Forschungsdatenmanagement ist aber nicht nur wichtig,
um seine eigenen Daten zu verstehen und zu verarbeiten, sondern auch langfristig, zum Beispiel gibt es einen ganz spannenden Forschungsfaktor, der nennt sich Maschinelles Lernen oder auch Machine Learning. In der organischen Chemie klappt das schon recht gut, wenn man jetzt zum Beispiel sagt, wir beobachten einfache Reaktionen, zum Beispiel wird aus
Benzoesor, Benzoesor, Chlorid, dann ist das ja alles relativ gut. Auch, dass man retrosynthetische Ansätze komplett über Machine Learning durchführt, das heißt also, dass zum Beispiel solche Moleküle, Reaktanten tatsächlich umgesetzt werden als zugeordnete Graphen und die Konnektivität zwischen diesen Molekülen werden dann durch Maschinelles Lernen beschrieben und die
Kombination der verschiedenen Moleküle werden auch optimiert, sodass also die Retrosynthese, die eigentlich eine Art Kunst ist, welche Reaktion kombiniere ich wie, um am Ende zu einem gewünschten Produkt zu kommen, dass das tatsächlich vom Computer vorhersagbar ist. Ganz spannendes Feld, gibt es einige Arbeitsgruppen, die in diesem Bereich schon arbeiten, aber natürlich ist es
wichtig, hier auch genug der Daten haben zum Training und zur Validierung, das heißt, genug Moleküle müssen maschinenlesbar da sein, ihre Analytikdaten müssen maschinenlesbar da sein und das heißt also, valide Forschungsdaten sind extrem wichtig, um auch die Vorhersagequalität für die Zukunft zu verbessern. Das geht auch in der anorganischen Chemie, aber noch hier in etwas
beschränktem Rahmen. In der anorganischen Chemie gibt es ja sehr viele Spin-Phänomene, sie haben bestimmt ja schon High-Spin und Low-Spin in der Vorlesung zur Koordinationschemie gehört, da versucht man jetzt auch gerade mit maschinellem Lernen High-Spin und Low-Spin in Eisenkomplexen
zum Beispiel vorherzusagen, es gibt ganz spannende Arbeiten und normalerweise macht man das über DHT-Rechnungen und das aber sehr zeitaufwendig und auch sehr viele Rechenressourcen sind notwendig. Und auch hier versucht man, die Bindungslängen zwischen den Leganten und dem Metall zu korrelieren mit dem Spin-Zustand und auch hier kann das Machine Learning am Ende helfen. Heißt,
es gibt jetzt schon wirklich aktuelle Arbeiten, die zu mehr als 90 Prozent das korrekt vorhersagen. Das ist schon eine recht gute Quote. Natürlich noch nicht perfekt, aber schon ein sehr guter Weg, um dahin zu kommen. Auch hier ist es wichtig, valide Forschungsdaten zu haben, die natürlich frei zugänglich sind, damit solche Vorhersageprogramme ihre eigene Qualität überprüfen können und daran ihre Systeme und Algorithmen trainieren können. Wieder zurück zu uns. Was ist
ein Daten-Lebenszyklus? Darüber haben wir noch nicht gesprochen. Im Grunde ist es so, wir haben ja ein Forschungs- oder wir befinden uns ja meistens in einem Forschungsprojekt und die Lebensdauer von Daten ist natürlich ein wichtiger Punkt, weil die Lebensdauer von Daten sollte größer sein als das Forschungsprojekt. Ihre Maßarbeit ist ein halbes Jahr, die Bachelorarbeit
ist drei Monate, eine Doktorarbeit ist drei Jahre, aber die Daten sollten deutlich länger leben. Laut DFG-Regeln, mindestens zehn Jahre müssen wir sie aufbewahren. Das heißt, wir müssen zuerst uns damit befassen, wie planen wir eigentlich die Daten-Generierung. Dann werden die Daten erhoben.
Das hört sich jetzt sehr theoretisch an, aber im Prinzip gehen wir ins Labor, synthetisieren unsere Substanzen, charakterisieren die Substanzen, annotieren das Ganze mit Metadaten. Was das ist, sehen Sie in späteren Videos, machen vielleicht noch theoretische Berechnungen dazu. Dann wird das Ganze später analysiert. Auch hier kommt es dann zu dem Punkt, was wird archiviert. Das heißt,
hier in diesem Bereich müssen wir selektieren, welche Daten heben wir auf und in welchem Datenformat. Wenn die Daten nun analysiert und archiviert sind, dann werden sie irgendwann veröffentlicht, zum Beispiel als Datenpublikation oder in einer Supporting Information. Im nächsten Schritt werden sie vielleicht nachgenutzt. Das heißt, andere Arbeitskreise nutzen unsere NMRs, um ihre eigenen
NMRs zu verstehen. Oder andere Leute bauen auf unseren Daten auf und dann beginnt der Datenlebenszyklus von vorne. Das heißt, bei dieser Nachnutzung wird es nun mal wichtig, dass unsere Daten fair sind. Auch dazu gibt es noch ein Video. Was wir also heute in diesem kurzen Video gelernt haben, war, was sind Forschungsdaten generell? Was ist FDM? Warum
ist das wichtig? Langfristig würde FDM dann mit dem Machine Learning sehr eng zusammenarbeiten können. Was ist überhaupt ein Datenlebenszyklus? Vielen Dank für Ihre Aufmerksamkeit.