We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Künstliche Intelligenz & Data Literacy

00:00

Formal Metadata

Title
Künstliche Intelligenz & Data Literacy
Title of Series
Number of Parts
6
Author
License
CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Data Literacy ist die Fähigkeit, Daten auf kritische Art und Weise zu sammeln, zu managen, zu bewerten und anzuwenden. Zu Data Literacy gehören eine ganze Reihe von Einzelkompetenzen – vom Schaffen des grundlegenden Bewusstseins bis hin zu ethischen und rechtlichen Fragestellungen. Data Literacy ist eine zentrale Kompetenz für die Digitalisierung und die globale Wissensgesellschaft in allen Sektoren und Disziplinen. Angesichts der zunehmenden Menge und der Verfügbarkeit von Daten stellt sich die Herausforderung, mit den Daten Wissen zu generieren und fundiert Entscheidungen treffen zu können. Hierfür sind einerseits spezialisierte Fachkräfte von Nöten, die so genannten Data Scientists, welche sich auf den Umgang mit Big Data konzentrieren. Andererseits wird heutzutage in allen Sektoren und Fächern bis hin zum gebildeten Bürger Grundwissen im Umgang mit Daten und entsprechenden Werkzeugen zur Datenverarbeitung gefordert. Data Literacy wird somit zu einer zentralen Kompetenz für das 21. Jahrhundert, die es systematisch im Rahmen der (Hochschul-)Bildung zu integrieren und nachhaltig zu vermitteln gilt.
Artificial intelligenceLocation-based serviceInternetZuse, KonradComputer hardwareInformation and communications technologyComputer hardwareZuse, KonradPunched cardComputer programmingXMLUMLLecture/ConferenceMeeting/InterviewEngineering drawing
Graph (mathematics)APISSHHTTPConditional-access moduleoutputPOLYComputer hardwareSpeicherzelleComputer scientistComputer programmingComputer scienceProgrammer (hardware)Object-oriented programmingObject (grammar)Function (mathematics)Form (programming)SoftwareComputer animationLecture/ConferenceMeeting/Interview
Object (grammar)InformationArmInformation and communications technologyEigenvalues and eigenvectorsData exchangeXMLProgram flowchart
IBMGoogleTranslation (relic)AtariWorld Wide WebVolumeVelocity <Framework, Informatik>HTMLRDF <Informatik>Uniform resource locatorIntranetGraph (mathematics)SimulationObject (grammar)Data exchangeInternetdienstRoute of administrationGEMFIS Informationssysteme und Consulting GmbHWEBLocal area networkRaw image formatAlgorithmData managementDomain namePlanningVelocityCW-KomplexStress (mechanics)Computer scientistPropositional formulaSpring (hydrology)BALL <Programm>High availabilityInformationKnowledge baseData modelTexture mappingScientific modellingRollbewegungFormalismus <Mathematik>Row (database)MetadataSpeciesInternetComputer hardwareNumerisches GitterNatural languageRepresentation (politics)Systems <München>HöheSet (mathematics)Berners-Lee, TimThree-dimensional spaceTowerPhysical quantityHypercubeObject modelMoore's lawMachine learningExecution unitXMLSlide ruleTable (information)XML
MetadataWalkthroughDigitizingComputer networkZugriffDOSComputing platformMachine learningPACEData modelTelecommunicationGoogleEuropeanaSAP <Marke>MicrosoftIndexGraph (mathematics)CodeTypPrincipal ideal domainDatenintegrationAudiovisualisierungICONIntegrated development environmentRDF <Informatik>ValidationData structureFile formatMetadataSystems <München>Version <Informatik>Texture mappingData typeWeb pageStandard deviationCodeOpen sourceAttribute grammarWEBDigital libraryNatural languageGit <Software>Open setRoute of administrationDomain nameSequelEuropeanaGoogleDigital signalSeries (mathematics)Data modelRun-time systemWeb portalMathematical structureSource codeUnity <Benutzeroberfläche>Plane (geometry)Data managementLevel (video gaming)Table (information)GRADERepresentation (politics)Lösung <Mathematik>ArmObject (grammar)InternetState of matterSearch engine (computing)EXCELJames <Programm>Perspective (visual)LengthXMLUML
Computing platformMetadataCross-platformSoftware repositoryDistribution (mathematics)Digital object identifierDifferent (Kate Ryan album)World Wide WebComputer wormCodeRDF <Informatik>InformationPartition of a setSoftwareMathematical analysisDemosceneWalkthroughGoogleData typeDomain nameData dictionaryDatenformatSynchronizationSimilarity (geometry)WalkthroughVideoportalDigital object identifierDistribution (mathematics)Git <Software>File viewerOpen sourceMetadataLink (knot theory)Software engineeringVersion <Informatik>DigitizingRoute of administrationWeb portalLibrary catalogPhysical quantityASCIISoftwareVaporArmNumberSummierbarkeitProcess (computing)ComputerSoftware repositoryCHART <Programm>BadaGrand Unified TheoryInformationCoefficient of determination
SoftwareGraph (mathematics)World of WarcraftWorld Wide WebScreening (medicine)Spontaneous symmetry breakingHome pagePunched cardFlussdiagrammKnowledge engineeringMultimediaRDF <Informatik>InformationData analysisPropositional formulaVersion <Informatik>SoftwareLink (knot theory)MetadataDigital object identifierWeb browserInformationOpen sourceImplementationSlide ruleMoment (mathematics)MathematicsAlgebraic closureGraphics tabletContent (media)Dynamic rangePresentation of a groupField extensionAlgorithmStudent's t-testInequality (mathematics)EmpennageMathematical structureObject-relational mappingTheoremArmFingerprintComputer networkDomain namePrototypeMachine learningWEBSummierbarkeitMilitary rankMaschinelle LesbarkeitExecution unit
Graph (mathematics)GoogleData analysisMeeting/InterviewComputer animation
Transcript: German(auto-generated)
Wenn wir uns die Geschichte der IT, der Informationstechnologie anschauen, so hat das begonnen mit sehr physischer Interaktion mit der Hardware. Und das ist hier ein Bild vom Zuse Z3. 1944 wurde der von Konrad Zuse gebaut, wo man tatsächlich physisch quasi mit der Hardware interagieren musste,
Register rein- und rausschieben musste. Es gab dann verschiedene Zwischenstationen, zum Beispiel diese Lochkarten in den 60er-Jahren, in den 70er-Jahren. Vielleicht erinnert sich der eine oder andere von Ihnen noch. Da gab es so eine Form der Programmierung, Assembler-Programmierung, wo man auch, man musste nicht mehr physisch mit der Hardware interagieren,
aber man musste trotzdem noch sehr genau wissen, in welcher Speicherzelle befindet sich welches Datum und wie kann ich das von einer Zelle zu anderen kopieren, transformieren. Das wurde dann intuitiver. Informatiker haben sich überlegt, Kochrezepte sind eigentlich ein ganz intuitiver Weg, um Wissen auch auszutauschen.
Über Jahrhunderte, vielleicht sogar Jahrtausende wurden die weitergegeben. Warum machen wir Informatik nicht ein bisschen ähnlich wie Kochrezepte? Und das hat dann zur funktionalen prozentualen Programmierung geführt, wo ich im Prinzip wie in einem Kochrezept dem Computer sage, nimm die und die Zutaten und dann mach das und das mit den Zutaten.
Das hat ein bisschen zur Folge, dass wenn die Software, die Programme größer wurden, dass man Spaghetti-Code hatte, klingt auch wieder nach Kochrezept, Spaghetti-Code, aber das ist natürlich was, wo man sehr schlecht Ordnung reinbringen konnte. Und wieder hat sich die Informatik oder die Computerwissenschaft
ein bisschen Gedanken gemacht von der Natur inspirieren lassen. Und was wir in der Natur eigentlich haben, sind auch oft Objekte. Hier ist zum Beispiel ein Objekt, das hat eine gewisse Form, das ist aus China. Ein Duftkerzenbehälter, der einerseits eine Form, aber auch eine Funktion hatte. Ich konnte dort eben solche Duftkerzen einstellen und dafür für ein schönes Raumklima sorgen.
Und das hat im Prinzip dann zur objektorientierten Programmierung geführt. Die Idee ist eben tatsächlich, dass ich die Welt in Objekten modelliere und dort Funktionen, aber auch Daten diesen Objekten zuordne. Das Problem dabei ist ein bisschen, dass die Daten versteckt sind in den Objekten. Und ich würde sagen, jetzt der nächste Schritt ist eigentlich,
dass wir die Interaktion Informationstechnologie noch intuitiver gestalten, auch noch mehr vielleicht orientiert, wie wir als Menschen Information, Daten, Wissen verarbeiten, um dadurch diesen Wissensaustausch und den Datenaustausch noch besser hinzubekommen. Und da ist natürlich klar, dass Wissen, Information, Daten eine zentrale Rolle spielen
und dass wir die quasi aus diesen Objekten rauslösen müssen und dass die, in Englisch sagt man, First Class Citizen werden müssen, dass die also eine eigene Betrachtung bekommen und nicht nur innerhalb von Diensten oder Anwendungen oder Objekten versteckt sind.
Ein weiterer Punkt, der auch noch mal motiviert, wie wichtig Daten sind, ist ja auf dieser Folie dargestellt, wo wir, wir haben ja diesen Hype um KI, auch um Machine Learning, um Big Data. Und das Wichtige, diese neuen Durchbrüche, die wurden nicht hervorgerufen dadurch,
dass die Algorithmen jetzt so auf einmal wesentlich verbessert wurden in den letzten Jahren. Die Algorithmen haben sich eher inkrementell verbessert, sondern was möglich wurde, es sind mehr Daten verfügbar geworden und dadurch ist dann am Ende ein Durchbruch. Also hier ist mal so historisch ein bisschen dargestellt, zum Beispiel Spracherkennung wurde dadurch möglich, dass wir gesprochene Wall Street Artikel in großer Menge verfügbar hatten.
1991, der zugrunde liegende Algorithmus war schon viele Jahre vorher vorgeschlagen worden. Und so kann man das weiter fortsetzen. Also zum Beispiel erinnern sich vielleicht auch noch an Schach, das IBMs, die Blue Garret Caspar aufgeschlagen hat. Das wurde nur dadurch möglich, dass 700.000 Schachspiele digital vorlagen,
aus denen dann der Computer im Prinzip analysieren konnte, was die besten Züge sind. Dieser Planungsalgorithmus war schon fast ein Jahrzehnt vorher vorgeschlagen. So kann man das weiter fortsetzen. Und das ist, glaube ich, eine ganz wichtige Erkenntnis, dass die Daten die wichtige Rolle spielen.
Bei Machine Learning geht es ja um Lernen und man muss aus den Daten auch Dinge lernen. Deshalb ist die Verfügbarkeit von Daten eine Prämisse dafür. Die Algorithmen entwickeln sich natürlich auch weiter und wir müssen wissen, wie die funktionieren und vielleicht auch entsprechende Weiterentwicklung betreiben. Aber das sind doch oft auch inkrementelle Weiterentwicklung.
Anderer Aspekt ist natürlich auch, dass die Hardware heutzutage fähig ist, diese großen Datenmengen zu verarbeiten. Das ist was, was auch in gewisser Weise automatisch passiert, dass durch Murphy's, nicht Murphy's, Moore's Law jedes Jahr sich die, Vielen Dank, Frau Senz, dass sich die Kapazität und die Rechenleistung
der Hardware eigentlich verdoppelt und dadurch natürlich heute auch möglich wird tatsächlich diese großen Datenmengen mit diesen Algorithmen. Die Algorithmen sind eben auch sehr performanceintensiv auszuwerten und sie darauf anzuwenden.
Und das ist also eine wichtige Erkenntnis. Oft ist es auch so, dass Daten, die schon an einer Stelle vorliegen, die haben wir heutzutage schon genutzt. Das bedeutet, die Musik, die neuen innovativen Anwendungen sind eigentlich gerade dort, wo wir Daten aus verschiedenen Quellen zusammenführen müssen. Und das ist, was hier auch dargestellt wird, das ist von der Gesellschaft für Informatik so ein bisschen
die drei Dimensionen von Big Data, also einerseits die Größe der Daten, die Geschwindigkeit in der Daten zu Verfügung gestellt werden. Aber die dritte Dimension ist die Heterogenität der Daten. Und das sehen wir hier. Und das ist, glaube ich, für Forschungsdatenmanagement auch absolut essentiell. Die anderen beiden Dimensionen, die wurden schon sehr intensiv bearbeitet.
Die Heterogenität, daran forschen und arbeiten sich auch einige. Aber das wird manchmal noch ein bisschen vernachlässigt, dass das genauso wichtig ist. Und wie können wir die Heterogenität von Daten bewältigen? Ein Ansatz, der sich eigentlich in vielen Domänen mittlerweile erfolgversprechend rausgestellt hat,
sind diese Link-Data-Prinzipien, die Tim Berners-Lee relativ kurz nachdem er das Web erfunden hat oder die Web-Technologien, hat er auch gemeinsam mit anderen in der Community. Und ich war auch dann später daran beteiligt, diese Link-Data-Prinzipien zu beschreiben und zu unterstützen,
dass wir Daten vernetzen können. Die Prinzipien sind, dass wir Dinge identifizierbar machen, dass wir denen zum Beispiel URIs geben. Aber man kann auch andere Identifier-Systeme natürlich nutzen, dass man die abrufbar macht, dass man also von verschiedenen Quellen übers Internet dann auch tatsächlich die Daten abrufen kann.
Wir brauchen eine einheitliche Beschreibung der Daten. Da ist dieses Resource Description Format entwickelt worden, was es ermöglicht, Daten in einer einheitlichen Repräsentation zur Verfügung zu stellen. Und dadurch kann man dann auch Verknüpfungen herstellen. Und ähnlich wie wir im Web heutzutage Dokumente publizieren und Dokumente miteinander verknüpfen,
sollten wir in der Zukunft eben auch viel stärker Daten verknüpfen und vernetzen auf Grasis dieser Link-Data-Prinzipien. Ich will Ihnen das noch mal ein bisschen mehr im Detail erklären. Und zwar können wir im Prinzip Wissen organisieren. Was verbirgt sich hinter diesem RDF-Datenmodell? Das ist eigentlich ganz einfach. Das kann man auf dieser einen einfachen Folie hier erklären.
Die Grundidee, dass ähnlich wie wir Wissen repräsentieren, wie wir in der Sprache, natürlichem Sprachewissen austauschen und zwar in Sätzen, die aus Subjekt, Prädikat und Objekt bestehen. Im Grunde im Englischen, insbesondere im Deutschen, haben wir noch ein paar Variationen und Verschnörklungen, die wir noch hinzufügen können. Aber das Grundprinzip ist Subjekt, Prädikat, Objekt.
Ich glaube 97 oder fast alle Sprachen sind so organisiert. Es gibt ein paar Ausnahmen. Und ähnlich funktioniert diese RDF-Datenmodell. Ich kann zum Beispiel sagen Columbia University organisiert eine Konferenz. Da war ich letzte Woche, da habe ich die Slide dafür nochmal angepasst. Das ist eine Aussage, bestehend eben aus dem Subjekt Columbia University,
aus dem Prädikat organisiert und aus dem Objekt Knowledge Graph Conference, die dort stattgefunden hat. Und ich kann dann anders, genau wie wir das in der natürlichen Sprache machen, an das Objekt eines Satzes, das als Subjekt eines Nachfolgesatzes verwenden und kann sagen, diese Knowledge Graph Conference beginnt am 7.5.2019
und sie findet statt in New York. Und wir sehen auch hieran, dass ich Dinge wiederverwende, diese Identifier. Ich versuche also nicht immer neue Identifier zu kreieren, sondern wo es Sinn macht, zum Beispiel für organisieren, für beginnen, für stattfinden in, aber auch für den Ort,
Identifier wieder zu verwenden. Das wird hier durch diese Namespace Präfixe verdeutlicht, dass ich dort also auf andere Datenquellen verweise und dadurch das Rad quasi nicht nochmal neu erfinde, sondern diese Verknüpfung zwischen Daten herstelle. Der große Vorteil ist, wenn ich Wissen auf so eine Weise repräsentiere, dass ich das sehr leicht integrieren lässt.
Also ich kann das in solchen Trippeln auch in einem Textformat zum Beispiel darstellen und kann dann aus ganz verschiedenen Quellen auf sehr einfache Weise Daten zusammenführen. Und das ist wesentlich komplexer, wenn ich relationale Daten, XML oder Objektmodelle habe, dann muss ich mich sehr intensiv mit den Datenmodellen auseinandersetzen, um Mappings herzustellen. Hier ist das in das Datenmodell quasi eingebaut.
Ich brauche nur die Trippel zusammen werfen und habe dann eine integriertere, größere Wissensbasis quasi oder Wissensgraf. Und ich will Ihnen mal so ein paar Beispiele von solchen Wissensgrafen zeigen. Hier ist einer, der Wissen über Unternehmen repräsentiert. Also DHL zum Beispiel hat einen bestimmten Namen, ist in einer Industrie unterwegs.
Ich kann Labels in verschiedenen Sprachen anhängen und kann auch, hier zum Beispiel DHL, hat sein Headquarter am Post Tower in Bonn und kann dort noch Informationen zur Höhe oder zum Ort anfügen. Und ich kann diesen Graf auch immer weiter erweitern. Also ich kann zusätzliche Statements anfügen und das macht es auch so flexibel. Ich bin also bei einem relationalen Mappenmodell
ist es oft sehr schwierig, noch zusätzliche Tabellen und Verknüpfungen herzustellen. Hier ist es ganz einfach. Ich kann im Prinzip an jedem Knoten noch weitere Aussagen und Fakten hinzufügen. Das sind also Wissensgrafen. Mittlerweile gibt es sehr komplexe Wissensgrafen. Wir haben vor über zehn Jahren zum Beispiel einen aus Wikipedia extra hier,
der mittlerweile sehr viel Popularität gewonnen hat in der Wissenschaft, um Forschung in dem Bereich zusammen voranzutreiben. Aber es wird auch zunehmend in verschiedenen Domänen in der Wirtschaft zum Beispiel auch eingesetzt. Und die Grundidee ist, dass in so einem Wissensgrafen also ganz verschiedene heterogene Arten von Daten zusammengefasst sind.
Also einerseits die Rohdaten, aber auch Metadaten, aber auch Vokabulare oder die Struktur der Daten in einem einheitlichen Subjekt, Prädikat, Objekt, Formalismus beschrieben werden kann. Ja, was hat das jetzt mit Forschungsdaten zu tun?
Und dort haben wir eigentlich in der Ausgangslage die Wissenschaften im Wandel. Forschungsdaten spielen eine zentrale Rolle. Aber wir haben eben gerade diese Dezentralität und Heterogenität in jeder Hinsicht, also im Bezug auf die Daten, in Bezug auf Formate, Datenstrukturen, Metadatendizenzen, Nutzungsbedingungen, Anwendungen, Identifikationssysteme.
Wir haben auch ganz viele Akteure. Also wir haben sehr viel Heterogenität. Deshalb würde ich sagen, ist das für uns im Bereich Forschungsdatenmanagement enorm wichtig. Und wir sollten dem Rechnung tragen und versuchen, also dort Forschungsdatenmanagement so zu etablieren, dass wir einerseits diese Heterogenität bewahren und unterstützen.
Auf der anderen Seite wollen wir natürlich, dass alles irgendwie auch zusammenpasst und dass wir am Ende Forschungsdaten finden, suchen können, austauschen können, wiederverwenden können. Und meine Idee ist, dass wir das im Prinzip mit so einer Syndizierung vielleicht von Metadaten oder auch von Daten zwischen verschiedenen Forschungsdateninfrastrukturen
unterstützen können sollten, dass sie es mal so ein bisschen vereinfacht dargestellt, dass man verschiedene Datenportale oder Forschungsdateninfrastrukturen hat, die dann miteinander Daten austauschen und wo man Aggregationsebenen hat, wo zum Beispiel ein nationales Forschungsdatenportal dann aus vielen anderen regionalen, auch domänspezifischen,
vielleicht organisationsspezifischen Datenportalen und Dateninfrastrukturen Dinge zusammenführt und dann unter einer einheitlichen Oberfläche durchsuchbar macht. Wie können wir sowas realisieren? Ich denke, dass es eigentlich ganz einfach ist und dass es auch andere uns schon vorexerziert haben,
die das in sehr mühevollen Irrungen und Wirrungen in den letzten Jahrzehnten in anderen Domänen realisiert haben. Und wir müssen uns einfach nur abschauen, wie haben das andere realisiert. Und da kristallisiert sich so ein bisschen raus, dass wir diese Dateninfrastrukturen eben semantisch vernetzen müssen, Metadaten austauschen müssen. Da gibt es eine ganze Reihe von Metadatenstandards.
Einer zum Beispiel, der im Bereich Open Government Data etabliert ist und auch standardisiert ist, das ist DCAT, Data Catalog, Protocol und Vocabulary. Und auf diese Weise können wir Dateninfrastrukturen eigentlich sehr gut miteinander vernetzen. Und im Bereich Open Data funktioniert das schon mit tausenden Datenportalen.
Die Metadaten sind natürlich nicht ausreichend, sondern wir sollten auch ein gemeinsames Verständnis der Daten entwickeln, also auch tiefer in die Daten reinschauen. Und das ist, was hier mit dem gemeinsamen Verständnis, dass wir auf Domänen vocabulare Mappings erstellen, dass wir im Prinzip die Daten interpretierbar machen
und beschreiben, was die Bedeutung der Daten ist. Ja, und die müssen natürlich auch dann weiterentwickelt werden, diese vocabulare Mappings, Metadatenstandards. Und da kann man auch im Prinzip auf eine agilere Weise vorgehen. Und wir sehen schon eigentlich im Internet, dass es Communities gibt, die sich da selbst organisieren,
die da Mechanismen gefunden haben, zum Beispiel Git oder GitHub zu verwenden, um solche Vocabulare sehr dynamisch auch weiterzuentwickeln, ohne dass man sich jetzt jahrelang erst mal hinsetzt, um so einen Metadatenstandard zu entwickeln, sondern erst mal mit einem einfachen Lösung startet, die eben schon von anderen Communities entwickelt worden
und die dann sukzessive weiter auf die Anforderungen der Fachcommunities zuschneidet. Fair Data Prinzipien spielen da eine wichtige Rolle. Ich bin ein bisschen manchmal kritisch bei Fair Data, weil diese Prinzipien sind so allgemein und abstrakt gehalten, dass glaube ich jeder von uns, jeder Wissenschaftler, die sehr leicht unterschreiben kann.
Das Wichtige ist, wie können wir sie realisieren? Und da ist es aus meiner Sicht ganz wichtig, dass man sich möglichst schnell auch auf ein paar Grundprinzipien einigt, wie zum Beispiel vocabulare DCAT-Protokoll und nicht einen großen langen Diskussionsprozess. Ich nehme manchmal als Beispiel das Web. Wenn Tim Berners-Lee, sagen wir mal, bei der Erfindung des Web nicht gleich die zwei wichtigen Standards mitgeliefert hätte,
das ist das HTTP-Protokoll zum Austausch der Dokumente und HTML zur Repräsentation der Dokumente, dann gäbe es heute noch kein Web, sondern die beiden Standards waren essentiell. Und ich glaube, das ist genau dasselbe, was wir hier brauchen. Wir brauchen Protokoll zum Austausch der Daten und der Metadaten. Und wir brauchen eine Form zur Repräsentation,
zur Beschreibung der Semantik der Daten. Und die haben wir, wie gesagt, auch schon vorliegen. Und das ist ganz wichtig, dass wir da nicht noch mal einen ganz langen Diskussionsprozess starten und uns eben gerade von existierenden initiativen Dinge abschauen. Und da habe ich hier mal einen Überblick, wo das schon auch gelöst wurde.
Also Google hat zum Beispiel diese Schema.org-Initiative mit anderen Suchmaschinenbetreibern etabliert, die mittlerweile 30 Prozent der Webseiten unterstützen. Das ist ein Vocabular. Das wird auf GitHub entwickelt. Also die erste Version war ganz einfach. Der Vorteil von Vocabularen ist, dass sich die sukzessive weiterentwickeln können. Das ist ja bei uns in der natürlichen Sprache genauso.
Wir starten mit einem Vocabular. Wir können immer mal neue Wörter hinzufügen. Und genau ist die Idee auch bei diesen Vocabularen. Und das ist ein bisschen Unterschied zu anderen Datenmodellen. Da muss ich oft schon sehr viel Aufwand betreiben, sehr abgeschlossene oder fixes Datenmodell entwickeln. Und hier habe ich sehr viel Flexibilität. Und das hat sich in den letzten drei, vier Jahren
enorm weiterentwickelt. Und inzwischen sind also im Web 30 Prozent der Webseiten mit den Daten auch annotiert. Und wir haben so ein gemeinsames Verständnis dieser Webdaten, E-Commerce-Daten. Teile davon kann man vielleicht sogar auch verwenden. Ebenso im Bereich digitale Bibliotheken. Da gibt es das Europeana Data Model,
was genutzt wird von Europeana oder auch der Deutschen Digitalen Bibliothek und wo Tausende Gedächtnisinstitutionen in Europa, in Deutschland, glaube ich, alleine 2000 schon Metadaten zu den Objekten austauschen. Und dort uns das eigentlich auch gezeigt haben, dass mit so einem Vokabular und einem Standard zum Austausch der Daten, da wird OEI PMH verwendet,
was ein bisschen ähnlich ist vielleicht zu dem DCAT, aber ein bisschen spezieller auf die Bibliotheks Community oder Memory Institutions zugeschnitten. Und ähnlich kann man das fortsetzen. Also in den Lebenswissenschaften zum Beispiel gibt es Open Facts, wo sich Pharma-Unternehmen zusammengeschlossen haben. In der Industrie den International oder Industrial Data Space
oder eben im Bereich offene Verwaltungsdaten, Open Data mit DCAT und den Datenportalen dort auch. Und ich denke, wir können uns die Best Practices da abschauen und anwenden auf Forschungsdatenmanagement und da ganz schnell einen Schritt nach vorn machen und relativ schnell auch die so eine Basis schaffen
für natürlich viele weitere neue Entwicklungen, die da notwendig sind. Ich will das nochmal an einem Beispiel ein bisschen illustrieren, wie sowas aussehen kann. Wir brauchen ein gemeinsames Verständnis der Daten. Und das kann dadurch passieren, dass wir eben in so einem Vokabular bestimmte Konzepte und Attribute definieren.
Also zum Beispiel Krankheit und Attribute. Krankheiten, die haben so eine ICD-10-Codes und eine bestimmte Auftretenshäufigkeit. Die haben Symptome. Also Krankheiten sind mit Symptomen verknüpft. Und da gibt es auch wiederum diese Codes und verschiedene Typen von Symptomen. Und es gibt dann Behandlungsmöglichkeiten, also Medizin quasi,
die als Behandlung für die Symptome genutzt werden kann oder auch für die Krankheiten, die auch wiederum Klassifikationen und Namen haben. Das ist also so eine Art Vokabular. Und jetzt kann ich, wenn ich konkrete Daten habe, diese Daten auf dieses Vokabular mappen. Und das sehen wir, was hier mal dargestellt. Ich habe vielleicht verschiedene Excel-Tabellen oder CSV oder relationale Daten
und kann dann so ein Mapping auf diese Vokabulare herstellen und dadurch ein gemeinsames Verständnis der Daten etablieren und helfen, diese Daten austauschbar, wiederverwendbar, nutzbar zu machen, sodass sie also nicht nur von einer Forschungsgruppe genutzt und interpretiert werden können, sondern übergreifend von einer Community
oder sogar interdisziplinär. Und das ist, glaube ich, wo es ganz interessant wird, weil die neuen Erkenntnisse, glaube ich, dadurch zustande kommen, dass wir aus verschiedenen Communities Daten auch austauschen und nutzbar machen. Ja, und wir können auch im Prinzip schon existierende Anwendungen nutzen,
wie zum Beispiel Vocall, was wir bei Fraunhofer vor vielen Jahren gestartet haben, was eine Open Source Software Umgebung ist, um iterativ Vokabulare zu entwickeln. Ganz wichtig ist natürlich, dass diese Vokabulare auch von den Fachcommunities Stück für Stück weiterentwickelt werden können. Und da ist es, glaube ich, wichtig,
so einen Ansatz zu haben und das ermöglicht das Vocall, dass ich dort kleine Beiträge machen kann, ähnlich und in so einem Git-Versionskontrollsystem im Prinzip die Version des Vokabulars verwalten kann und dadurch diesen Prozess der Zusammenarbeit auf eine relativ agile Weise unterstützen kann. Im Software Engineering wird es Git mittlerweile der Standard, der genutzt wird,
um große Softwareentwicklungsprojekte zu verwalten. Und das können wir hier im Prinzip auch als Basis nutzen. Und dann neue Möglichkeiten auch zur Exploration, zur Visualisierung, für domain- spezifische Anwendungen zu nutzen. Ja, vielleicht überspringe ich mal den Teil und komme zu Secan.
Das ist eine Software, die im Bereich Open Data entwickelt wurde. Und ich habe mich sehr gefreut, dass hier an der Leibniz-Universität, die Leibniz-Universität, auf der einen Seite war es traurig für uns, weil wir waren an einer Forschungsdateninfrastruktur RADA mit dem Fitz-Grasrower beteiligt. Und die Leibniz-Universität hat sich aber für Secan entschieden.
Und in gewisser Weise ist es, glaube ich, auch gut, dass es verschiedene Ansätze da gibt. Und das Secan ist eben ein Open Data Repository, was gerade dieses Decat-Protokoll zum Beispiel unterstützt zum Austausch und zur Synchronisation. Und es gibt in der Welt Tausende von diesen Open Data Repositories, zum Beispiel ein europäisches Datenportal.
Wir haben ein deutsches GovData.de, die dann aus verschiedenen regionalen, nationalen Datenportalen Daten aggregieren, Metadaten aggregieren und das dann durchsuchbar machen. Und das können wir sehr leicht auch für Forschungsdaten anwenden. Und wir wollen jetzt, wir haben gesehen, dass das hier an der LOH schon angewendet wird und genutzt wird.
Und wir wollen das jetzt anderen auch zugänglich machen, so eine Distribution von Secan für Forschungsdaten. Natürlich gibt es ein paar spezifische Aspekte bei Forschungsdaten, die wir berücksichtigen müssen. Und die wollen wir unterstützen und haben da jetzt ein Paket entwickelt,
Leibniz Data Manager, was es ermöglicht anderen Einrichtungen relativ leicht eigene Datenportale aufzusetzen, wo dann eben auch zum Beispiel die Integration von Dois und Datasite drin ist, verschiedene Vorschaufunktionen für Forschungsdaten oder Unterstützung für Jupyter Notebooks, die in manchen Bereichen sehr verbreitet sind.
Und ich will Ihnen mal ein paar Screenshots zeigen, wie das aussieht. So sieht das Secan-Datenportal aus. Also ich habe einen Datenkatalog und kann darin suchen in dem Katalog und nach verschiedenen Typen klassifizieren in so einem flexiblen Klassifikationsschema.
Und ganz wichtig ist aber, dass wir den Forschenden direkten Mehrwert bieten. Wir sehen das jetzt auch gerade bei uns hier an der Leibniz Universität, dass es sehr schwierig ist, aufwändig die Wissenschaftler davon zu überzeugen, ihre Daten in so einem Datenportal einzustellen. Wir müssen denen also zeigen, was bringt das für sie direkt für einen Nutzen.
Ein direkter Nutzen ist, dass die Daten über so eine Doi zum Beispiel zitierbar, referenzierbar werden. Ein anderer ist, dass sie Vorschaufunktionen haben, dass sie die Daten zum Beispiel im Artikel verlinken können und dass jemand, der sich den Artikel durchliest, auf diesen Link klickt, dann nicht erst aufwändig irgendeinen Viewer runterladen muss oder die in irgendeiner Anwendung öffnen muss,
sondern gleich hier bei so einem 3D-Modell, das ist jetzt für Ingenieure zum Beispiel sehr wichtig, dann direkt eine Vorschau haben, wo man eine zweidimensionale oder dreidimensionale Sicht auf die Daten bekommen können. Man kann also auch Videos integrieren, die dann zum Beispiel bei uns im AV-Portal oder in einem anderen Videoportal abgelegt sind.
Oder eine andere Möglichkeit ist auch, das mit Jupyter Notebooks zu verknüpfen, dass ich also Daten, die aus einem Jupyter Notebook generiert werden, direkt auch in einem CCAN-Repository dann ablege. Und das ist, was diese Jupyter Notebooks, wo ich im Prinzip auch was für Data Science,
Data Literacy jetzt oft genutzt wird, relativ leicht bestimmte Datenverarbeitungsprozesse beschreiben kann und die quasi in so einem Notizbuch quasi aufschreiben kann, aber direkt die auch ausführbar sind, wo im Hintergrund dann eben die Daten verarbeitet, analysiert, visualisiert werden. Und das kann ich auch dann direkt eben über einen Kommando,
quasi über eine Kommandozahle, dass ich das dann auch direkt in dem Datenportal entsprechend aktualisiere, wenn ich eine neue Ausführung oder ein neuer Ergebnis da von der Ausführung meines Notebooks habe.
Ja, hier ist nochmal eine andere Vorschaufunktion. Und das ist natürlich auch was des CCANs Open Source. Und wir haben damit begonnen, aber das ist, wir würden uns natürlich freuen, wenn es auch noch mehr Mitstreiter gäbe. Falls Sie auch planen, so was Ähnliches einzusetzen, dann würden wir uns natürlich auch sehr freuen,
wenn wir noch weitere Beteiligte finden, um diesen Leibniz Data Manager in der Zukunft weiterzuentwickeln und noch breiter nutzbar zu machen, vielleicht neue Vorschaufunktionen für neue Datenformate auch entsprechend zu hinterlegen. Und wir arbeiten eben daran, dass es auch gleich dann so eine ADF-Beschreibung generiert wird, die entsprechend abgelegt wird.
Ja, jetzt habe ich noch einen Teil gebaut über Wissenschaftskommunikation. Aber ich weiß gar nicht, wie viel Zeit habe ich noch? Fünf Minuten oder fünf Minuten? Da muss ich mich ein bisschen beeilen. Forschungsdaten sind aus meiner Sicht auch nur ein Zwischenschritt. Und der nächste Schritt ist, dass wir vielleicht auch
Wissen in der Wissenschaft allgemeiner, noch strukturierter, semantischer repräsentieren. Und da will ich mal ganz kurz vielleicht auch zeigen, was wir da vorhaben. Wenn man sich so die Wissenschaftskommunikation anschaut, hat die sich für die letzten 400 Jahre kaum verändert. Also wir haben Textdokumente.
Und wir können aber sehen, dass sich durch die Digitalisierung andere Domänen wie zum Beispiel Telefonbücher sind komplett ausgestorben. Straßenkarten gibt es heute gar nicht mehr. Versandhauskataloge nutzt kein Mensch mehr. Also ganze Industrien haben sich da komplett gewandelt und haben ganz komplett neue Mechanismen des Informations- und Wissensaustauschs entwickelt.
Und ich denke, dass wir das auch in den Wissenschaften haben und Herausforderungen haben. Wir haben natürlich Reproduzierbarkeitskrise, wo Daten eine wichtige Rolle spielen, dass wir die systematischer verwalten können. Aber wir haben auch ein großes Wachstum an Publikationen. Und mit den Textpublikationen, PDF-Dokumenten,
wird es in der Zukunft immer schwieriger, tatsächlich diese Reproduzierbarkeit, die Vergleichbarkeit herzustellen. Peer Review wird immer aufwendiger, weil sich, wenn sich die, in den letzten zehn Jahren hat sich die Anzahl der Publikationen in Technik und Naturwissenschaften doppelt, entsprechend reduziert sich auch die Qualität
des Peer Reviews, weil es immer weniger gute Gutachter auch entsprechend gibt dafür. Uns für die immer schwieriger wird, auch den Überblick zu behalten in ihrer Fachdomäne. Und ich will noch mal an dem Beispiel, wenn man nach CRISPR zum Beispiel sucht, das ist eine Genom-Editing-Methode, findet man bei uns knapp 10.000 Ergebnisse. Das hängt damit zusammen, dass wir nicht so sehr
auf Bio-Lebenswissenschaften fokussiert werden. CRISPR ist so ein bisschen biochemische Methode im Grenzbereich. Wenn Sie bei Google Scola suchen, finden Sie 240.000 Ergebnisse. Und wenn Sie dann ganz konkrete Fragen beantworten wollen, wie kann wir die Methode vielleicht in Bezug auf Genauigkeit, Kosten einschätzen?
Wer hat sich schon mal auf Insekten angewendet? Oder wie konkret sieht das bei Schmetterlingen aus? Wenn ich diese CRISPR-Methode anwende, dann müssen Sie sich wirklich jahrelang damit diesem Thema beschäftigen, um dort einen Einblick zu gewinnen. Wie können wir das lösen?
Und wir wollen jetzt eben daran arbeiten, diese Vision von Vannevar Bush auch umzusetzen, der die auch schon vor 1948, glaube ich, formuliert hat. Damals sehr esoterisch, dass ich quasi so einen magischen Schreibtisch habe, wo die Information, die ein Wissenschaftler haben, muss auf so einem Tablet direkt aus dem Unterbau generiert werden.
Damals war das, glaube ich, sehr esoterisch. Heutzutage würde ich sagen, ist das tatsächlich möglich. Wir haben Tablets. Wir können intuitiv damit interagieren. Und wir haben heutzutage Datennetze, wo wir tatsächlich auf Fingerdruck Daten verfügbar machen können. Und daran wollen wir arbeiten. Und wir müssen da aber die Konzepte
in den Wissenschaften viel tiefer identifizierbar verknüpfbar machen. Und das sind einerseits natürlich so übergreifende Konzepte wie Forschungsprobleme, Definitionen, Methoden, aber dann auch in den Fachdomänen ganz konkrete Konzepte wie in der Mathematik Definition, Theoreme, Beweise oder in der Chemie,
Substanzen, Strukturen, Reaktionen, die im Moment tief in den Dokumenten versteckt sind. Und es ist sehr aufwendig, tatsächlich darauf Bezug zu nehmen oder die zu verknüpfen, darüber zu diskutieren. Und ich will mal einem Beispiel illustrieren, wenn wir eine Publikation haben in einem zum Beispiel Open Access Archiv,
dass wir die Information, nicht nur die Metadaten, wie zum Beispiel Autor und Titel, aber auch die Information im Prinzip zum Fortschritt oder Beitrag, wissenschaftlichen Beitrag auf strukturierte Weise erfassen können, zum Beispiel in so einer Art Formular und dann einen Wissensgrafen befüllen können,
um damit dann besser nach wissenschaftlichen Erkenntnissen suchen zu können, eine bessere Vergleichbarkeit herzustellen. Und im Ergebnis könnte zum Beispiel so eine Frage, wie vergleichen sich verschiedene Genom-Editing-Maßnahmen oder Techniken könnte zum Beispiel auf so eine tabellarische Übersicht automatisch generiert werden
aus so einem Wissensgraf. Ja, und das war auch ein bisschen eine Frage, die zum Beispiel bei der NFDI-Konferenz diskutiert wurde. Sollten wir vielleicht auch wissenschaftliche Artikel als Publikationen, als Forschungsdaten mitsehen? Und wir an der TB arbeiten jetzt daran, das umzusetzen. Hier sind so ein paar Screenshots von dem ersten ganz zeitigen Prototypen,
den wir aber jetzt in nächsten Monaten und Jahren sukzessive zu einem Dienst weiterentwickeln wollen, wo es im Prinzip ermöglicht wird. Open Research Knowledge Graph heißt der, wo ich dann zu einem Artikel, also den ich über eine DOI und über Titelautoren zum Beispiel identifizieren kann,
dann auch beschreibe, in welchem Forschungsfeld zum Beispiel und dann aber ganz konkret im Prinzip solche Trippel, solche Aussagen über die Forschungsergebnisse in dem Artikel eintragen kann. Zum Beispiel, was sind die Ergebnisse, die erzielt wurden? Wie wurden sie evaluiert? Wie beschreibt sich der Ansatz? Wie ist die Implementierung des Ansatzes realisiert worden,
dass ich das über solche Aussagen repräsentiere und dadurch dann im Prinzip so einen Wissensgraf befülle und die Forschung vergleichbar mache. Und im Ergebnis dann eben hier ist zum Beispiel mal ein Mockup, was wir gemacht haben für Sortieralgorithmen. Das ist jetzt relativ einfach, wo ich dann sehr leicht um sie vergleichen kann.
Wie vergleichen sich verschiedene Algorithmen für die Sortierung von Daten jetzt? Und das im Ergebnis eben für Wissenschaften allgemein ist unser Ziel, das in der Zukunft zu unterstützen mit so einem Wissensgraf. Und jetzt letzter kurzer Punkt.
Wie können wir das? Data Literacy ist natürlich auch verknüpft mit Open Education. Und ich glaube, da müssen wir auch diese digitalen Möglichkeiten noch stärker nutzen als Universitäten, als Forschungseinrichtungen, um Open Education Resources verfügbar zu machen. Da ist es im Prinzip ähnlich. Früher sahen Lehrmaterialien so aus,
also Polylux, wo man Folien auflegen konnte. Heutzutage, wir haben die zwar digitalisiert, aber sagen wir mal tatsächlich so, wie es früher war. Wir erstellen Präsentationen bestehend aus Folien oft und legen die als PDF-Dokumente dann hier zum Beispiel in unserem Stud-IP ab. Aber ich glaube, wir müssen tatsächlich
da das weiterentwickeln. Die neuen Möglichkeiten nutzen wird natürlich auch schon gemacht, werden viele Videos auch produziert. Wir haben da gerade hier mit dem Elsa auch an der LOH schon ein sehr gutes Team, das das unterstützt. Aber da müssen wir, glaube ich, auch noch weiter vorangehen und diese Möglichkeiten
in der digitalen Welt wie Maschinenlesbarkeit, semantische Repräsentation, dynamische Inhalte, Verknüpfungen mit Kontext, Metadaten und die Zusammenarbeit noch stärker nutzen. Und da will ich nur ganz kurz am Schluss jetzt noch ein Projekt vielleicht erwähnen, an dem wir arbeiten. Das nennt sich Slide Wiki, was wir in einem EU-Projekt
entwickelt haben und jetzt weiterentwickeln, wo es darum geht, kollaborativ an solchen dynamischen Lehr- und Lerninhalten zu arbeiten. Weil natürlich ist es sehr aufwendig. Es ist relativ einfach, eine Präsentation zu erstellen, aber die zum Beispiel zu übersetzen in einer anderen Sprache. Wir haben hier das Problem, auch dass wir viele ausländische Studenten haben. Und dann schaffe ich schon nicht,
das in Deutsch und Englisch. Deshalb sind zum Beispiel die Hälfte meiner Vorhänge in Englisch, die anderen in Deutsch. Das dann vielleicht auch noch mit dynamischen Inhalten zu verfügbar zu machen. Das ist sehr aufwendig für eine einzelne Lehrkraft. Und ich glaube, wir schaffen es nur dadurch, dass wir die Zusammenarbeit ermöglichen, dass verschiedene Dozenten zusammenarbeiten können.
An anderen Domänen, zum Beispiel bei Wikipedia, Open Street Maps, bei GitHub, bei der Software hat sich gezeigt, wie kraftvoll und wirksam das sein kann, wenn wir so diese Zusammenarbeit ermöglichen. Und das ist was, was wir mit SlideWiki unterstützen wollen. Und ich zeige Ihnen einfach mal zwei Screenshots zum Abschluss. Das ist hier eine Vorlesung, die ich zum Beispiel hier halte,
jedes Semester an der LOH, wo es genau um die semantischen Technologien geht. Und ich habe dort die Lehrinhalte auch sehr in so eine Art Baumstruktur organisiert. Also ich habe Vorlesungen und habe in den Vorlesungen kleinere Lerneinheiten. Jede einzelne Knoten ist im Prinzip dann eine Slide hier, die ich auch direkt im Browser abrufen kann. Ich kann auch den Link dann verteilen,
kann direkt auf diese Folie verweisen. Ich sehe auch, wer mitgearbeitet hat, weil jeder kann auch daran beitragen. Es werden Versionen verwaltet. Also wenn jemand was editiert, dann wird nicht meine Version kaputt gemacht, sondern ich kann dann sehen, da gibt es eine neue Version von jemand anderes. Ich kann entscheiden, ob ich die auch für mich übernehmen will oder nicht.
Und ich kann eben dann auch Kommentare hinterlassen, Diskussionen, Fragen ablegen, Selbsttestfragen genau zu diesem Lerneinhalt, wo Studenten dann testen können, ob sie den Lerneinhalt, der auf dieser Folie ist, auch tatsächlich verstanden haben. Und hier ist nochmal diese Editierfunktion dargestellt. Und da das ganze webbasiert
funktioniert, kann ich also direkt auch Videos und dynamische Inhalte integrieren. Und damit diese Lerneinhalte quasi auch alle Möglichkeiten Interaktionsmöglichkeiten nutzen. Und gerade bei Data Science, das wäre jetzt nochmal eine interessante Erweiterung oder ein neues Projekt, dass man schaut, wie man zum Beispiel
auch das ermöglicht, dass ich direkt Experimente, vielleicht so ein Jupyter Notebook direkt in meinen in meinen Lernmaterialien auch ablaufen lassen kann und das noch dynamischer gestalten kann. Ich glaube, daran an solchen Themen müssen wir in der Zukunft auch arbeiten. Wir wollen das hier in Niedersachsen auch in dem niedersächsischen OER-Portal mit verfügbar machen. Und auch das ist eine komplette
Open Source und Open Knowledge Infrastruktur, wo wir uns freuen wurden, wenn es weitere Interessierte gibt, die daran mithelfen. Ja, damit bedanke ich mich für Ihre Aufmerksamkeit und freue mich sehr, dass ich Ihnen so ein paar Ideen vorstellen konnte und hoffe, dass wir vielleicht an diesen Themen
gemeinsam weiterarbeiten und dieses Thema Forschungsdaten, aber auch eben die Vernetzung von Lehrmaterialien und Wissen zu so einer Art Wissensraum für Lehre und Forschung in der Zukunft gemeinsam stärker vorantreiben. Vielen Dank.