Virtual Observatory
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 95 | |
Author | ||
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/32273 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
FrOSCon 201774 / 95
4
8
9
15
20
22
23
24
25
27
29
32
36
37
38
39
40
45
46
47
48
49
50
51
53
54
59
63
64
65
74
75
76
79
83
84
86
87
88
89
91
92
93
94
95
00:00
SoftwareKDEWordDirection (geometry)Quantum stateSoftwareRow (database)Physikalische EigenschaftKDEStandard deviationWissenschaftlich-technische SoftwareMachine learningXMLUMLLecture/ConferenceComputer animation
01:41
Point cloudQuicksortPhysikLecture/ConferenceXML
02:30
ZugriffSpeciesObject (grammar)PhysikLibrary catalogZugriffPositionMeasurementLecture/ConferenceComputer animation
03:57
ZugriffZugriffWeb serviceDatabaseTable (information)GRADEEigenvalues and eigenvectorsPhysical quantityObject (grammar)SatellitePositionLibrary catalogLecture/ConferenceComputer animation
07:28
Einstein field equationsInternetdienstHigh availabilityService (economics)High availabilityMaß <Mathematik>Server (computing)Library catalogWeb serviceMetadataBackupArchaeological field surveyTable (information)Newton's law of universal gravitationLecture/ConferenceXMLComputer animation
08:32
High availabilityInternetdienstWorld Wide WebWeb serviceSearch engine (computing)SoftwareForm (programming)XML
10:08
Abbildung <Physik>Version <Informatik>Windows RegistryInternetdienstClient (computing)MetadataLibrary catalogCommunications protocolSearch engine (computing)Standard deviationProviderWindows RegistryComputer animation
11:38
ImplementationZeitreiheBinary fileStandard deviationFile formatData modelCommunications protocolProgrammer (hardware)Form (programming)Time travelLecture/Conference
12:41
Scripting languageWeb browserDesktopMenu (computing)Abbildung <Physik>Version <Informatik>InternetdienstDatabaseProviderCommunications protocolWindows RegistryDatenformatService (economics)Object (grammar)Web serviceJohann Peter HebelRadiusGRADEData modelLengthACCESS <Programm>NumberServer (computing)Computer animationXML
14:51
Plane (geometry)Plane (geometry)Web serviceLösung <Mathematik>Computer animation
15:31
Plane (geometry)Standard deviationProgrammer (hardware)Computer scienceDatabaseLecture/Conference
16:58
SatelliteGenerating functionPhysikComputer animationLecture/Conference
17:41
Plane (geometry)Computer programmingStandard deviationPlane (geometry)InformationComputer programmingSoftware developer
18:42
Plane (geometry)Computer programmingZugriffPlane (geometry)Lecture/ConferenceComputer animation
20:03
Communications protocolSoftwareLecture/Conference
20:41
World Wide WebIndexACCESS <Programm>XMLMetadataStandard deviationFile formatRow (database)MetadataInterpreter (computing)DatenformatSet (mathematics)WordACCESS <Programm>Table (information)EmbeddingBinary numberString (computer science)LengthComputer animation
22:27
Version <Informatik>Abbildung <Physik>Web browserScripting languageDesktopWorld Wide WebSQLCoordinate systemSpherical geometryDialectMaß <Mathematik>Spherical geometryTable (information)Programmer (hardware)AngleDistanceSIMPL <Programmiersprache>File formatDatenbankspracheTransmitterACCESS <Programm>Version <Informatik>SoftwareUniqueness quantificationRoute of administrationPositionMittelungsverfahrenUNIXJohann Peter HebelStandard deviationLecture/ConferenceXMLProgram flowchart
25:31
PostgreSQLDatabaseDatabaseData conversionSubject indexingSpherical geometryDatabaseField extensionMySQLADQLComputer animation
26:51
Server (computing)DatabaseClient (computing)DatabaseData conversionSoftwarePlane (geometry)Smart cardOpen sourceStandard deviationCommunications protocolServer (computing)Lecture/ConferenceComputer animation
28:20
Mach's principleSoftwareCalculationFederal Department for Media Harmful to Young PersonsGRADELADY <Programmiersprache>Computer networkComputer animation
30:14
HauptspeicherFederal Department for Media Harmful to Young Persons
30:52
BASICService (economics)Object (grammar)HOLComputer animation
31:52
DemosceneWorld Wide WebUploadingDynamic Host Configuration ProtocolTINA <Telekommunikation>ERNA <Programm>Standard MLSATAN <Programm>Computer reservations systemICON9 (number)ProviderSoftwareNeWSExpressionInverter (logic gate)DownloadCellular automatonDisplayForceTable (information)Object (grammar)InformationUnits of measurementSoftware developerLibrary catalogWeb browserServer (computing)Data typeCoordinate systemPoint of saleMetadataWeb serviceSource codeMetreZugriffACCESS <Programm>GRADEService (economics)Field extensionHome pageLink (knot theory)RadiusReading (process)ADQLPlotterPhysical quantityCodeStandard deviationSIMPL <Programmiersprache>Parameter (computer programming)Military operationArchaeological field surveyWindows RegistryComputer animation
39:58
Point cloudEnde <Graphentheorie>WEBStandard deviationRaw image formatLecture/ConferenceComputer animation
41:14
Machine learningMassendatenEnde <Graphentheorie>DatabaseLibrary catalogLecture/Conference
42:15
Client (computing)DemosceneZugriffDatabaseData centerServer (computing)Service (economics)Uniform resource locatorComputer animationLecture/Conference
43:44
Source codeService (economics)AstrophysicsDatabaseEnde <Graphentheorie>MetadataPAPNumberMaß <Mathematik>Moment (mathematics)Web serviceRow (database)Point cloudTable (information)Execution unitSubject indexingPhysical quantityMetreGeometryGRADEUnits of measurementDirection (geometry)DatabaseLecture/Conference
50:39
openSUSEComputer animation
Transcript: German(auto-generated)
00:07
Danke für die Einführung. Herzlich willkommen zu meinem Vortrag Virtual Observatory. Erstmal ein paar Worte zu mir. Ich bin Doktorand an der Philips Universität Marburg im Bereich Astronomie.
00:21
Ich beschäftige mich forschungsmäßig im Wesentlichen mit variablen Sternen. Das sind Sternen, die in irgendeiner Form ihre physikalischen Eigenschaften, zum Beispiel die Helligkeit, ändern. Mit dem Zielverfahren, also Datamining-Verfahren, maschinelles Lernen, sowas in die Richtung auf fotometrische Daten, das sind Helligkeitsdaten, anwenden zu können.
00:41
Und die Datensätze, die ich mir dabei angucke, das sind im Wesentlichen digitalisierte Fotoplatten. Der zweite große Teil meiner Arbeit sind meine Beiträge zum Fedora-Projekt. Ich bin Fedora-Entwickler, im Wesentlichen für die Paketierung von wissenschaftlicher Software zuständig. Letztes Jahr haben wir da dann auch das Astronomy Lab, das ist eine Fedora-Version mit Astronomiesoftware, vorbestückt,
01:05
haben wir da veröffentlicht. Und dann bin ich da in verschiedenen Gruppen, zum Beispiel zu KDE, zu Python und sowas, Mitglied. Gut, worüber will ich reden? Ich will über das Virtual Observatory reden. Zunächst will ich mal definieren, was das Ganze überhaupt ist, über was wir hier überhaupt reden.
01:23
Dann möchte ich die Organisationsstrukturen davon so ein bisschen vorstellen, was es damit auf sich hat. Die Standards, die in dem Rahmen des Virtual Observatory entwickelt worden sind, kurz vorstellen. Und zum Schluss so ein bisschen ein paar Softwarepakete vorstellen. Das will ich dann auch, sofern es die Internetverbindung zulässt, live tun.
01:44
Gut, was sind astronomische Messdaten überhaupt? Das ist das, was man in das Virtual Observatory reintun will. Normalerweise ist ein Observatorium ja eine Sternwarte. Das ist das Ziel jetzt natürlich in dem Fall nicht. Sondern die Idee dahinter ist eher, alle möglichen astronomischen Daten in irgendeine Art von Cloud oder sowas reinzupacken
02:07
und dass man im Prinzip alle astronomischen Daten verfügbar hat. Dazu muss ich jetzt aber erstmal abstecken, was sind überhaupt astronomische Messdaten. Da gibt es verschiedene Sorten. Da gibt es zunächst mal ganz salapt die Bilddaten, also eine Aufnahme, die gemacht worden ist,
02:22
die man dann irgendwie erst noch weiter analysieren muss. Also jetzt sowas hier. Dann gibt es Spektraldaten. Also wenn man sich die Physik der Objekte genauer angucken will, spektroskopiert man die üblicherweise. Die sind von ihrer Art schon ein bisschen anders wie Bilddaten. Und dann zum Schluss gibt es noch die klassischen Kataloge, also irgendwie da, wo die Sterne drin verzeichnet sind,
02:45
wo sind sie genau, wie hell sind sie, was für eine Art von Stern ist das. Also es gibt da verschiedene Arten von Daten, mit denen man da zurechtkommen muss. Gut, wo kommen die Daten her? Heutzutage kommen die vor allem von Surveys, das sind systematische Himmelsdurchmusterungen.
03:04
Also aktuell unterwegs ist Gaia, die Sonde, das ist eine Weltraumsonde, die im Wesentlichen Positionsmessungen und Helligkeitsmessungen von Sternen macht. Die ist, glaube ich, seit 2014, 2015 am Messen. Letztes Jahr im September haben sie ihr erstes Data Release rausgebracht.
03:23
Dann die nächste große Maschine, die 2019 das erste Mal aufnehmen machen soll, ist das LSST. Und das Ding wird so große Datenmengen produzieren, dass man das mit herkömmlichen Methoden nicht mehr handhaben kann. Also wir reden davon, etwa 15 Terabyte pro Nacht, die aufgenommen werden.
03:42
Und was bei solchen Datenmengen natürlich auch wichtig ist, kein Mensch kann die natürlich irgendwie alleine auswerten, deswegen muss da irgendwie ein offener und einfacher Zugriff auf diese Daten realisiert werden können. Bisher ist es nämlich meistens anders, wenn man irgendwie bei einem Teleskop oder so Beobachtungszeit beantragt,
04:02
dann guckt man sich da diesen speziellen Bereich an, hat eine sehr kleine Datenmenge, die man noch selber auswertet, die vielleicht auch sonst nie irgendwer zu Gesicht bekommen wird. Das ist bei den Surveys komplett anders. Bei Gaia ist es zum Beispiel so, da hat vorher die Daten überhaupt niemand zu Gesicht bekommen. Also die sind direkt so in ihrer vollkommenen Form nachdem die ein bisschen vorverarbeitet worden sind,
04:23
dass man so gut benutzen kann, sind die direkt öffentlich gemacht worden. Da hat kein Wissenschaftler vorher irgendwie exklusiv Zugriff bekommen. Gut, wie sieht die Datenveröffentlichung aktuell meistens aus? Leider sieht die ziemlich grottig aus in vielen Fällen, nicht in allen Fällen.
04:41
Also bei manchen hat sich schon ein bisschen was getan. Bei kleineren Datenmengen ist tatsächlich leider irgendeine Texttabelle oder irgendein Bild einfach auf dem FDP-Server abgelegt immer noch Standard. Das Problem dabei ist schon für andere Leute, diese Daten überhaupt zu finden. Also immer jetzt irgendwie, gut, wenn der Dateinahme vielleicht ein bisschen glücklich gewählt ist, findet man es über Google noch.
05:01
Aber das kann es ja dann auch nicht sein. Und in vielen Fällen findet man es dann eben einfach gar nicht, weil es nirgendwo wirklich verzeichnet ist, außer man liest jetzt von dieser Gruppe irgendwie gerade die Publikation durch und die verweisen dann darauf. Bei Surveys, gut, dann wegen der Datenmengen musste das auch vorher schon irgendwie in einer besseren Form rausgegeben werden.
05:23
Meistens haben die dann irgendeine Art von eigenem spezifischen Datenbank-Interface. Also jetzt hier zum Beispiel, das ist das Web-Interface von Ogle. Das ist das Optical Gravitational Lensing Experiment. Die haben im Südhimmel Sterne immer und immer wieder durchgemessen.
05:40
Und da bekommt man dann, wenn man auf die Seite von denen geht, hier einfach so ein Interface. Und da kann man dann irgendwie angeben, also hier zum Beispiel, das sind irgendwie in welchem Positionsbereich man sich die Objekte angucken will. Und solche Sachen, im Wesentlichen ist das einfach so eine leichte Abstraktion für eine SQL-Abfrage.
06:01
Meistens kann man dann auch irgendwo auch die SQL-Datenbank dann noch direkt ansprechen. Das Problem dabei ist, jeder kocht da sein eigenes Süppchen. Jedes Mal, wenn man Daten von irgendwo haben will, muss man sich das dann selber wieder neu aneignen. Und eine standardkonforme Veröffentlichung, wo man sich wirklich vorher auf was geeinigt hat, das ist bisher leider noch relativ selten.
06:22
Bei Gaia, bei dem Astrometriesatelliten ist das zum Beispiel gemacht worden. Gut, wie gesagt, kein standardisierter Zugriff. Das fängt dann oft schon damit an. Also hier jetzt in dem Fall, das ist jetzt das Webinterface vom Panstar-Server. Das sieht jetzt schon mal wieder komplett anders aus. Wer da Daten haben will, darf sich das einfach nochmal komplett neu aneignen.
06:42
Obwohl die Logik dahinter, was man eigentlich haben will, im Prinzip die gleiche ist. Man will irgendwie nach Positionen, nach Helligkeiten oder sowas filtern. Das heißt, physikalisch will man eigentlich das Gleiche, aber man hat da ein komplett anderes Interface. Einfach weil es irgendwer anders programmiert hat. Und das will man eigentlich dann möglichst vermeiden.
07:00
Und das fängt dann teilweise schon bei so banalen Sachen an, wie Variablenamen, die dann irgendwie anders genannt worden sind und so Geschichten. Und dann, was man auch oft immer noch bekommt, sind dann die Tabellen in der Form von Textdateien. Oder noch schlimmer, einer der größeren Kataloge für Deep-Sky-Objekte, also Nebel und sowas,
07:21
der wird tatsächlich in Form einer Excel-Tabelle veröffentlicht. Das ist sehr unschön. Und da will man sich dann eben Gedanken machen, wie man das besser tun kann für die Zukunft. Also fassen wir mal die Anforderungen der Benutzer zusammen. Also man will irgendeine Art von standardisierter Darstellung der Daten haben, dass man jeden Service im Wesentlichen in der gleichen Form benutzen kann.
07:45
Dann braucht man natürlich auch noch gewisse Metadaten. Bei Bildern kann das zum Beispiel sein, wann die gemacht worden sind. Oder bei Katalogen, so ein bisschen wie diese Kataloge erstellt worden sind. Dann aber auch so physikalische Sachen wie Maßeinheiten und sowas. Das gehört natürlich auch immer dazu. Das ist bei Texttabellen oft auch ein bisschen grude versteckt.
08:04
Was dann wichtig ist, was leider auch immer wieder mal baden geht, ist die Verfügbarkeit des Dienstes. Oft ist es nämlich so, dass die Datenveröffentlichung, also es wird irgendwann mal ein Projekt bewilligt, dann wird irgendwie der Himmel durchgemessen bei diesem Survey und irgendwann ist das Projekt dann vorbei.
08:21
Dann läuft dann der Server in glücklichen Fällen noch ein paar Jahre weiter und dann geht irgendwann der Server kaputt und dann sind die Daten erstmal nicht mehr erreichbar. Zwar sind die in der Regel nicht weg, weil die Leute ihr Backup und ihr Archiv gemacht haben, aber man kommt so ganz einfach erstmal nicht mehr dran. Das kann es auch bei öffentlich finanzierten Projekten und in der Astronomie ist eigentlich fast alles öffentlich finanziert von Steuergeldern
08:42
eigentlich auch nicht sein, dass da Daten dann einfach mehr oder weniger fast im Nirvana verschwinden. Und dann, wie gesagt, die einfache Benutzbarkeit sollte sichergestellt sein. Also der Wissenschaftler soll in seiner Arbeit unterstützt werden und er soll nicht seine Zeit damit verschwenden, sich Sachen x-mal in irgendeiner Form wieder neu beibringen zu müssen.
09:02
Was schließlich auch noch hilfreich ist, ist eine gute Integration mit anderen wissenschaftlichen Paketen. Zum Beispiel Python setzt sich in der Astronomie immer mehr durch, dass man das von Python aus sehr gut ansteuern kann. Gut, was ist die Vision hinter dem Virtual Observatory? Im Prinzip die Lösung von diesen ganzen Problemen, die ich eben genannt habe.
09:23
Also die Sammlung und Bereitstellung von möglichst allen astronomischen Daten in einer leicht benutzbaren Form, die Integration mit anderer Software, die Integration zwischen verschiedenen Services und die IVOA, das ist die internationale Kooperation, die sich dem Virtual Observatory verschrieben hat,
09:42
hat das mal so formuliert, wir wollen im Prinzip von der Struktur her, vom Aufbau so was wie das World Wide Web für die Astronomie machen. Also halt natürlich ein bisschen domainspezifisch für die Astronomie, aber so von seiner Funktionsweise dezentral und so will man das im Prinzip auch so machen und dann auch so was wie Suchmaschinen und so was im Prinzip haben.
10:01
Also die Analogie zum World Wide Web ist da schon ganz naheliegend und gut. Gut, was kommt da dann für eine Grundstruktur bei raus? Also wir fangen die Datenwandern im Prinzip von unten nach oben, also hier unten sind die Provider, also das ist zum Beispiel irgendein Survey, ein Teleskop was misst und was dann irgendwie Daten ausspuckt und das Ganze muss dann irgendwie hoch zum Benutzer, zum Wissenschaftler kommen
10:24
und da hat man im Wesentlichen zwei Sachen. Zum einen gut die Daten müssen zum Wissenschaftler hinkommen, das heißt man braucht irgendwelche Protokolle und Verfahren, um die Daten halt raus zu rücken, aber auf der anderen Seite, was man nicht vergessen darf, der Wissenschaftler muss die Daten natürlich auch erstmal finden können,
10:41
also das klingt jetzt vielleicht banal, ist es aber in Wirklichkeit nicht. Da muss man natürlich doch ein bisschen Aufwand reinstecken, dass die Daten auch wirklich auffindbar sind, dass sie so mit Metadaten versehen sind, dass man sie einfach finden kann. Dementsprechend bauen sich dann die Konzepte des VR aus, also man will eine weitgehend dezentrale Struktur haben,
11:03
also nicht wenn dann irgendwie ein Projekt wird nicht mehr bezahlt, Sponsoring ist ausgelaufen, dann ist auf einmal alles weg, das ist natürlich böse, deswegen will man keine zentralisierte Struktur haben. Dann will man so irgendwas wie eine Suchmaschine haben, da hat man sich dann für die sogenannte Registry entschieden, das ist im Prinzip ein ganz großes Verzeichnis,
11:21
was gepflegt wird, wo einfach nur Metadaten zu den Katalogen, also zum Beispiel an welcher Stelle hat der Katalog Daten, von was für Wellenlängenbereichen hat der Katalog Daten und sowas ist da drin verfasst, aber die Daten selber sind nicht da drin. Dann will man die Interoperabilität sicherstellen, das macht man durch offene Standards,
11:41
also dass man das im Prinzip jeder hingehen kann und seine eigene Implementierung für seine Zwecke machen kann, diese Standards benutzen kann und damit aber auch mit allen anderen reden kann. Gut, dann braucht man auch ein bisschen speziellere Dateiformate, das kommt einfach aus den Anforderungen, also wie gesagt die Excel-Tabelle ist einfach nicht die Lösung, hat ja auch teilweise Binärdaten und sowas.
12:02
Dann muss man sich auch über Datenmodelle Gedanken machen, also wie stellt man jetzt zum Beispiel eine Zeitreihe idealerweise da, wie stellt man einen Spektrum da, das sind physikalisch verschiedene Sachen, da braucht man auch verschiedene Datenmodelle, wie stellt man diese Daten am besten da und dann braucht man natürlich, damit das Ganze auch in irgendeiner Form benutzbar wird
12:21
und nicht nur die daher geredete Idee ist, freie Referenzimplementierung der Protokolle, was dann letztlich die Implementierungen sind, die man auch benutzt. Also es gibt ein paar Programme, die nicht frei sind, die VO-Standards implementiert haben, aber das, was in der astronomischen Community so benutzt wird, das ist alles frei.
12:41
Immer dann das Modell, was wir uns von dem VO, was wir uns eben angeschaut hatten, mal ein bisschen anfängt auszustopfen, also die Registry hier ersetzt das, was wir eben als Finding, als Finden da drin hatten, also da ist im Prinzip dann alles an Daten verzeichnet, und dann der andere Weg, die Daten von den Providern irgendwie zu den Benutzern zu bekommen,
13:04
das wird durch die Datenzugriffsprotokolle, Data Access Protokolls gemacht und dann muss man sich hier im VO, wie das Ganze aussieht, muss natürlich, das muss irgendwie funktionieren können, also man muss sich da dann über Datenformate Gedanken machen, über die Datenmodelle Gedanken machen,
13:21
dann wie fragt man diese Daten ab, also hier VO Query Languages und sowas. Gut, dann nur mal ganz kurz, wie der aktuelle Bestand im VO aussieht, also das ist nicht erst so, dass man da gerade irgendwie Daten, dass man das ganze Konzept gerade erst am Erfinden ist, sondern das ist schon seit einigen Jahren im Kommen und im Wachsen,
13:43
also es gibt mittlerweile um die 15.000 Services insgesamt. Services, irgendeiner, der einen Server hat und dann einen Dienst bereitstellt, da gibt es dann ungefähr 10 auf 4, also 10.000 Cronsearch-Dienste, das ist dann irgendwie, man hat irgendeinen Punkt im Himmel und will in einem Radius von einem Grad oder so alle Objekte haben
14:02
und will dann entsprechend die wissenschaftlichen Daten zu diesen Objekten bekommen. Dann gibt es auch weniger Dienste für Bilder- und Spektraldaten. Bilddaten sind meistens irgendwelche Surveys, die den Himmel durchmustern, die diese Bilder dann bereitstellen, DSS zum Beispiel. Und dann gibt es noch die Katalogdienste,
14:21
das sind Tab-Dienste, Table Access Protocol, die wesentlich einfach den Katalogdaten ausgeben und das sind mittlerweile auch um die 30.000 bis 40.000 Tabellen, wenn ich mich jetzt richtig erinnere. Und das ist ungefähr etwas über eine Billion an Katalogzahlen, die man da insgesamt mittlerweile angesammelt hat.
14:41
Und es fehlt trotzdem doch noch einiges an Daten. Gut, dann will ich jetzt ein bisschen auf die Organisation von dem Ganzen eingehen. Der Schirmherr von dem Ganzen ist so ein bisschen die IVOA, das ist die International Virtual Observatory Alliance. Die ist 2002 gegründet worden und die hat sich zur Aufgabe gemacht,
15:02
diese ganzen Bestrebungen zum WO auf internationaler Ebene zu koordinieren, weil es macht jetzt keinen Sinn, da irgendwie jetzt zum Beispiel, wir fangen hier in Deutschland an, unsere Lösungen zu kochen, dann fängt man in China an, an eigenen Lösungen zu kochen, dann hat man hinterher doch wieder diesen Haufen von incompatiblen Sachen. Deswegen hat man da von Anfang an gesagt,
15:21
nee, das muss auf internationaler Ebene eben organisiert werden. Auch weil Surveys wie zum Beispiel LST und so, die sind natürlich auch von vielen Ländern gesponsert, also da steckt nicht ein Land irgendwie dahinter, die zu viel Geld haben, sondern da haben sich sehr viele Länder zusammengetan. Also da ist im Prinzip die internationale Kooperation zwang und in der Forschung ist die eigentlich sowieso üblich.
15:42
Und was in der IVOA dann gibt, das sind Fachgruppen, die zum Beispiel die Standards erarbeiten, das sind dann Leute, die sich zusammensetzen, das sind teilweise Informatiker, das sind Astrophysiker, weil da muss man natürlich dann auch die entsprechenden Welten zusammenbringen. Der Informatiker weiß, wie stelle ich Daten in einer Datenbank idealerweise, da also der die technische Seite sehr gut kennt.
16:02
Aber man braucht natürlich dann auch irgendwie den astronomen Astrophysiker, der weiß, was man denn hinterher für die Wissenschaft wirklich braucht. Also da muss man dann zwischen den Disziplinen auch ordentlich kooperieren. Gut, dann gibt es noch andere Fachgruppen, zum Beispiel für Education und Public Outreach,
16:20
dass der Punkt dabei ist, es bringt nichts, das Ganze zu machen, wenn es keiner benutzt. Also das sind Leute, die sich wirklich damit befassen, wie kann man das Ganze gut nutzbar machen, wie müssen die Programme aussehen, was braucht der Wissenschaftler. Und die fahren dann auch auf Konferenzen und bieten dann wirklich Workshops an, also jetzt das IVOA praktisch zu benutzen, damit die Forscher da eben wirklich Praxis in der Geschichte bekommen.
16:43
Und ja, ich habe da mal von gehört und lasse es dann links liegen, sondern dass sie wirklich merken, dass die ganze Sache sinnvoll ist und dass man das IVOA eben auch an den Mann bringt. Weil das Ganze soll den Leuten ja bei ihrer wissenschaftlichen Arbeit helfen, das soll kein Selbstzweck sein. Gut, die IVOA ist im Prinzip die zentrale Organisation
17:02
und da gibt es dann diverse lokale Unterorganisationen. Also hier ist zum Beispiel GARO, das ist das German Astrophysical Virtual Observatory, das ist die deutsche Fraktion. Dann gibt es das Ganze ja auch noch für China, aber eben auch zum Beispiel europäische Südsternwarte, also die ja wirklich Sternwarten in Hiele betreibt.
17:22
Die sind da Mitglied oder auch hier die ESA, die da den Astrometriesatelliten Gaia zum Beispiel betreibt. Also da sind wirklich auch schon Observatorien, also die Datenerzeuger sozusagen, die sind da genauso beteiligt wie die Leute, die das Ganze eben dann an den Mann bringen wollen.
17:40
Genau, GARO ist die deutsche Abordnung sozusagen, die ist seit 2003 aktiv. Gestartet ist das Ganze als vom BMBF Bundesministerium für Bildung und Forschung gefördertes Verbundsforschungsprojekt. Da sind auch mehrere Institute hier in Deutschland beteiligt. Aktuell sind das im Wesentlichen das Leibniz-Institut für Astrophysik in Potsdam
18:00
und das Astronomische Recheninstitut der Uni Heidelberg. Daneben sind glaube ich, Tübingen ist noch beteiligt und München glaube ich auch noch und die koordinieren im Prinzip die WIO-Aktivitäten in Deutschland, kümmern sich auch um Entwicklungen und solche Sachen. Also wenn man guckt, was diese Organisationen insgesamt machen,
18:23
also auf internationaler Ebene muss man natürlich so Sachen wie Standards verabschieden und so Geschichten machen. Die Softwareentwicklung muss man auf internationaler Ebene irgendwie koordinieren können und auch allgemeine Informationen, also wie jetzt, wenn der Astronom nach Virtual Observatory irgendwie googelt, dass da irgendwas Sinnvolles bei rauskommt,
18:43
das macht man natürlich auch auf der Ebene. Das da macht es landesspezifisch natürlich keinen Sinn, auch wenn die Leute, die in der IVOA sitzen, natürlich dann auch in ihren entsprechenden lokalen Organisationen Mitglieder sind. Also auf nationaler Ebene ist das dann ein bisschen weiter unten. Also jetzt zum Beispiel Gawo in dem Fall, da kümmert man sich dann zum Beispiel um Education
19:04
und Public Outreach, also das Ganze eben hier in Deutschland an ihm anzubringen. Also die haben dann eine Zeit lang wirklich sogenannte V-Out-Days gemacht. Da sind die dann einfach wirklich irgendwie mit dem Auto oder mit dem Zug zu verschiedenen Astro-Instituten in Deutschland hingefahren und haben den Arbeitsgruppen dort das Virtual Observatory wirklich im praktischen Einsatz gezeigt.
19:23
Also da ging es dann wirklich darum, zu den Instituten hin und das Ganze wirklich in den Praxiseinsatz zu bringen. Damit treibt Gawo noch Datenzentren in Potsdam und in Heidelberg, also im Wesentlichen Katalogdaten, digitalisierte Fotoplatten und sowas gehostet.
19:41
Und letztlich werden die Wissenschaftler auch bei der Veröffentlichung von ihren Daten unterstützt, weil man will die Daten ja in das V.O. reinbringen und man muss die Leute dabei unterstützen, einfach damit das Ganze in der richtigen Form im V.O. landet, damit die Leute nicht zu viel Zeit dafür aufbringen müssen, weil das ist ja auch immer so ein Problem. Wenn man da irgendwie einen Doktoranden oder sowas hat,
20:01
der ist dann unter Zeitdruck, irgendwie wenig bezahlt und so weiter, da bleibt sowas natürlich irgendwie Daten in die Öffentlichkeit bringen, gegenüber der eigenen Forschung als allererstes links liegen. Deswegen muss man die Leute einfach dabei auch unterstützen, die Daten veröffentlichen zu können. Und letztlich wird auch einige Software unter der Schirmherrschaft von Gawo entwickelt.
20:22
Das ist zum Beispiel DAX, das ist eine Multiprotokoll-V.O.-Server-Lösung. Also wenn man ein eigenes Datenzentrum fürs V.O. betreiben will, dann kann man das benutzen. Dann haben sie ein Tools zur Spektralanalysesplatt und noch verschiedene andere kleine Tools entwickelt. Also jede von diesen ganzen Organisationen, die man hier sieht,
20:41
die entwickeln einen Teil von den ganzen V.O. Tools mit, sodass sich insgesamt dann eine sinnvolle Menge von Tools für die Arbeit ergibt. Gut, will ich ein paar Worte zu den Standards verlieren. Wie gesagt, wenn die von der IVOA erarbeitet und veröffentlicht in den Fachgruppen. Ich hatte vorhin kurz genannt, was wir so für astronomische Messdaten haben,
21:04
also Spektraldaten, Bilddaten und sowas. Da hat man jeweils dann den entsprechenden Standard entwickelt. Also jetzt zum Beispiel für die Bilddaten den Simple Image Access, für die Spektraldaten den Simple Spectral Access und so weiter. Und für die Katalogdaten hier Table Access Protocol Tab. Da gibt es noch einen ganzen Boost von Standards für speziellere Anwendungszwecke.
21:25
Also das hier sind so die Hauptstandards, die man im praktischen Alltag dann so benutzt. Dann muss man sich natürlich auch über die anderen Sachen, so wie Dateiformate, Gedanken machen. Also jetzt wenn man zum Beispiel von der Excel-Tabelle weg will, da wurde das Format V.O. Tables entwickelt.
21:42
Das ist im Wesentlichen ein XML-basiertes Datenformat. XML ist jetzt erstmal eine Textdatei, würde man sich denken. Moment, so, geht wieder.
22:02
Und für den Datenteil hat man sich dann natürlich Gedanken gemacht, die reine Textdarstellung ist für größere Datensätze, wenn man irgendwie so einen Katalog mit mehreren Millionen Zeilen hat, dann doch nicht so ideal. Also kann man da dann auch eine Binärdarstellung in der XML-Datei einbetten. Das ist dann eine Base64-codierte, langer String. Gut das Interpretieren von dem Ding, das dauert dann ein bisschen.
22:21
Aber hinterher damit zu arbeiten, das geht wieder relativ schnell. Und die V.O. Tables, die haben dann eben auch die entsprechenden Metadaten, wie zum Beispiel physikalische Maßeinheiten und so was drin. Immerhin, dass sich das Ganze dann wieder in das Bild von vorhin einbaut. Also wir haben hier die Registry, also das Finden von den Daten.
22:41
Gut, dass dann sowas wie das Registry-Interface und sowas entwickelt wurden für die Formate V.O. Tables. Dann hier diese ganzen, zum Beispiel hier, wo haben wir es denn? Genau, hier diese ganzen Datenzugriffsprotokolle. Also Simple Image Access würde jetzt hier zum Beispiel auch stehen. Ich frage mich gerade, warum der hier nicht drin ist. Wahrscheinlich nur ein paar Beispiele.
23:03
Und dann hier nach oben eben zur User-Ebene auch so Standards, die lokale laufende Programme betreffen. Da gibt es hier zum Beispiel Samp. Das ist ein Protokoll, bei dem verschiedene V.O.-Anwendungen miteinander reden können, die man dann bei sich selber ausführt. Also da kann man zum Beispiel dann irgendwie Splat laufen lassen, was diese Spektralanalyse macht.
23:23
Man kann Topcat laufen lassen, was Tabellen irgendwie drin hatte und kann dann zum Beispiel von Topcat die Tabelle mit irgendwelchen Daten an Splat senden. Das kann die dann auswerten. Also man kann da im Prinzip so ähnlich wie bei einer Unix-Pipe zwischen den verschiedenen Programmen dann Daten hin und her schicken, sodass man immer spezialisierte Programme für einen Zweck benutzen kann
23:43
und dann einfach die Daten mit dem entsprechenden Programm bearbeitet und dann per Samp weiter schickt. Gut, dann braucht man für das V.O. da natürlich auch noch so ein bisschen interne Struktur. Zum Beispiel bei den V.O. Query Languages hat man da dann ADQL entwickelt. Das ist ein SQL-Dialekt und hat sich dann auch über andere Sachen noch Gedanken gemacht.
24:06
Also Semantik zum Beispiel, UCD, das sind Unique Column Identifiers, das im Prinzip immer so Spaltennamen hat. Jeder nennt seine Spalten irgendwie anders. Der eine schreibt irgendwie den ersten Buchstaben groß, der andere schreibt den ersten Buchstaben klein. Und wenn man den ganzen Salat vermeiden will, hat man sich Gedanken gemacht,
24:23
okay, wir reden ja immer im Prinzip über die gleiche Art von Daten, also irgendwie Positionsdaten, Helligkeitsdaten und so weiter. Da hat man sich dann eindeutige Identifier überlegt. Also zum Beispiel für Fotometriedaten steht dann FOD da drin oder für Positionsdaten, die fangen dann mit POS an.
24:41
Also da hat man sich einfach auf einen eindeutigen Satz von Identifiern für Spalten in Tabellen überlegt. Genau. Und als Datenbanksprache benutzt man ADQL. Das ist im Prinzip eine etwas aufgebohrte Version für astronomische Zwecke von SQL. Also in der Astronomie, wenn man sich mit Positionen am Himmel beschäftigt,
25:03
das ist im Wesentlichen sphärische Geometrie. Also Erde ist eine Kugel, also ist auch der Himmel über uns eine Kugel. Und wenn man da dann irgendwie Abstände und Winkel und sowas messen will, das ist natürlich in SQL standardmäßig nicht drin. SQL ist eben eine allgemein gehaltene Datenbanksprache. Da hat man dann diese Sachen sozusagen on top auf SQL noch draufgesetzt
25:22
und das Ganze dann als astronomical data query language standardisiert. Gut, jetzt komme ich ein bisschen zur Software hinter der ganzen Geschichte. Auf der Serverseite, jetzt habe ich gerade ADQL vorgestellt, muss man natürlich auch damit umgehen können. Also wenn ich jetzt irgendwie eine MySQL oder Postgres Datenbank habe,
25:43
das ist natürlich erstmal so eine Standard-Datenbank, die kann natürlich diese ganzen tollen Rechnungen von ADQL noch nicht machen. Im Prinzip könnte man das Ganze jetzt on top oben draufsetzen. Also man hat irgendwie die Datenbank unten drin, die nur nach den Werten sucht und so weiter oder sortiert und die ganzen Geschichten macht.
26:01
Das Problem dabei ist natürlich, das Ganze kann unter Umständen sehr langsam sein. Also wenn man sich jetzt zum Beispiel Positionen anguckt, da hat man schon zwei Dimensionen. Also im Prinzip hoch, runter, links, rechts. Da kann man auf den Himmel auch übertragen. Reklassension, Deklination heißt es da dann. Da muss man im Prinzip schon zweidimensional indizieren.
26:22
Und wenn man noch ein bisschen mehr hat, zum Beispiel noch Rotverschiebungsdaten hat für Entfernungen, da kommt man dann schnell in mehrere Dimensionen. Also das ist was, was eine Datenbank normalerweise da nicht mehr abdeckt. Da hat man dann aber für die Postgres Datenbank PGS4 entwickelt. Ich bin mir gerade nicht sicher, ob das für Astronomie oder für Geowissenschaften,
26:42
die brauchen sowas nämlich auch, entwickelt worden ist. Wo die sphärische Geometrie das Indizieren direkt in die Datenbank unten reingepflanzt worden ist als Datenbankerweiterung. Also wo die Datenbank dann entsprechend auch räumlich indizieren kann und solche Sachen machen kann. Also da kann man dann eben auf der Datenbank-Ebene das Ganze auch verbessern.
27:04
Und dazu zählt zum Beispiel auch die Umsetzung von HealPix. Das ist im Prinzip, ich werde gleich noch ein bisschen Software vorstellen, so eine Art Hierarchie, so eine Art Baumstruktur in den Himmelsobjekten. Also man wird es gleich erkennen, wenn ich es vorführe. Das ist jetzt ein bisschen schwierig zu erklären.
27:20
Also im Prinzip so eine Hierarchie-Ordnung, Baumstruktur. Gut, dann ist, habe ich eben schon erwähnt, ist von Garo DAX entwickelt worden. Das ist die Server-Software, also mit der man so ein Datenzentrum eben betreiben kann. Die implementiert dann eben alle wichtigen Standards, Protokolle, stellt auch Webinterfaces zur Verfügung.
27:42
Also manchmal will man da nicht irgendwelche, erst irgendein Pipen-Script oder sowas schreiben, sondern will sich nur irgendwie gerade ein paar Zeilen, weil man gerade genau weiß, was man braucht, in ein Webinterface reingeben und sich das einfach nur schnell angucken können. Das Ganze ist weitestgehend in Pipen basiert und unter der GPL auch freigegeben.
28:02
Gut, dann werde ich jetzt noch ein bisschen kleine Software vorstellen. Also jetzt zunächst Alalin, das ist eine interaktive Himmelskarte, wo man sich Serveraufnahmen und sowas angucken kann. Das ist auch ein freies Software. Und dazu muss ich mal gerade hoffen, dass die Internetverbindung schnell genug ist.
28:20
Und ich hoffe, man kann so halbwegs was erkennen. Oder ist das zu dunkel? Okay. Also das hier ist die Software Alalin. Das ist eine Art interaktive Himmelskarte, die auf das V.O. live zugreift. Also ich kann jetzt hier zum Beispiel irgendeinen schönen Stern eingeben. Geben wir mal Betelgeuse ein.
28:41
Das ist ein schöner Stern im Orion. Was das Ding jetzt im Hintergrund gerade gemacht hat, ist, es hat den Namen Betelgeuse aufgelöst, geguckt, wo ist das Ding und ist dann hier an die entsprechende Stelle gesprungen und hat jetzt eben Bilder aus dem V.O. geladen. Und was ich jetzt eben mit HealPix meinte, wenn ich hier ganz weit rauszoome.
29:03
Also eben waren wir relativ nahe reingezoomt. Jetzt habe ich rausgezoomt. Ich kann natürlich im Prinzip keine Aufnahmen vom ganzen Himmel in dieser Auflösung, die wir gerade gesehen haben, in meinem Rechner hier halten. Das wäre viel zu groß, viel zu in-Performant. Und HealPix hat, und eben auch darauf aufbauende Sachen,
29:23
bieten dann eben die Möglichkeit, das ganze On-Demand umzuskalieren und die entsprechenden Sachen, die man gerade suchen will, nur rauszusuchen. Also ich zoome jetzt langsam mal wieder rein. Also wenn man jetzt das Ding hier erkennt, also im Winter erkennt man es am Himmel,
29:41
vielleicht das ist der Orion, hier ist der Stern Betelgeuse, hier sind die drei Gürtelsterne. Ich zoome jetzt immer weiter rein. Jetzt, je weiter ich reinzoome, jetzt lädt er eben die Daten erst nach und was er da runterladen muss, das kann er eben anhand von HealPix errechnen. Also im Prinzip ist das auch für die Indizierung, also eine effiziente Art,
30:04
diese Daten gerade runterladen zu können, zu wissen, was muss ich jetzt runterladen. Weil sonst würde das Ganze, ich meine, der lädt die Daten jetzt, man kann es hier unten sehen, live aus dem Netz runter. Also wenn ich jetzt hier hin und her zoome, das ist quasi sofort da. Das wäre natürlich, wenn ich jetzt diese ganzen Daten hier im Arbeitsspeicher hätte,
30:24
würde jetzt wahrscheinlich meine CPU irgendwie durchbrennen, das würde natürlich nicht gehen. Und wenn die ganzen Daten auf voller Tiefe jetzt irgendwie übers Netz erst reingeladen werden müssten, das würde auch viel zu lange dauern. Also diese Indizierung, die macht das Ganze eben sehr performant.
30:41
Und was jetzt Aladdin zum Beispiel auch kann, also das sind jetzt hier Bilder vom SDSS, das ist ein Fotoplatten-Survey gewesen. Man kann sich hier auch Daten zum Beispiel von anderen Wellenlängenbereichen angucken. Also weiß, das ist ein Infrarot-Satellit. Also das ist keine Infrarot-Farbe, das ist im Prinzip Falschfarbe. Nur damit man was sieht, also Infrarot könnten wir nicht sehen.
31:03
Man kann dann zum Beispiel auch so Sachen machen wie jetzt hier, wenn ich jetzt hier auf Simbad klicke, Simbad ist ein Dienst vom SDSS-Datenzentrum in Straßburg. Dann kann man sich hier eben zum Beispiel auch die Katalogdaten von entsprechenden Objekten durch anklicken holen. Also sehe ich jetzt hier zum Beispiel, okay, das Ding hat hier irgendwie diese Identifizierung.
31:24
Das ist jetzt vielleicht ein schlechtes Beispiel gewesen, da gibt es schönere. Genau, also hier die Positionsdaten, was es für eine Art von Stern ist. Das ist jetzt hier ein Hauptreihenstern. Die Eigenbewegungen, wie sich der Stern über den Himmel bewegt.
31:41
Die Helligkeiten in verschiedenen Spektralbereichen und so Geschichten. Also kann man sich dann hier zu den Objekten eben die Daten direkt reinholen. Gut, dann der nächste Klein, den ich vorstellen will, ist TopCat. Das ist das Tool für Operations on Catalogs and Tables, das ist LGPL.
32:02
Und das habe ich hier auch irgendwo geöffnet. Genau hier, also wenn man das aufmacht, sieht das erstmal so aus. Da gibt es hier oben schon das V.O. Und hier erkennt man jetzt hier Simple Image Access, Simple Spectral Access und so Geschichten. Also da sind die verschiedenen V.O. Standards sich direkt dahinter verstecken.
32:22
Und ich kann jetzt hier beispielsweise mal das Table Access Protokoll öffnen. Was ihr jetzt im Hintergrund gerade macht, das Fenster jetzt hier drüben. Hat jetzt im Hintergrund die Registry abgefragt nach Tab Services. Also was für Dienste bieten Tab an. Dann zeigen wir jetzt hier die entsprechenden Dienste dahinter an.
32:42
Also hier gibt es zum Beispiel Tab Vizier, das ist das riesige Datenzentrum in Straßburg, die sehr viele Kataloge, 35.000 ungefähr bereitstellen. Dann Garo hat hier zum Beispiel ein Datenzentrum. Dann Gaia müsste irgendwo noch auftauchen. Genau hier unten, da ist Gaia, dieser Astrometriesatellit.
33:03
Und da, also Table Access Protokoll ist, da versteckt sich eben dann auch ADQL dahinter. Also ich wähle jetzt hier mal Garo aus. Jetzt holt er sich von Garo eben die Metadaten runter. Jetzt bekomme ich hier die Liste von Katalogen gezeigt. Jetzt nehme ich jetzt zum Beispiel mal den UK4-Katalog.
33:22
Und in den Metadaten stecken dann sofort eben Informationen. Also was ist UK4 überhaupt für einen Katalog? Was für einen Magnetudenbereich hat der? Und dann hat der hier entsprechende Tabellendaten. Da kann ich mir dann erstmal angucken, wie sieht diese Tabelle überhaupt aus. Also jetzt hier irgendwie RA, J2000, DE, J2000, das sind die Himmelskoordinaten.
33:43
Dann gibt es hier PMRA, Proper Motion, also Eigenbewegungen. Und was das Schöne an diesem WO-Standard und an dieser Darstellung eben ist, ich habe hier entsprechend die ganzen Informationen, die ich als Wissenschaftler dann auch brauche. Also jetzt hier, gut, Datentyp, das ist eher eine Information, die man beim Programmieren braucht.
34:00
Aber dann hier physikalische Einheit. Dann eine Beschreibung von dieser Einheit. Und dann hier hinten die UCDs, also diese eindeutigen Identifier. Also die entsprechenden Informationen zu den Katalogen verstecken sich da dann dahinter. Und wenn man sich dann hier irgendwie ein paar Daten da rausholen will,
34:22
also ich mache jetzt nur mal irgendwie ein paar Zeilen davon. Also wer jetzt SQL kennt, der wird hier das Select-Top irgendwas von, im Prinzip schon wiedererkennen. Also das ist im Prinzip erstmal ganz normales SQL. In dem Fall kann man sich dann auch die Daten runterladen, in der Tabelle angucken und vielleicht auch irgendwelche Plots machen.
34:43
Also das ist auch ein Tool, was einen dann bei der Arbeit so ein bisschen unterstützt. Also das sind jetzt Katalogdaten von so zwei Himmelsflecken hier, die ich hier gerade runter geladen habe. Genau, also sowas kann man damit dann zum Beispiel machen.
35:00
Also da kann man sich dann die Tabellen entsprechend zusammensortieren und so Geschichten machen. Das runterfahren wollen wir noch nicht. Wenn man dann mal sehen will, zum Beispiel ConeSelection, ConeSearch. Vielleicht kann ich da mal irgendwie ein bisschen reingucken. Kann man das hier unten erkennen? Gut.
35:23
Also was man hier jetzt sieht ist, ich frage im Prinzip alle Objekte, also die ersten 1000 Objekte aus diesem Katalog ab, um so einen bestimmten Koordinatenbereich. Weil ich will jetzt wissen, aus welchem Himmelsbereich das Ganze so ungefähr ist. Also jetzt hier irgendwie 100, Wechselstation 189 Grad, Deklination 62, Radius von 0,05 Grad.
35:45
Und das hier ist jetzt eine Erweiterung, die durch ADQL kommt. Also jetzt zum Beispiel hier, was ist ein Kreis? Also ich will in einem Umkreis von so und so viel irgendwie Daten rauskriegen. Oder hier, dass das Ding weiß, ICIS, das ist das Standardkoordinatensystem,
36:02
also das Astronomische Koordinatensystem. Also solche Sachen werden dann durch ADQL definiert. Also das ist das, was über SQL dann hinausgeht. Gut, das Dritte, was ich dann noch kurz zeigen möchte, ist PyVO. Und dann bin ich auch soweit schon durch.
36:21
Muss ich noch mal in Brose finden. Also PyVO ist ein Python-Modul für die ganzen Zugriffe, die wir eben gemacht haben. Also Tab zum Beispiel, das ist voll integriert mit NumPy und AstroPy. Und ich zeige jetzt hier nur mal ein Beispiel. Das haben wir bei uns im Arbeitsgruppenseminar mal kurz gehabt. Da ging es darum, sich irgendwelche Kataloge anzugucken, weil wir Probleme mit der Datenkalibration hatten.
36:43
Und PyVO kommt hier insofern ins Spiel, als dass man natürlich, wenn man jetzt irgendwelche Daten präsentieren will, dann sollte das Ganze auch in irgendeiner Form nachvollziehbar sein. Also es ist immer unschön, wenn man dann, wenn man Daten präsentiert oder so, wenn man dann irgendwie nur so eine komische dubiose eigene Tabelle hat,
37:01
wo man nicht weiß, wie die wirklich entstanden ist, ob die nicht irgendwie in Werten zensiert worden ist, damit es schöner aussieht oder so. Jetzt lacht hier der ein oder andere, das passiert leider tatsächlich. Und das dem Ganzen kann man ein bisschen Abhilfe schaffen, indem man das Ganze reproduzierbar gestaltet, in dem Sinne, dass ich jetzt die Daten, die stammen in dem Fall nämlich aus dem Wo,
37:21
einfach sage, ich komme, liefe zu dieser Präsentation, das ist jetzt dieses Jupyter Notebook, was da im Hintergrund gerade war, eben eine Vorschrift mit, wie ich diese Daten beschafft habe. Und da kann ich PyVO benutzen. Also ich kann jetzt hier irgendwie den Tab Service von Vizier aus Straßburg, zum Beispiel, den benutze ich hier und kann dann sagen,
37:42
okay, jetzt für den APAS 9, das ist auch ein astronomischer Katalog, hier die genaue ADQL Vorschrift hinschreiben, wie diese Daten, die ich da in den ganzen Plots usw. im Hintergrund da gezeigt hatte, wie diese Daten eben zustande gekommen sind. Und das setzt sich langsam durch, dass man das macht.
38:01
Also es gibt mittlerweile auch Veröffentlichungen, wo dann der ADQL Code oder, wenn es nicht im Wo drin ist, ein anderer SQL Code vom entsprechenden Survey dann, dass der hinten im Anhang mit abgedruckt wird. Also dass jeder Wissenschaftler, der diese Daten liest, eben auch nachgucken kann, wie sehen diese Daten aus, ist es wirklich selber machen kann,
38:21
vielleicht auch an Parametern rumspielen, gucken, wo da wirklich Einflüsse liegen. Weil vorher war das manchmal ein bisschen unglücklich, mal wurde da irgendwie reingeschrieben, ja, wir haben Daten aus dem Ogle-Survey benutzt, dann weiß man natürlich nicht genau, welche Daten das jetzt letztendlich waren. Wenn man alle genommen hat, hat das Bild vielleicht erstmal ein bisschen anders ausgesehen. Das war dann immer unglücklich.
38:42
Und wenn man, also mit PyWO in dem Fall, kann man halt sagen, ich liefer den entsprechenden Code und dann, also einmal hier zum Datenunterladen mit, zeigt dann vielleicht hier auch den ganzen anderen NumPy, Matplotlib, sonst was Code, liefer ich hier dann auch noch mit, dann kann man das eins zu eins komplett reproduzieren.
39:01
Also sich dann hier diese verschiedenen, kann man diese ganzen verschiedenen Plots da machen. Also das hilft auch, wenn man mit anderen Leuten über so Probleme diskutieren will und so reproduzierbare Ergebnisse erhalten will, enorm, weil man wirklich ganz klar definierte Vorschriften hat, wie das Ganze aussehen soll.
39:20
So, dann komme ich jetzt zu den allerletzten Folien. Also wer sich jetzt dafür interessiert, wie man das Ganze benutzt. Gawo hat im Rahmen von Education und Outreach-Materialien erarbeitet und zusammengetragen. Die sind unter dem Link, also g-vo.org ist die Gawo-Homepage.
39:41
Da sind die entsprechenden Materialien verlinkt. Und das CDS, das große Astronomische Datenzentrum in Straßburg, das hat auch Tutorials. Also die haben auch, die legen ein bisschen mehr Wert auf Webinterfaces statt auf so dedizierten Client-Anwendungen. Die haben da auch entsprechende Tutorials mit vielen Beispielen dann erstellt, wo man sich das Ganze wirklich selber dann erarbeiten kann an Beispielen.
40:03
Man sieht dann auch meistens, wie es letzten Endes aussehen soll. Gut, damit bin ich so weit durch. Also was haben wir insgesamt gesehen? Also das VO will letzten Endes sowas wie das World Wide Web der Astronomie werden, will den Umgang mit astronomischen Daten so ein Stück weit auch revolutionieren.
40:20
Einfach damit man von FTP-Servern und so dem Kram, wo Daten irgendwie so lieblos abgelegt werden, wegkommt zu einer Struktur, die für Wissenschaftler sinnvoll nutzbar ist. Mittlerweile ist es auf einem ganz guten Weg, weil zum Beispiel der Gaia-Survey seine Daten grundsätzlich nur in dieser Form veröffentlicht. Und bei Daten wie, bei Surveys wie dem LSST wird man sowieso sich Gedanken machen muss.
40:44
Wir müssen bei 15 Terabyte pro Nacht gut, die werden noch ein bisschen reduziert. Also auf Fotometriedaten und so, dass man das auch sofort nutzen kann, damit nicht jeder seine eigene Fotometrie da machen muss. Die IVOA kümmert sich eben um offene Standards. Das Ganze zu promoten und solche Geschichten.
41:02
Und das, was man an sich da aktuell zum Beispiel mit Allerdy, mit Topcat und solchen Tools und IVO jetzt in den letzten Monaten vor allem auch erarbeitet hat, ist im wissenschaftlichen Alltag zum Beispiel für meine eigene Arbeit mittlerweile auch sehr, sehr hilfsreich. Also jetzt bei diese Plots, die man da eben kurz in dem Jupyter Notebook gesehen hat, da habe ich zum Beispiel dann relativ gut erkennen können,
41:22
okay, da gibt es verschiedene Kataloge, die in verschiedenen Bereichen von den Bildern verschieden gut sind. Ich kann damit adäquell auch Joints von verschiedenen Datenbanken machen. Also wenn der bessere Katalog da ist, also wenn für den Stern vom besseren Katalog Daten da sind, nehmen die von diesem Katalog, sonst nehmen sie eben von dem anderen.
41:42
Und letzten Endes muss man sich da dann, das Ganze dann ist das auch für den Weg der Astronomie in die Zukunft, also das VO-Konzept, wichtig, weil man kommt ja auch jetzt mittlerweile in den Big-Data-Bereich, wo man wirklich Massendaten auch nicht nur irgendwie erzeugen kann, sondern auch mit maschinellem Lernen und sowas auch analysieren kann,
42:02
wo man dann letzten Endes zum Beispiel Strukturinformation, wenn man variable Sterne analysiert, Strukturinformationen über die Milchstraße oder sowas letzten Endes rauskommen wird. Gut, damit bin ich durch, bedanke mich für die Aufmerksamkeit und bin auf die Fragen gespannt.
42:33
Der Datenbankzugriff ist frei, also man muss sich einfach nur jetzt zum Beispiel, man geht hin, lädt sich zum Beispiel Aladdin runter und da ist der VO-Zugriff sofort drin,
42:42
das greift sofort auf das VO zu, also es gibt manchmal, also manchmal muss man sich registrieren, weil so ein Datenbank, also wenn ich jetzt diesen Datenbankbefil in Topcat abschicke, der läuft dann auf dem Server im Rechenzentrum. Wenn man dann größere Jobs laufen lassen will, also das wird dann unter eigenen Accounts normalerweise gemacht, meistens muss man da nichts für bezahlen, aber dann hat man dann irgendwie,
43:02
was weiß ich, so und so viel 100 Megabyte Speicher, den man da belegen kann und so Geschichten. Es geht aber eher um die persönliche Zuordnung von den Daten und sowas ist es nicht. Oder wenn man jetzt zum Beispiel irgendwelche Abfragen, also eine Datenabfrage, die wirklich lang dauert, die kann man dann auch asynchron laufen lassen, da kriegt man nur eine URL zurück und kann dann gucken, wenn man die URL aufruft,
43:23
ist der Dienst fertig oder nicht, das geht natürlich nur, wenn man sich registriert hat dann. Das wird im Fall von GAVO zum Beispiel, vom BMBF, also von dem Bundesministerium für Bildung und Forschung
43:44
ist das bezahlt worden und das CDS in Straßburg, das große Astronomische Datenzentrum, das wird zum Beispiel von der EU mitbezahlt, also das sind meistens öffentliche Projekte.
44:13
Also man versucht im Moment sich in die Cloud-Richtung weiter zu entwickeln und dass man sagt, okay, wir speisen im Prinzip, also die Cloud wird dann von vielen betrieben,
44:24
also wo die Welt nicht mehr untergeht, wenn jetzt irgendwie einer da wegfällt und wo man dann wirklich alle Daten möglichst reinspeist. Aber im Moment sind das noch verschiedene einzelne Dienste und wenn da einer wegfällt und das ist leider auch schon passiert, dann erreicht man die Daten zunächst mal auch nicht mehr. Aber die Vernetzung, die man da zwischen den VO-Diensten und so vorgesehen hat,
44:43
also man ist im Moment dabei, diese Lösung für das Problem zu finden. Man hat es noch nicht, also das ist im Prinzip auf dem Weg.
45:11
Teilweise, also jetzt zum Beispiel die Gravitationswellenwissenschaftler, da ist es zum Beispiel auch so.
45:21
Wo es aber eher Kooperation jetzt in dem Bereich Datenzugriff, Datenbank und so weiter gibt, das sind tatsächlich die Geowissenschaften, weil die haben halt auch eher so räumliche Daten und so Geschichten. Also da sehen die Tabellen im Prinzip genauso aus, die haben halt andere physikalische Maßeinheiten, also wie viel Stickstoff ist da jetzt gerade irgendwie drin oder wie viel hat es geregnet usw.
45:42
Aber die haben halt natürlich dadurch, dass sie sich auf der Erdkugel bewegen, letzten Endes auch Positionsdaten, räumliche Indexierungen und so Geschichten. Also der Überlapp zwischen diesen Datenbankgeschichten hier ist tatsächlich zu den Geowissenschaften relativ groß. Da gibt es auch Kooperationen, also bestimmte Probleme eben gemeinsam anzugehen.
46:14
Also je jünger die Leute werden, desto größer. Es gibt leider, es ist leider tatsächlich so, also viele Leute mit schönen Webinterfaces und sowas,
46:25
so Doktoranden, sowas kriegt man da ziemlich schnell. Aber bei manchen Leuten haben sich dann leider doch arbeitsweisend irgendwie über die Jahre so eingearbeitet, also jetzt hat irgendeiner seinen CSV-Tabellenrieder, der irgendwie die ultimative Lösung zum Tabellenlesen ist, so liebgewonnen, dass er dann nicht mehr damit arbeitet.
46:43
Aber der Punkt ist eben dadurch, dass zum Beispiel Gaia seine Daten nur in dieser Formen-VO veröffentlicht, wird man mehr oder weniger irgendwo dann, wenn man Wissenschaft machen will, dazu gezwungen ist, zu benutzen. Einfach weil es jetzt bei diesen großen Service mit diesen riesen Datenmengen, also bei LSST wird das ja noch extremer sein, geht es einfach nicht mehr anders.
47:02
Also da kommt die Akzeptanz dann vermutlich durch den Zwang. Im Moment noch nicht, also im Moment ist es noch Eigeninitiative, aber es wird zum Beispiel, Gabo fährt zum Beispiel immer auf die Konferenzen, jetzt zum Beispiel die Jahrestagung von der Astronomischen Gesellschaft,
47:24
wo eben auch die ganzen jungen Doktoranden ihre Vorträge halten und hingeschickt werden, und ich zum Beispiel auch. Und die machen dann wirklich so Workshops, also irgendwie die groben Sachen, also wo finde ich was, so in ein, zwei Stunden, also um es dann doch an den Mann zu bringen. Meistens gibt es dann noch irgendwelche kleineren Gewinnspiele, um die Leute noch ein bisschen mehr zu animieren.
47:45
Das ist eigentlich ganz nett, aber langsam kommt so ein bisschen das Bewusstsein dafür, aber es ist eben erst am Kommen. Also die Hoffnung von den V.O. Leuten ist wirklich die, also dadurch die neuen Surveys und die neuen Herausforderungen,
48:00
dass man es dann dadurch sozusagen die Leute zwingt. Ja, das ist meistens das Problem bei vielen öffentlich geförderten Projekten,
48:31
ist es einfach mittlerweile eine Forderung für das Projekt, also ihr müsst das Ganze, ihr kriegt das Geld und ihr habt die Anforderungen, die Daten in dieser Form irgendwie zu veröffentlichen, also das wird von außen forciert,
48:43
aber bei vielen von den älteren Datensätzen ist es tatsächlich so, da hat man dann Zahlen und irgendwie muss man sich dann durch noch so ein halbes Paper durchwöhnen, bis man dann rausgefunden hat, was für Maßeinheiten das zum Beispiel sind. Und letzten Endes ist auch eine der Sachen eben, dass Garvo zum Beispiel sagt, wir machen die Datenveröffentlichung mit, also wir helfen euch dabei,
49:02
eben damit genau solche Metadatengeschichten dann eben auch ordentlich erfasst werden, also da geht die V.O. Community dann eben auch auf die Wissenschaftler zu und unterstützt dabei, um eben, weil es ist ja wirklich so, man braucht es selber nicht und will dann doch lieber die eigene Forschung vorantreiben,
49:20
statt irgendwelche Metadaten und sonst was noch einzutippen, aber das wird letzten Endes einfach, man versucht es zu forcieren und die Leute zu überzeugen. Und gerade jetzt bei Pi V.O. zum Beispiel helfen die Metadaten auch, weil Astro Pi zum Beispiel kann ja mit Einheiten rechnen, also wenn man jetzt irgendwie die eine Größe in Zentimetern hat, die andere Größe in Metern hat,
49:41
dann hat man irgendwie noch zwei verschiedene Energieeinheiten drin, Astro Pi kennt Einheiten und kann die dann entsprechend miteinander verrechnen und Pi V.O., also die Einheiten sind ja im V.O. dann drin, Pi V.O. setzt dann die Einheiten auch entsprechend in die Tabellen um, also hat man dann quasi automatisch die richtigen Einheiten beim Rechnen,
50:01
also da merkt man dann auch einfach irgendwo, es ist angenehm, wenn man es benutzt. Wenn man das nicht hat, also die irgendwie eine Tabelle ohne Einheiten hat, dann muss man dann eben selber die drei Einheiten manuell erst noch dran klatschen irgendwie und sich da dann noch einen Kopf drum machen und das ist dann halt irgendwo auch fehlerdrächtig.
50:28
Vielen Dank nochmal für die Aufmerksamkeit.
Recommendations
Series of 33 media