Merken

Data Mining in astronomischen Surveydaten variabler Sterne mit Python

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
herzlich willkommen zu meinem Vortrag vielen Dank für die nette Einführung gut zunächst ein paar
kurze Worte zu mir bevor ich mit dem eigentlichen Inhalt beginnen also wie schon erwähnt ich hab an der Uni Marburg Physik studiert ich dort mit Astronomie und Astrophysik beschäftigt ein Forschungsthema sind dort variable Sterne gewesen was das ist werd ich gleich noch kurz einführen also ich ja nicht davon aus dass sie groß Ahnung von Physik haben nebenbei bin ich seit 2011 Fedora-Entwickler auch in den Special Tours Cops im entsprechenden wissenschaftlichen Bereich tätig also wir haben da immer spezielle wollen die Special Tours .punkt dann zugreifen Tag wird man sich dann um die elegante hat Erklärungen von alten so viele für Maschinenlernen wir haben in Tours QC und sein und Technology und jetzt mit Fedora 24 neue von Ihnen jetzt da noch der verlor ist von dem ich bin dazu gekommen wo man diese ganzen schönen alten Pakete eben auch finden kann gut so viel dazu zunächst ein bisschen physikalischen Hintergrund was sind variabel Sterne variable Sterne sind Sterne die in irgendeiner Art ihre physikalischen Eigenschaften verändern es kann einmal der Stern selber sein oder das kann sich irgendwie in den Beobachtungsdaten äußern jetzt hab
ich ein Beispiel dass es ein Doppelsternsystem in dem Fall das ist ein sogenannter extrinsischer war er verstanden das wenn sich 2 Sterne umeinander also immer hatte in der Mitte diesen hellen blauen Stern und man hat an diesem was zum Glauben der rötlichen Stern und die umkreisen sich und wenn sie sich jetzt gegenseitig bedecken dann nimmt man an auf der Erde dann im großen Helligkeitsänderung war also das ist hier die sogenannte nichtcodierenden dargestellt ist darum geht die Helligkeit nicht in Sinn der
Intensität nach Nachfrage die Zeit um in der Stern sich bedecken endlich die Helligkeit eben unter wenn der dunklere vorne ist und wenn der dunklere hinter dem anderen ist dann ist von der Gesamthelligkeit auch ein bisschen was weg beleuchtet im Prinzip nur der hellere es geht auch ein bisschen was wir alles so kann man diese Änderungen in den nicht kommen sehen was da dran ist interessant ist die Lichtkurven für solche Objekte sehen immer relativ ähnlich aus jetzt Doppelsternsystemen sind zum Beispiel meistens irgendwie grob so aus wie ein Witz anhört Barriere bestand 42 die machen physikalischen über Ionisation zu Mechanismus dass sie dann auch wieder sehr charakteristisch aus diese physikalisch sehr relevant vor in einen Zusammenhang zwischen der Helligkeit und der Periode was das ist wirklich gleich auch noch erwähnen erkennen kann das hat Edwin habe benutzt um die Tür Distanz zur Andromeda Galaxie zu bestimmen also da hat man dann in den zwanziger Jahren ich glaub es war 19 Uhr 23 geändert als 124 das 1. Mal gesagt gibt Objekte die sehr sehr viel weiter wechselt als Sterne in unserer Milchstraße gut ich hab Sterne vom oben Projekt analysiert auch ist das Hauptregel können Techno allein Experiment die Suche nach Mikrolinsen und das ist für uns jetzt nicht weiter interessant das ist ein Effekt der von der allgemeinen Relativitätstheorie vorhergesagt wurde und die haben im fotometrisch Messung also Fotometrie ist die Messung der Helligkeit also
man guckt Verhältnis der Stern den man da gerade sieht ja im fotometrisch Messungen den Magellanschen Wolken das sind 2 bekleidet Galaxien von der Milchstraße oft kann man von der Südhalbkugel gut sehen kann man das eben erkennen und da hat oder Messungen gemacht und die haben dann irgendwann den Opel Ricardo auf während das öffentlich also das ist die Datenbasis die ich benutzt habe es auch im Web frei zugänglich also da kann man dann zur zu wohnen SQL Interface an Steuern sozusagen ein nicht die Daten dann wäre so gut dass in dem mehrere 100 Tausend Sterne und das klingt jetzt nicht so viel ist aber eigentlich noch relativ wenig also Galaxie hat Größenordnungen ab vielleicht 10 Milliarden Sterne oder so was teilweise 100 wenn zu große Galaxie ist und der obere auf ist das hat ungefähr 400 Tausend
variabel Sterne mit denen ich mich da verfasst hat gut was war meine Zielsetzung also ich bin jetzt natürlich nicht der 1. Physiker der irgendwie damit anfängt sich mit variablen Sternen zu beschäftigen ich hab gemerkt dass das also dass viele Softwarekomponenten die man so für die Analyse von nicht Q und sowas auch dass die teilweise geschlossen sind oder proprietäre Lösungen wie zum Beispiel ID El benötigen und ich als Open Source geneigter Mensch wollte das gern in freier Form haben im Beisl bemüht sich das Astrup Teilprojekt was ich als vielleicht noch kurz vorstellen möchte auch seit 2011 darum als Standardsprache in der Astronomie und Astrophysik für Datenanalysen zu etablieren und letzten Endes möchte ich oben 3 das ist ein sehr umfangreich analysierte Datensatz einfach als Test Stein für die eigenen Implementierung vom iPhone benutzen als man kann sozusagen damit die Qualität messen wenn wir mit der breiten Implementierung das gleiche rauskriegen dann funktioniert sie ganz gut gut das war dann auch entsprechend meine Wort mehr als 1. Frau überhaupt entscheide Software sieht abzufinden dann das Ganze halbwegs modular zu implementieren aber hat sich dann letzten Endes rausgestellt dass es gar nicht mehr so wirklich nötig war auch andere Arbeitsgruppen daran gearbeitet haben und in den letzten ein bis 2 Jahren halten obwohl dazu veröffentlicht haben gut dann habe ich wie gesagt wir verziert und was jetzt noch aussteht ist die Veröffentlichung in dokumentierter Form soll natürlich auch für jeden dann einfach nutzbar sein auf oder gut was ändern so die Kriterien gewesen die ich mir angeschaut habe er zunächst muss die Software natürlich robust und
zuverlässig sein das ist das KO-Kriterium Männer ist rauskommt dann kann man die
Software nicht gebrauchen dann Performanz und Skalierbarkeit können wichtige Faktoren sein weil wir sind jetzt hier bei 400 Tausend Stellen lässt sich noch ganz gut handhaben aber wenn man jetzt mal tiefer gehende soll es also zur Wehr ist man hat richten Teleskop immer wieder an verschiedene Stellen immer guckt sich die Änderungen der Sterne an das macht mir zum Beispiel um Exoplaneten zu finden und wenn man dann sowas wie Kepler hat dann hat man dann nicht 400 Tausend Objekte sondern Millionen sondern und wenn man Pech hat vielleicht 2 Milliarden von Objekten und das ist natürlich dann die Skalierbarkeit und die Performanz auch ein wichtiger Faktor und letzten Endes soll alles frei zugänglich und Vereinen veränderbar sein gut was gibt es da eine Open-Source Bereich so dass es müssen die Bestandsaufnahme für C C +plus +plus jetzt die KMU sein tiefe klar GUI für wissenschaftliche rechnen die kann fast alles was man also auch für meinen gibt es die Bibliothek Shogun ja mittlerweile auch Opfer 15 16 Jahre lang schon in Entwicklung ist dann im Bereich der
Datenanalyse spezielle statistischen Datenanalyse ist ja im Grunde zu mit dem er ohne Pause schrauben die an relativ verbreitet und in den letzten Jahren immer weiter verbreitet als mit dem Zeit als der den ich jetzt vorstellen möchte gut also das ist jetzt die Liste von Paketen nicht insgesamt benutzt habe jetzt auf die einzelnen ein also der seit heißt es mit den Lernmodulen Anteil und seit 3 stellt Funktionen für das wissenschaftliche rechnen mit heißen bereit das Problem was man mit reichen wenn man das für sich nackt nimmt ist nämlich dass die Performance nicht so wirklich ideal ist halten ist interpretierte Scriptsprache das führt dann dazu dass zur Laufzeit und Typ Innovationen und so Geschichten macht gemacht werden müssen und dass es wenn es dann Laufzeit Zeit passiert eben relativ langsam schönes Beispiel sind zum Beispiel Schleifen also man Schleife da in alten implementiert und das auf der Matrix auf der dann dauert das sehr lange Weile dass zur Laufzeit alles evaluieren muss wenn man das Ganze inszeniert mit einer Streitmacht und dann kompiliert dann geht es deutlich schneller und der Krieg im sei bei der letzten Endes anwendet ist das unter der Haube C und Fortran Fortran ist auch im wissenschaftlichen Bereich eine sehr verbreitete Sprache dass man das eben unter der Haube nennt und oben hat man ein schönes angenehm zu bedienen des alten Interface Eichner hat nämlich auch den Vorteil man kann damit interaktiv arbeiten das ist gerade bei der Datenanalyse ich will da jetzt mal Grad an einem Parameter Schrauben nicht zu verbinden der Faktor weil man jetzt das ganze Inc +plus +plus machen würde zum Beispiel bisher jedes Mal entweder das ganze müssen komplexer machen und mit Konfigurationsdateien arbeiten wenn es geht oder eben direkt jedes Mal neu kompilieren das ist der Worst Case der aber bei physikalischen Simulation durchaus häufig auftritt und das kann man eben mit dem interaktiven
Arbeiten halten wie gut um den Zeitgeist der Gruppe herum gibt es sehr viele verschiedene Teilchenpakete 5 viele verschiedene Zwecke also gibt es weitere Mathe Pakete Statistiken Pakete für Astronomie und Astrophysik über der seit 2011 das Astrup Ray Paket entwickelt von Astro HaLT-Projekt das baut auf dem seither seit als auf bietet in zentraler Astronomie bezogen Funktionen das können so Sachen wie Koordinaten Umrechnungen und sowas aber auch Astronomie statistische Geschichten und auf Astrup 3 aufgrund gibt dann in
speziellen Zwecke zum Beispiel die Spektroskopie oder auch die Fotometrie Spezial und dann für dieses für diese eine Aufgabe sehr gut optimiert sind und dass sie vom 1. Urteil Projekt ist pfeifen zum Standardwerkzeug in Astronomie und Astrophysik zu machen also es war wirklich noch offene Plattform hat mit der man sich wissenschaftlich austauschen kann oder nicht irgendwann immer sowohl der Lizenz aber kommt wir haben keine ID El oder können sie neue Version nicht leisten das hab ich leider wirklich erlebt es gibt es dann eben nicht gut wir ebenfalls auf dem Seil pflegt seit heißt basieren gibt es das Paket sei Ketteler in das deckt in meiner Arbeit den Mehr erschienenen Beta 1 hat ab und das vor Projekt entwickelt eine Vielzahl von verschiedenen Algorithmen also gibt es so Cluster-Algorithmen werd ich gleich noch kurz vorstellen dann gibt es also die Dimensions Reduktion PCA Projektions betonten sie alles was in dem Bereich so benutzt wird und dadurch dass es ebenfalls auf den Zeitgeist deckt aufbaut also als Basis Datentyp nahm 3 Airways benutzt integrierte sich automatisch auch gut zum Beispiel mit Astrup Preise also die Grenzen zwischen diesen einzelnen verschiedenen Paketen obwohl es völlig getrennt Projekte sind die sind sehr gering durch die Gemeinde gemeinsam seit 3 und halt was ist und dann gibt es das Projekt das 11 mein Programm und dann auch hoffentlich Final irgendwann landen wird das passiert auf Astrup rein und erklärte nun das ist schon 1. versucht diese Welten sozusagen ins raten und die Anwendung in der Astronomie zu zeigen als es enthält auch relativ viel schöne Beispiele anderes schönes Beispiel das ist die Analyse von Lego Daten das wird wahrscheinlich jeder im ab Anfang Februar das mitbekommen haben hat Gravitationswellen entdeckt und auch solche Sachen werden exemplarisch analysiert und Annas formell angeschlossen gibt es noch diverse Hilfspakete sollte jetzt frei das hab ich halt für die Zeitreihenanalyse und gut kommen zu den Variablen Stern zurück was man jetzt sieht sind 2 Lichtkurven genau genommen ist es ein Licht Cory zum kleinen Stern in 2 verschiedenen Darstellungen wenn ein Teleskop misst er bekommt man zunächst mal sowas
heraus das ist einfach aufgetragen ist die
Zeit hier ist die Helligkeit und da kann man jetzt schon so Sie Struktur erkennen mich so vertikale Balken die beiden kommen einfach dadurch zustande dass das Sommersternbild und Wintersternbilder und sowas gibt und dass man die Sterne dann im Sommer zum Beispiel nicht messen kann also zu saisonal Effekte und so Geschichten das hat natürlich nichts mit dem Stern zu tun sondern mit den Zeitpunkt wann wir das Ganze beobachtet haben es sind sehr viele variable Sterne periodisch variabel aber das heißt die Art wie sie ihre Helligkeit ändern tritt immer und immer und immer wieder auf was man da alles machen kann zum Beispiel nur Fuji Analyse die Periodizität bestimmen
was war der Stern des alle 2 Tage hell und dann wieder dunkel kann man dann die Periode bestimmen und das Ganze in eine Core sozusagen Fall und das ist das sogenannte Phrasen haben und dass sie dann für die einzelnen Klassen von Variablen Stern schon ziemlich charakteristische aus das zum Beispiel so
was hier also das zumal die meisten ihnen sehen diese ruhig Mehr relativ ähnlich nach der Erde es also auf der y-Achse ist wieder die Helligkeit an der y-Achse hat sich überhaupt nichts geändert und auf der x-Achse sind die Werte die sich nach der Formel hier berechnen also das ist im Bund sieht man rechnet die diesen er denn in uns rechnet man den .punkt der einer Messung aus in dieser 1. Phase wenn man das alles zusammen klappt das ist das Zusammenklappen sozusagen gut wenn man das Ganze dann machen will ich hab jetzt das nicht man leider nicht
ganz so gut also und die Perioden bestimmen will aber das wird jetzt frei zum Beispiel sehr schnell machen natürlich jetzt zeigen wie einfach das mittlerweile nicht und lädt sie ein verletzendes ist das Modul war ein bisschen Anteil im 1. Teil ein und schickt hier diesen blond Tage Algorithmus an dass es einen wie er basierte Algorithmus zur Bestimmung der Periode die heißen jetzt nicht wirklich relevant meine Periode im ausrechnen und nicht Kraft der Code führte zu nicht funktionie ist mir irgendwie beim übertragenen Tech flöten gegangen also müssen dass wir ordentlich einrücken gut das Phasendiagramm definieren man sich letzten Endes einfach diese Formel erkennt man leicht in der wir gehen sie Datenver wurden wohl zum
Bezugszeitpunkt nach dem Maximum und U-Bahn falls das einfach um das einfach um Rechnerei also man sieht hier diese Schnipsel in Codeschnipsel sind alle relativ
kurz gut dann will man damit aber Eltern meinen machen das heißt um sich irgendwelche Parameter schaffen die man für die verschiedenen Arten von Abendstern auch vergleichen kann im Fall von periodischen Angelegenheiten derzeit einen einem Physiker immer als 1. die Fuji Geschichten ein das ist einfach so das muss man hinnehmen das lernt man im 1. Semester und entsprechend findet man dann Fuji Reihe einfach an die Messdaten an und guckt sich dann an wie stark ist zum Beispiel die Grundschwingung wie stark ist die Oberstimmen von dem Stern gut zeigen jetzt aber auch nur und klassisches Beispiel zu haben und das 4. würde man dann so machen also da gibt es dann wer die Macht hat doch das was er sah in seine freie Zeit stellt eben im optimalsten Modul verschieden Optimierung es Funktionen vor gibt
es die Funktion Köpfe wird mit der man eben genau diese Parameter dann ausrechnen kann und das ist ja auch wieder relativ kompakte Codeschnipsel also man kann mit seit 30 relativ kompakte und wenig komplizierte Sachen machen gut dann habe ich mir
angeschaut wie passt das zu den Daten die George selber angeht also ich wollte meinen Ergebnisse mit denen von oben vergleichen und zeigen wie das Ganze funktioniert auch gut sie Perioden haben immer bis auf ein Tausendstel hat übereingestimmt dass es entweder in Sekunden das 1. im Sekundenbereich seiner oder vielleicht im Minutenbereich hat es leider Karten im Kopf ja so ungefähr und wenn man dann noch bedenkt es gibt da noch andere Faktoren wieder einspielen können also wie gut der Algorithmus jetzt wirklich mit ok also wird man Daten umgehen kann und so Geschichten ist es eigentlich schon ziemlich gut und es gibt eine Reihe Implementierung mittlerweile das ist seit ich das ausprobiert hat schon wieder müssen verbessert worden da brauchen ,komma auf in 10 Tausend sind es mittlerweile nicht vorher Komponenten die wir dann ausgerechnet hat gut das ist jetzt werde die Kammer schlecht einordnen wichtige Karten geschrieben hat dass es mag in dem Wagen halten einen Unterschied es es hat sich gezeigt dass es in der Tat den Vogel dann sehr gut übereinstimmt gut damit kann man die Daten dann vergleichbar machen und die Täter meinen Algorithmen dort oft jagen also für die Komponenten kann man dann direkt vergleichen also ist der Stand in der Kunst in oder Oberschwingungen an es 2 Faktoren wie die Farbe und die Amplitude habe ist hier fast wörtlich zu verstehen also obwohl uns die Sterne nachts am Himmel fast gleich erscheinen immer so haben die doch letzten Endes der erfahre wie unsere Sonne Unsinn und sind gelblich erscheint aber kann man nachts nicht so gut an den Automaten Teleskope und die Amplitude also wie stark der Maria Stern schwankt das kann auch direkt miteinander vergleichen das hängt damit zusammen dass in logarithmisch Helligkeits Gala in der Astronomie verwenden gut die andere Möglichkeit ist die Messe zu interpolieren und so machen denn das hab ich hier jetzt gemacht und ich dann letzten Endes vorstellen muss dass man in die froh dass ist jetzt hier dieses fahren wir haben und das Netz und doch das der letzten Endes hinter auf den Bereich zwischen 0 und 1 zusammen als noch wir das Ganze und jetzt auch noch schön sieht ist es gibt da noch so skurrile Effekte wie zum Beispiel Sterne zu Rom schütten das heißt nicht dass der Stern irgendwie ausgegangen ist sondern das ist ein Stern der eine Periode von ziemlich genau einen Tag das hängt mit der Erdrotation tatsächlich zu sein man kann diesem Stern also man kann nicht alle haben Teile von diesem Stern tatsächlich sehen was es halt über 1 1 ob Standort hat man deshalb mit und das kann man im heißen habe jetzt leider kein Grund Beispiel sehr schön Kennzeichen also keinen gucken was da in den Daten .punkt und kann das mit dem sogenannten Fancy Index Singer übergibt man im erwäge also immer so der hat dann und ist dann die Indizes angibt kann man statt den Indizes selber sind gute Bedingungen angeben zum Beispiel gibt man nur die Werte die Größe 0 sind oder sowas und kann das dann eben sehr sehr einfach was hier gut kommen wir zum Täter meinen teilt das war dann der größere Teil meiner Masterarbeit sagt dass es sind im Wesentlichen statistische Methoden zum Finden von Informationen in Datensätze ganz einfaches Beispiel ist die Verteilungs Analyse das eine einfachste Beispiel hierfür wiederum ist das Histogramm und andere sagten dann in Modelle zur Beschreibung von Daten das Fuji basiert Modell als die Fuji Komponentenanalyse das ist schon so ein Modell das man so Geschichten verwenden kann und schließlich Methoden um auch wirklich wissen ja aus schöpfen zu können gut wie Sie das Ganze dann aus das jetzt manche Flieger alle Rechte gezeigt das sind variable Sterne ebenso und sogenannten Chabar Mechanismus machen das ist auch der Sohn Ionisation Sie mich eines muss im Prinzip muss man sich das so vorstellen die Kernfusion heizt den
Stern von innen an und dann hat man also nur eine Schicht es könnte irgendwas metallisches zum Beispiel sein also mithalfen Astronomen war alles was schwerer als die Wasserstoff ist oder als wir jung ist eine junge Frau auch noch extra rund ja also im Prinzip das ist die Durchlässigkeit für die Photonen von dem Stern kann man sich das einfach vorstellen und bei diesen Stern das kann in Schwingungen ,komma gibt es 2 Schwingungszuständen und ich habe es einfach nur die Perioden die ich vorhin mit dem jetzt frei ausgerechnet hat ja wenn es so kamen geplante dann sieht man sofort hier gibt es sowieso so 2 Gruppen getrennt das genau die 2 Schwingungszuständen von den er Stern also man sieht ja auch hier die bewegen sich und die zwischen 0 , 2 0 Komma 4 und die hier zwischen 0 Komma 4 und 0 , 8 das ist unter und ober Oberschwingungen wenn er und was man jetzt machen wir es von wir das Ganze klassifizieren also wie wir kennen wir mit dem Auge sofort okay da gibt es irgendwie scheinbar 2 Sorten und zum klassifizieren mehr gibt es jetzt verschiedene Möglichkeiten wird also der gibt das einmal das super als Löhnen und dann das an
weist in den Anzug Arbeitslöhnen heißt es wir wollen zum Beispiel die in es 1. also wir wissen nicht genau wonach wir suchen und wollen einfach nur unsere Messobjekt in Klassen einteilen kann man hier mit zum Beispiel jetzt machen und Cluster Algorithmus da drauf schmeißen und super weiß würden würde heißen wir wissen schon wie das aussieht was wir haben wollen schicken dem Algorithmus das 1. Mal ist ist sowieso neuronales Netz oder sowas das errechnet sich Parameter daraus also hat Datensatz errechnet sich dadurch errechnet sich daraus Entscheidungskriterium kann dann der klassifizieren und also bereiste man macht man das eben nicht und bevor man das Ganze machen kann die Sichtweisen seien die Daten noch ein bisschen zu transformieren aber die Hauptkomponentenanalyse PCA die Macht letzten Endes nichts anderes als die Daten sozusagen zu drehen das kann man sich fast genauso vorstellen mathematisch ist
auch eine Drehung und man wie die Daten so dass die Achsen maximaler Informationen als maximale Varianz dann immer in Achsenrichtung zeigen das heißt er hat im Prinzip immer die signifikantesten Achsen das beste Koordinatensystem was den Effekt dass hat das wird und dann gleich sehen aber immer das ins sei machen will gut meinen importieren vor das Hitze
aber wohl die Spezialfunktionen und keine 10 ist die PCA einfach allgemein die es die Daten ein ich nehme an dazu macht instanzieren PCA das Modell an also zu sagen diese Transformation aus für die Transformation danach durch sID wieder essen im Prinzip jedem und Paco Zahlen die man da hin also machen muss wenn man das dann
gemacht hat sieht man wenn man sich diese Komponente anschaut sieht sie die 1. Hauptkomponente
die mit der die meisten Informationen und sozusagen die vorherrschenden bis 7 Klasse Struktur aber getäuscht er letzten Endes die Aufteilung in der y-Achse sondern in der x-Achse zu sehen ist also im Wesentlichen zu dass sie die Periode von den beiden Zuständen auseinander Mandant sich die 1. gegen 2. Hauptkomponente
anschaut dann sieht die 1. Signifikanz in 2. signifikantesten hat dann hat man hier mit der Trennung in x-Richtung habe jetzt irgendwas dazwischen und auch einen
y Richtung also man hat das jetzt hier mit der Vielzahl sogar schon getrennt was sollen wir machen kann dass man das bietet sich ja schon fast ein
Auge einen Cluster Algorithmus aufwerfen da gibt es zum Beispiel den Kelleys Algorithmus der einfach nur ersetzt sind und sich nicht sagen wie viele Cluster habe Cluster erwarte ich dass wirklich aus dem Histogramm Haus ich hab da Zweifel gehabt dann sag ich dem Algorithmus ok rechnen mir 2 Cluster aus er setzt dann willkürlich 2 statt .punkt der rein und rechnet
die Cluster 10. also den geometrischen Mittelpunkt hiervon aus und macht das so lang immer und immer und immer wieder ist das Ganze sich nicht mehr ändert also suchen also Zahlen konvergiert genau wir das dann
gemacht hat dass sie ist auch wieder sei Kettler eine sehr kurze Angelegenheit also muss wieder nur gibt packt kurzzeitig erst haben seit Klasse oder sich das Kind aus und filtert einfach das Modell Kandidaten an und trifft dann die Vorhersage die vorher so Vorhersage sagte ist der Punkt der jetzt in Klasse 1 oder ist der Punkt 13 Klasse 2 und wir man bekommt da dann in die Klassifikation aus wenn man sich das anschaut ok das hab es jetzt in den beiden Farben dargestellt da hatte das im Wesentlichen schon er kann da ?ark?c? hier großen wurde in
Blau und diesen kleinen Wohnung wohl im Wesentlichen rot aber hier und es immer noch so ein bisschen Verschmutzung drin und das ist jetzt hier effektreiche auf diese da Daten keine PCA angewendet also wissen sie nur die noch nicht votierten Daten wenig die PC eines Anwender die Daten optimal votiere dann ist dieser Schmutz Effekt hier in dem deutlich kleineren Bereich also der ist nicht nur der kann auch physikalisch nicht 0 werden weil das 2 Stern Klassen sind von als das sind 2 verschiedene Arten von erinnere ihn an übergehen können das heißt es natürlicher Übergang zwischen in Arten von Varianten standen vorhanden aber die Trennung ist hier deutlich klarer geworden wenn wir das dann mit Orgel vergleicht dann sieht das alle gleich aus gut
ist jetzt Grafik und das Ganze noch Zeichen nach dem Druck auf zahlen macht als er dass er auch in Zahlen verglichen also die Übereinstimmung liege bei 99 Komma 4 Prozent und der gut wenn man zu bereits machen will also
wenn man feststellen will wie gut also wenn
man einen Satz hat also vor klassifiziert Objekte hat in der Physik ist es häufiger sind aber wir Stern ist der Fall er hat die verschiedenen Klassen von Variablen Stern die man kennt hat bekommt unbekannten Datensatz und will seine Daten nach diesem Muster klassifizieren dann macht man das mit so als also man lässt ihn also muss das Anlernen und eine Methode für sind die Entscheidungsbäume also das ist jetzt hier unten bei Beispiel jedes Datensatzes in so klugen dass es Standardbeispiel aus dem Feld man in verschiedenen Längen ausgemessen hat Krebs sind und die mehrere Sorten von diesem klugen Mast Entscheidungsbaum letztendes macht also man gibt die Blumen sozusagen vom Rhein mit ihren auch mention mit ihren Ausmaßen her wie groß ist die Planck-Länge wie groß ist die für man nun so schlichten und der Baum hat dann jeweils Entscheidungskriterium drin stehen zum Beispiel die ältere lenkt muss kleiner als 2 Komma 4 5 Zentimeter sein wenn das der Fall ist dann ist das auf jeden Fall eine Lebens Pflanze der Untersorte sieht rosa ist diese und nicht nur wieso an
fällt geht wenn das nicht der Fall ist dann prüfe die breite Front das ist die kleiner als 1 , 7 5. 1 die hierunter ansonsten die runter und so geht man eben durch diesen Baum durch bis man letzten Endes bei der Klassifikation Versionen einen eindeutigen Kriterium angekommen ist gut die Bäume man den Vorfall sehr schnell zu sein dass einfach gute Bedingungen die in den verschiedenen Stufen jeweils geprüft werden müssen und weil natürlich immer Fehlentscheidungen passieren können einfach weil teilweise die Parameter und Scharfsinn oder weil der Algorithmus nicht ganz optimal an gelernt worden ist die anzuwählen über dem Wald ist eine Ansammlung von Bäumen entsprechend ist auch hier ein Frau ist im Sinne von 1 zu bereist in gut mussten Ansammlung von Entscheidungsbäumen und man
lässt letzten ist die Mehrheit entscheiden also man hat irgendwie nicht einen Baum sondern 20 die Mehrheit die dann sagt ok das ist jetzt eine Blume Dell-Aktie rosa wenn es Mehr hat sagt er ebenso klassifiziert jeder Baum ist denn nun Untermenge der Variablen das hat einfach den Grund wenn ich jeden Baum mit exakt den gleichen Daten initiieren würde hätte ich im schlimmsten Fall einfach 20 Mal den gleichen bauen kann ich vielleicht nur ein Baum den deswegen dem an jeweils eine Untermenge der Variablen in der Regel nehmen dann werden die zufällig gewählt deswegen heißt es auch in dem Forst und lässt das dann wenn dem neuronalen Netz erst anlernen und danach klassifizieren andere Vorteil von den Entscheidungen von den Wald Algorithmen sozusagen ist das immer sehr leicht parallelisiert war sind bei jeder Baum ist ,komma unabhängig von anderen Baum das heißt wenn man jetzt was ich 32 CPU-Kerne hat dann neuen Konsens auf jetzt 32 Bäume nehmen und jeder Baum hat seinen eigenen CPU lassen sich sehr leicht parallelisieren das heißt sie sind sehr schnell und das geht das hat jetzt vielleicht bisschen kompliziert geklungen mit Zufall einrechnen Variablen aussuchen auch das
Essen sei Kittel natürlich schon implementiert werden sie geboren also die bald Algorithmen nennt man auch auch sorgen wird dass die Feier also weil ein von Klassifikatoren und da es in der einen Faust einer davon und da muss man jetzt 1 genau wie beim den Dienst vorhin schon also nur erst mal den instanzieren und ich sag ich jetzt hier wie viele Bäume ich haben will muss das Modell führten im Unterschied zum kennen muss ich Ihnen jetzt hier natürlich sah meine Trainingsdaten freigegeben ist das man vor Klassifikation eingeben und danach sagt man auch wieder bedeckt und er spuckt das Ergebnis letzten Endes auch das habe ich dann auch mit dem er würde da wieder
gemacht und ja die Übereinstimmungen zwischen der 2. an super weist gefundenen Klassifikation von und sondern Frau ist ja bei 96 vor 4 1 Prozent das denn nicht 100 Prozent liegen kann das lässt sich in dem es so kann hier sehen das liegt einfach an diesem natürlichen über lag in den Daten das heißt die 100 Prozent zu erreichen wegen diesem das geht einfach nicht gut um mit All war die Übereinstimmung in sehr im Bereich und die Fehlentscheidungen die waren auch ausnahmslos hier in diesen Überlauf erreicht er sagt nicht in nirgendwo viel entschieden das vielen entschieden "anführungszeichen zwar immer hier kleinen Bereich gut dann noch ein kleiner Ausblick was wir
jetzt noch so vorhaben mit diesen diesen ganzen Geschichten weswegen nicht mal angefangen hat mich dazu beschäftigen es gibt die Sternwarte in Sonneberg das ist in Thüringen wir haben eines der größten Fotoplatten Archive der Welt als fast so Fotoplatten dessen ungefähr 300 Tausend Stück und die andere über den Zeitraum von über 70 Jahren immer und immer und immer wieder aufgenommen haben auch mittlerweile sich die Mühe gemacht diese Platten einzuscannen das heißt es muss und kann bekommt der und dann wieder wie von mir die Digitalkamera fast muss sie nur noch entsprechende sich Fotoplatten bisschen anders verhalten noch ein bisschen transformieren und kann anhand dieser Daten dann auch Studien über lange Zeit Variabilität durchführen Alice Sie die Daten also Rogl zum Beispiel das läuft seit den frühen Neunzigern das Netz gut 20 Jahre und 70 Jahre das ist halt dann doch noch ein Eckchen Mehr und es gibt physikalische Prozesse die sich genau in der Größenordnung bewegen und auch das wird letzten Endes mit heißem verlieren Kollegen von uns ab aus Potsdam glaube ich ja Potsdam er Schramberg entwickeln das sogenannte Pipeline-Projekt das wir Fotoplatten sollen vor verarbeitet und dass man danach das des kann man nicht 4 vorgestellt aber aufwiegen kann und das ist auch fast aus schließlich auf alten basiert bis auf das Bestimmen von Koordinatensystem der gibt es ein sehr effizientes Programm Progrämmchen das jetzt einmal in mühseliger Kleinarbeit neu zu implementieren und mit Zeitalters der einfach unserer Zeitverlust also das Programm erst vor mit wie das ist auf freie Software von daher spricht er jetzt nix dafür sich die Mühe einfach noch mal zu machen gut Sonnenberg die Daten haben jetzt die Eigenschaft gehabt das System stärker streuen also aus Fotoplatten kriegt man die der einfach nicht so genau aus ist liegt daran dass sich die da Stern zum Beispiel einen guten Überblick 14 musste sich müssen so es so viel Action schon einen laufen ist einfach bei früheren Film Emulsionen chemische Emulsion Amanda und Geschichte auf gebrutzelt hat dann ist es einfach so auseinander gelaufen und da hat sich dann ergeben mit denen werden die Staus manuellen Analysen übernommen aber dass man das auch das auch das den geschiedenen Algorithmen kein Problem sein wird weil sich die Streuung von den Parametern in sehr ähnlichen Rahmen bewegt also des ich hoffe dass wir in den nächsten Jahren dann Studien in Landsberg Variabilität halten machen können gut ich will das dann zeitnah auch veröffentlichen natürlich als freie Software ich hab die BSD-Lizenz gewählt das ist mehr oder weniger Usus in der 1. ruckfrei Community und längerfristig soll das Ganze eben mal auch als Zeuge melden Beispielcharakter hatten das vor L
eingearbeitet werden gut das ist das Fazit also man kann eine vollständige Implementierung der Lichtkurven Analysis Analyse auf heißen machen das ist das was ich hier gezeigt habe und man kann sogar noch weiter gehen also es gibt auch für die er Datenreduktion also jetzt wenn man zum Beispiel Daten vom alleso bekommt Europäischen Südsternwarte da gibt es einen Astrup Reihe auch Paket um diese Daten einzulesen man kann die photometrischen Messungen selber mit mitteilte machen also man kann von den 1. Aufnahmen ausgehend bis zum fertigen publikationsreif im Bild komplett mit alten arbeiten mittlerweile es die vor wenigen Jahren noch nicht das Astrup Teilprojekt Projekt hat sich da sehr sehr verdient gemacht und auch die sei Teil Community allgemein dass es eben sehr sehr stark gefordert wird und die gerade in Astronomie und Astrophysik ist die Community Zusammenarbeit zwischen Wissenschaftlern und Software programmieren auch relativ gut da sie meist zwar schon von dem seit Entwicklern viele kommen auch aus dem universitären Umfeld oder auch professionell entwickelt und werde in den nächsten Jahren noch sicher sehr interessante weitere Entwicklungen die gut damit bin ich am Ende eines Vortrags angelangt bin auch ganz gut in der Zeit geblieben wie nicht alle sehr
und freue mich auf Ihre Fragen ja 2 es das 1. Mal die Pille und Frau genau das so weit ist es also die Frage ist gewesen er Tierfreunde Darstellung was da die Parameter auf den Achsen Mannesmann Periode und habe das neben 2 für variable Sternen sehr charakteristische Größen wir generell verstanden das Hertzsprung-Russell-Diagramm die Sternentwicklung sozusagen zeigt das zeigt ja auch die Farbe im Wesentlichen die zumal Temperatur ja gut wer wir haben vor allem an auch hier er war Na ja die ich meine da ist ja es ist sagt er ich hatte Freiheit haben die auf da zu Mehr gut das 1. zunächst mal die Frage wiederholen also die Frage war jetzt die Aussichten jetzt am besten zusammen also die Fotoplatte haben gewisse Qualitätsprobleme und die Frage ist jetzt wie sich das in der Zukunft entwickeln wird weil man eben mit habe vielleicht dauerhaft drauf halten kann und dann eben keine Beobachtungslisten hat na klar also die zieht die Fotografie oder auch die Weltkommission das wird jetzt das sich natürlich im Zeitraum auch immer weiter ausarbeiten ausweiten so auch da irgendwann die 70 Jahre erreichen aber zumindest habe ist ein Teleskop was immer sehr genau auf eine Stelle guckt also werden wir bei Opel oder bei Sonneberg mehr oder weniger immer einen großen Teil des Himmels angeschaut haben und sind sehr viele Sterne haben sehr gut Statistiken machen könnten QC habe ihn auf eine Stelle wo man schon weiß ist sehr interessant auf und ist das dann aber was mir zum Beispiel jetzt auch hatte ist das Weltraumteleskop Kepler das man benutzt um Exoplaneten zu finden also muss man dann auf Schwankungen in der Helligkeit schon mal wenn der suchen eine kleine Plattform Sternen langen wandert dann mit in einen dunkler und Kepler hat auch sonst so viel gemacht als es dem Weltraumteleskop deshalb in gewissen Bereichen der Milchstraße die Daten abgetastet und das sind Daten also da träumt man fast von kaum Messfehler ist es gibt da teilweise mittlerweile Cohen sind keine viel arbeiten mit Rinder wird als Physiker erstmals skeptisch wenn die vielen aber tatsächlich werden die Fehler oder so klein dass man sie ,komma einzeichnen könnte ohne sie zu übertreiben also es wird sich schon in Zukunft ändern daneben gibt es noch andere Bestrebungen um diese Lücken zu eliminieren einfach weltumspannende Netzwerke von Teleskopen hat also das was ich aber in 2 schmal Europäischen Südsternwarte Spieler welchen hinstellt in Australien welchen stellt um einfach auch kontinuierlich messen zu können aber letzten Endes werden da in den nächsten Jahren immer mehr und mehr Daten erscheinen auch dass er das System wird es ist Deutsch das Large Synoptic für Teleskope wird in Betrieb gehen was auf ihrem Wust an Daten liefern wird und dankenswerterweise auch das Sie doch dort an weil die Projekt der von öffentlichen Geldern größtenteils finanziert werden wandern die Daten auch in der Regel ins Netz also zum Beispiel auch die Orgel Daten die kann man aus dem Netz ab aus abrufen die Kepler Daten kann man übers Netz bekommen also wie man sieht kann jeder der Freude an am Peter meinen hat sich da drauf stürzen sich die Daten holen und bisschen Forschung damit betreibe das ist auch ein sehr schön also ich fand es sehr schön für meine Masterarbeit das sondern auch als kleiner Student sozusagen die sich nicht selber in der Gruppe 1 gegen stellen muss das habe man anfangen aber auch gemacht sondern dass man auch wirklich mit professionell aufgenommen unsere Daten auch arbeiten kann also ist schon sehr schön sie Daten der offenen Mehr wo da war auch also für den Mann und Frau ist das anders das war auf meinem Desktoprechner das ist Cotton oder letzte Generation ungefähr ne dreiviertel Stunde das klassifizieren vorn auf 40 Tausend Test Objekten das gingen paar Minuten durch also das läuft sehr sehr schnell mittlerweile als größere Probleme mein Destop Rechner war er der Arbeitsspeicher ist manche Sachen dann doch im Arbeitsspeicher so groß sind dass die 8 GB nicht gereicht haben dass Thomas man doch vielleicht eher auf welchem Klasse oder sowas professionelleres genau das meiste konnte man ich habe fast meine ganze Maße da tatsächlich auf meinem Destop Rechner durch Nudeln können das war eine Sache da wollt ich in anderen Maschinen einem Rhythmus den Tipis gen Algorithmus zur Klassifikation Essen das hab ich dann bei Amazon gemacht die bieten ja auch so virtuelle Maschinen zum wissenschaftlichen rechnen an das hat einfach Rechner nicht mehr gegeben aber es hält sich für so was wie Opel mit 80 Tausend statt 70 Tausend bis 100 Tausend Stellen noch in Grenzen man jetzt unser wer hat mit Wasser sich 50 Millionen standen mag das schon anders aussehen aber es zeigt eben schon das greifen hier auch keine allzu große Performance Bremse ist das haben wir am Anfang manche noch befürchtet dass man daran doch irgendwie C und Fortran oder sowas nehmen muss aber dadurch das Zeitalter sehr geschickt eben C C +plus +plus die CI-Plus müssen nicht und Fortran unter der Haube unangenehmes Pfeiffen Interface oben dass das tatsächlich gut funktioniert wenn er weg er war ja sehen Sie dann leben wir in einer sehr ist er weil es wäre er auf der einen Seite war auch der 1. der sich ab und das kommt drauf an was man sich genau anschauen und was er will da haben Millionen von Objekten können genug drin Unstatistik zu machen können aber es gibt dann andere Messungen zum Beispiel gab es vor 2 3 Jahren so eine Gaswolke die ins Schwarze Loch im Zentrum von unserer Milchstraße reingezogen ist hat man dann natürlich nur die wenigen Messungen von den Tagen wo man genau drauf geguckt hat und dann hat man mehrere Gruppen diese Daten analysiert haben aber es war letzten Endes alles die gleichen Daten also nun so sehr spezielle Objekte hat dann kann das schon sehr knapp sein mit den Daten und so wollte die sieht halt einmal da rein und dann ist sie weg es gibt für leider hatte er Menschenrecht und das ist da drin geschwunden oder zum Glück sonst hätten wir für Sie kein anderes Problem wenn das nicht stimmen würde und wo er will er ist ja sowieso noch nicht am Ende es ist sind wir bereit nur kurz
Softwareentwickler
Physik
Machsches Prinzip
Vorlesung/Konferenz
Wort <Informatik>
HTTP
Variable
Computeranimation
Data Mining
Physikalische Eigenschaft
PHYS
Soundverarbeitung
Objekt <Kategorie>
Zusammenhang <Mathematik>
Allgemeine Relativitätstheorie
Vorlesung/Konferenz
Mechanismus-Design-Theorie
Mechanismus-Design-Theorie
Computeranimation
Feuchteleitung
Sondierung
Datenanalyse
Open Source
Physik
Datenbank
Implementierung
CVS <Programm>
Umsetzung <Informatik>
Variable
Computeranimation
Datensatz
Typ <Informatik>
Open Source
Lösung <Mathematik>
Datensatz
WEB
Ende <Graphentheorie>
Software
Komponente <Software>
iPhone
Tabelle
Größenordnung
Messprozess
Gruppierung
Implementierung
Faktorisierung
Skalierbarkeit
Objekt <Kategorie>
Skalierbarkeit
Robustheit
Ende <Graphentheorie>
SSL
Software
Wissenschaftliches Rechnen
GNU <Software>
Vorlesung/Konferenz
Benutzerführung
Data Mining
Datenbank
Faktorisierung
Typ <Informatik>
Matrizenmultiplikation
Laufzeit
Datenanalyse
Maschinelles Lernen
Computeranimation
FORTRAN
Komponente <Software>
Ecke
Ende <Graphentheorie>
Graphische Darstellung
Tabelle
Vorlesung/Konferenz
Umrechnung
Funktion <Mathematik>
Parametersystem
GRADE
Statistische Analyse
Keller <Informatik>
Software
FORTRAN
Wissenschaftliches Rechnen
GNU <Software>
Koordinaten
Data Mining
Algorithmus
Darstellung <Mathematik>
Betafunktion
Systemplattform
Computeranimation
Keller <Informatik>
Algorithmus
Zeitreihenanalyse
Datentyp
Vorlesung/Konferenz
Zeitreihenanalyse
Version <Informatik>
Dimensionsreduktion
Gravitationswelle
Dimension
Data Mining
Implementierung
Soundverarbeitung
Balken
Objektklasse
Phasendiagramm
Faltungsoperator
Vorlesung/Konferenz
Variable
Computeranimation
Print <4->
Algorithmus
Punkt
Phasendiagramm
Ende <Graphentheorie>
Phasendiagramm
Kraft
Faltungsoperator
Vorlesung/Konferenz
Frequenz
Variable
Code
Computeranimation
Moden
Parametersystem
Physik
Reihe
Maximum
Computeranimation
Phasendiagramm
Faltungsoperator
Vorlesung/Konferenz
Stochastische Erzeugung
Fourier-Entwicklung
Optimierung
ART-Netz
Funktion <Mathematik>
Moden
Faktorisierung
Multiplikation
Implementierung
Betrag <Mathematik>
Information
Computeranimation
Histogramm
Datensatz
Informationsmodellierung
Algorithmus
Ende <Graphentheorie>
Vorlesung/Konferenz
Wahrscheinlichkeitsverteilung
Soundverarbeitung
Parametersystem
Algorithmus
Wissensextraktion
Statistik
Abtastung
Automat <Automatentheorie>
Reihe
Stichprobe
Frequenz
Chipkarte
Histogramm
Komponente <Software>
Information
Fourier-Entwicklung
Interpolation
Data Mining
Vorlesung/Konferenz
Frequenz
Quick-Sort
Computeranimation
Soundverarbeitung
Parametersystem
Objektklasse
Varianz
Koordinaten
Drehung
Kovarianzmatrix
Information
Computeranimation
Datensatz
Datensatz
Algorithmus
Ende <Graphentheorie>
Achse <Mathematik>
Hitze
Richtung
Information
Varianz
Koordinaten
Neuronales Netz
Hauptkomponentenanalyse
Datensatz
Komponente <Software>
Komponente <Software>
Varianz
Vorlesung/Konferenz
Richtung
Karhunen-Loève-Transformation
Ausgleichsrechnung
Variable
Dekomposition
Zahl
Computeranimation
Komponente <Software>
Objektklasse
Ende <Graphentheorie>
Zustand
Vorlesung/Konferenz
Karhunen-Loève-Transformation
Information
Computeranimation
Richtung
Histogramm
Punkt
Algorithmus
Vorlesung/Konferenz
Karhunen-Loève-Transformation
Zahl
Computeranimation
Datensatz
Soundverarbeitung
Karhunen-Loève-Transformation
Objektklasse
Punkt
Prognose
PREDICT <Programm>
Cluster-Analyse
Vorlesung/Konferenz
Karhunen-Loève-Transformation
Ausgleichsrechnung
ART-Netz
Computeranimation
Objektklasse
Physik
Entscheidungsmodell
Cluster-Analyse
Karhunen-Loève-Transformation
Zahl
Entscheidungsbaum
Quick-Sort
Computeranimation
Datensatz
Objekt <Kategorie>
Datensatz
Festplattenlaufwerk
Entscheidungsbaum
Parametersystem
Teilmenge
Baum <Mathematik>
Entscheidungsmodell
Wald <Graphentheorie>
Computeranimation
Entscheidungstheorie
Teilmenge
Variable
Algorithmus
Ende <Graphentheorie>
Vorlesung/Konferenz
Neuronales Netz
Datensatz
Dienst <Informatik>
Algorithmus
Ende <Graphentheorie>
PREDICT <Programm>
Baum <Mathematik>
Vorlesung/Konferenz
Entscheidungsbaum
Klassifikator <Informatik>
Wald <Graphentheorie>
Computeranimation
Parametersystem
Zusammenhang <Mathematik>
Streuung
Open Source
Streuung
Systemidentifikation
Reihe
Implementierung
Analysis
Computeranimation
Zeitraum
Algorithmus
Datenkompression
Ende <Graphentheorie>
Software
Prozess <Informatik>
ARCHIVE <Programm>
Größenordnung
Softwareentwickler
Messprozess
Koordinaten
Implementierung
Analysis
Mathematische Größe
Parametersystem
Objektklasse
Netzwerk <Graphentheorie>
Messfehler
Physik
Hauptspeicher
Ruhmasse
Statistische Analyse
Systemplattform
Computeranimation
FORTRAN
Objekt <Kategorie>
Virtuelle Maschine
Zeitraum
Algorithmus
Rechenbuch
Ende <Graphentheorie>
Achse <Mathematik>
Vorlesung/Konferenz
Messprozess

Metadaten

Formale Metadaten

Titel Data Mining in astronomischen Surveydaten variabler Sterne mit Python
Serientitel FrOSCon 2016
Autor Dersch, Christian
Lizenz CC-Namensnennung 3.0 Unported:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/32440
Herausgeber Free and Open Source software Conference (FrOSCon) e.V.
Erscheinungsjahr 2016
Sprache Deutsch

Inhaltliche Metadaten

Fachgebiet Informatik
Abstract Knowledge Discovery und speziell maschinelles Lernen sind sehr nützliche Werkzeuge für die automatisierte Datenanalyse. Die Anwendung des maschinellen Lernens hat in den vergangenen Jahren stark an Bedeutung gewonnen und sich als Lösung für Klassifikationsprobleme etabliert. In Astronomie und Astrophysik treten große Datenmengen insbesondere in Surveys auf, beispielhaft sei hier das Weltraumteleskop Kepler genannt, welches für die Suche nach Exoplaneten konzipiert wurde. In der Domäne der Photometrie ist hier die Analyse von Helligkeitsänderungen in den Lichtkurven von Sternen eine zentrale Aufgabe, beispielsweise von sich gegenseitig bedeckenden Sternen.

Ähnliche Filme

Loading...