Merken

Datenanalyse mit R für Administratoren

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
ja herzlich willkommen zu meinem Vortrag Datenanalysen wird er für Administratoren mein Name ist Stefan würdigen ich bin seit ungefähr 20 Jahren in der Systemadministration und Datenbank Administration täglich arbeite jetzt ungefähr seit 4 Jahren in dem Kontext auch mit der Art von Würmern Beispiele vorstellen was in den letzten Jahren wird er an dieser Stelle
gemacht habe um Inhalt immer ganz kurz ein bisschen auf er selber einen Sinn hat dann 3 Beispiele wo ich ein bisschen zeigen wir zum Teil die Syntax zum Teil aber auch dann einfach Erfahrungswerte was ich damit er gemacht habe und wofür man einsetzen kann ist eine Programmiersprache bzw. Programmierumgebung für statistisches Rechnen und Grafik wie er sich selber nennt das heißt überall da wo ich Analysen machen möchte wo ich Datenauswertungen machen und diese dann anschließend auch irgendwann Grafiken verarbeiten möchte kann ich aber eigentlich einsetzen ist eine
Applikation die in der Konsole arbeitet das heißt ich gebe meine-kommandos ein Satz erzielte Ergebnisse kann darüber klagt Grafiken auch erstellen und arbeite dann im Prinzip möglich Konsole basiert ist außerdem einen Hauptspeicher unterwegs das heißt die Daten die ich einmal einen gelesen habe kann ich dann im Hauptspeicher verarbeiten und dementsprechend schnell heutzutage mit 64 Bit Architektur ist dass eher eine finanzielle Frage ob man den Hauptspeicher bekommt die man dann für seine Auswertung braucht oder ob das zu eng wird er ist im Prinzip frei verfügbar für die gängigen Plattformen also Windows Mac und auch Unix Linux kann man da sich entsprechend den im Internet runterladen und ich empfehle eigentlich jedem der mit R anfängt sich dann auch das hr-Studio dazu zu installieren ist ne Idee
in dem Umfeld da hab ich halt den Vorteil dass ich meine Konsole in verschiedenen Händels habe dass sich die erzeugten Grafiken wir direkt anschauen kann dass ich das Hilfesystem integriert haben und auch zum Beispiel der geht Anwendungen integriert habe dass ich also sofort meine auch entsprechend irgendwo in der Welt Repository pflegen kann auch er Studio ist frei verfügbar und
für die Plattformen die halt so dass dort bereits im Einsatz sind erhältlich es wo sehe ich persönlich Stärken von er warum ich eigentlich zum einen ich hab mal Code Stadt Licata auf
Arbeitsebene Konsolenanwendung 1. Schritt das heißt ich das Skripte irgendwo meine Auswertungen ich hab mich irgendwo eine Anwendung wo ich mir mit der Maus das Zusammenklicken dadurch ist es nachvollziehbar dass zum einen für mich selber weil ich auch einem halben Jahr immer noch verstehen was ich da eigentlich gemacht habe und nicht mein vergisst Ergebnis habe es
reproduzierbar damit weil ich halt einfach Sachen die ich einmal gemacht habe auch mit anderen Daten später immer noch mal wiederholen kann und ebenfalls gescriptet ist damit auch sehr einfach Version er hat sehr viele Schnittstellen zum einen auf der Inputseite die Möglichkeit von einfachen Textdateien CSV-Dateien was einzulesen aber aber auch
Schnittstellen Richtung Datenbanken sodass ich also gar nicht den Umweg über irgendwelche Dateien geben muss sondern direkt aus den entsprechenden Anwendungen das abholen kann was ich auswerten möchte auf der Exportseite hier im Grafikbereich kann ich halt die gängigen Grafikformate produzieren weiterhin hab ich die
Möglichkeit html Markt oder Leipzig zu generieren das ist relativ interessante Sache Stichworten wo wir das schon mal gehört hat dass er sich kann in einem Dokument im Prinzip meine meinen Text und auch meine Analysen miteinander verweben und bekommen dann in einem Rutsch dann das fertige Dokument wurde sprechen Ergebnisse drin sein also ich habe als Beispiel diese Folien zum Beispiel sind in Leipzig entstanden das das Vergleich sehen an Auswertungen an Grafiken ist halt im System integriert entstanden und ich hab mich irgendwo das Problem dass ich eine Grafik einbindet die irgendwo schon veraltet ist sondern die Grafik wird halt während ich das ganze durchlaufen lassen dann auch mit den aktuellen Daten generiert ja er ist auch sehr einfach erweiterbar und wie in einigen anderen Gebieten bei zwischen bleibt alles ist zum Beispiel auch so kommt eine Community die dann halt anfängt
da eine Sammlung aufzubauen entsprechenden Modul das gibt es aber auch nennt sich sichtbaren aktueller Stand sind ungefähr 5 Tausend 800 fertige Pakete die man da halt runterladen und installieren kann und das sind alles Sachen die den von einfachen Importauto droht die für spezielle Formate zum Beispiel und ja dann
auch sehr stark fachlich orientierte Auswertungen und Algorithmen aber zum Beispiel der Bioinformatik sehr stark eingesetzt und das geht dann wenn sie bis zur DNA-Analyse was dann halt in diesen Paketen implementiert ist nicht jeder brauch alles aber wir spezielle Anwendungen hat findet da vielleicht irgendwas was er gebrauchen kann ich hab auch nachher noch ein Beispiel mitgebracht von einem Modul sich davon zeigen ,komma ja so weit zur Einführung gucken unser 1. Beispiel einer ich möchte bisschen zeigen Auswertung
von komplett Antwortzeiten dabei soll es umso Fragestellungen geben was sind denn so typische werde davon wie ist die Verteilung gibt es Ausreißer und das halt ein bisschen darstellen als 1. müssen unsere Daten irgendwie in erreichen bekommen ich habe ich hier für das Loeb entschieden das ist halt so untypische Darstellung wie Tomcat seine Lok Dateien konfiguriert versichert jetzt gemacht habe ist erstmal nur einfach hinten angehängt Prozent D das ist die Anweisung den Umfang getan hat sagt bitte protokolliere auch die Laufzeit für jeden einzelnen
Request mit und das sind eben genau die zeigen sich jetzt hier für die Auswertung verwenden möchte damit haben unser lockt vor mit den Werten drinnen jetzt muss man das Ganze nun noch nach bekommen hab ich den das 1. ,komma normal mitgebracht so sieht das Ganze eher
aus ich mal kurz durch die Syntax durch Unfall oder das ein bisschen Geschmack ganz klar als Zeichen für Kommentare 1. Zeile in der 2. Zeile haben wir den Funktionsaufruf der dann in eine Variable in einer Variable abgespeichert wird links danke dass unser Variablennamen den ich da
verwendet habe der Zuweisung Apparat ist dieses kleine -minus in syntaktisch kann man auch ein Gleichheitszeichen verwenden ich find das ein bisschen ansprechen und auf der rechten Seite habe die Funktion die das ganze Haus wird derzeit eine Liste nennt sich schlicht Hebel gesehen .punkt mittendrin der Punkt ist an der Stelle also gar nicht irgendeine spezielle ist ja ein Spezifikum von er an dieser Stelle ich kann eigentlich sehr viel mehr denn sie feiern Funktionsnamen Variablen kann ich die Punkte verwenden als Trainer und das ganz einfach lesbarer zu machen also das ist eine Konvention und wird bei Erhalt sehr stark verwendet haben die Funktion bekommt ein Argument unseren Dateinamen den ich damit ein lesen möchte und am Ende wir sehen dass die Endung .punkt gz ist also in der Lage auch ohne Probleme sofort komprimierte Dateien einzulesen ich könnte an dieser Stelle auch eine Internetadresse http Protokoll angegeben er wurde dann auch transparent über Internet aufruft die Dateien von dem runterladen so das ist also sehr viele Möglichkeiten habe wenig wenn es drauf ankommt die Daten irgendwo erst mal eine rein zu bekommen was dabei entsteht wenn sich in der einen Welt der freien
SMS Struktur aus Zeilen und Spalten die Zeilen ganz klar sind die Zeilen in unserem Opfer gewesen und die Spalten das macht eben die
Funktionalität will die bricht an den Leerzeichen die entsprechenden Werte auf und führt damit die einzelnen Felder die dann eben zu spalten werden inhaltlich kann man sich das genau so wie bei einem Spreadsheet irgendwo quasi eine Excel-Datei vorstellen oder eine Datenbanktabelle das ist also das Resultat aus denen er allerdings im Hauptspeicher entsprechend vorliegt wenn ich das mache vergibt er auch für die Spalten erstmal generiert nahmen die Eisenbahn vor 1 von 2 vorbereitet wenn ich das nicht möchte um einfach nachher lesbarer weiter zu programmieren dann kann ich im 2. Schritt auch die Spalten Namen überschreiben ich hab das hier mal dargestellt das einmal wieder eine
Zuweisung mit der wir den Namen überschreiben und auf der rechten Seite habe ich jetzt eine Funktion C das ist die kommen bei den Funktionen in der ist es so dass ich sehr häufig mit Vektoren arbeiten also Sequenzen von gleichartigen Objekten die dann als Einheit verarbeitet werden und so einen Weg darstellt eben die Funktion C aus ihren Argumenten also das Resultat von diesem Aufruf
ist letztlich ein Vektor der Designs bringst beinhaltet und damit über schreibe ich dann die Namen die er an dieser Stelle selber generiert hat so haben unsere Daten nach eingeladen das von uns ein einfache Funktionen anschauen und das ganze dann zu analysieren im 1. Schritt nur angucken wie sie der Wertebereich
aus das funktionieren also sehr einfach mit der Funktion Ranch und hier ist es jetzt so haben den einzelne Spalten Namen vergeben und das Dollarzeichen hat zwischen einer Variablen und der den Spalten Namen ist halt eine zu große Apparate um auf dieser einzigen Spalte explizit vor zugreifen zu
können Ergebnis sind hier jetzt 2 Werte die 38 und 78 das sind halt die Antwortzeiten Millisekunden die wir in unseren Daten finden das Minimum 38 das Maximum 78 Millisekunden noch ganz kurz die einst in der Gegend man am Anfang ich habe gerade über die Vektoren gesprochen da kann halt nicht nur Vektoren als Eingabeparameter bekommen sondern eine Funktion kann auch einen kompletten wirkte als Autor Ausgabe produzieren wenn ich so was auf dem Bildschirm ausgeben ist die Anzeige möglicherweise sehr längliche sehen ja hier schon dass wir 2 Werte bekommen wenn ich jetzt 100 Werte ausgeben würde dann ist natürlich ein bisschen mühsam nachzuzählen in der 2. 3. 4. Zeile ist das jetzt 98. oder der 99. wird und dass er schreibt halt hier im Prinzip an den Zeilenanfang immer mit welchen Wert diese Zeile anfängt aber immer eine Zeile haben kommt halt die einst in eckigen Klammern ja solch ich ein bisschen gesehen wo die Daten der insgesamt liegen in welchem Bereich wird können wir uns als nächsten einfachen fallen einen den Mittelwert
anschauen die Funktion der den Aufrufparameter genauso bekommen den Mittelwert angezeigt 43 ,komma 9 Millisekunden ermittelt wird
hier das arithmetische Mittel ist halt nur eine Methode um irgendwo zu gucken wo ein Zentrum wirklich mal sagen der Daten vorliegt und andere Methode habe ich noch nochmal hier aufgezeigt der Median der
Median ist der Wert der die Daten in 2 Teile teilt und zwar von einem zahlenmäßig also sagt mir die 43 hier ich habe genauso viele Messwerte die kleiner als 43 Millisekunden sind wie ich Messwerte habe die größer als 43 Millisekunden sind damit bei sich also aussuchen wo ich diese Sache in 2 Hälften teilen kann ja und dann kann ich
unter anderem vielleicht auch noch die Streuung anschauen die
funktionieren einzig IQR Intercord habe ich dann merkt man ein bisschen dass bei diesen allerdings die englischen und die deutschen Begriffe also teilweise völlig auseinander gehen auch hier wieder ganz einfach die Parameter mit den entsprechenden Werten als Ergebnis bekomme ich hier die 4
und was sagt mir die 4 jetzt die 4 ist im Prinzip der Bereich in dem die Hälfte meiner Daten vorliegen und zwar um diesen medialen herum das heißt diese 2 Werte zusammen sagen mir dass ich zwischen 41 und 45 Millisekunden die Hälfte meiner Messwerte vorliegen habe und so kann ich mich an der Stelle halten diesen einfachen Funktionen schon ein bisschen informieren wo meine Daten eigentlich liegen die ich da gemessen habe als letztes Beispiel um das hier mit den mit den Zahlen noch ein bisschen weiter zu treiben hab ich noch eine Funktion mitgebracht die sich mit kantigen
beschäftigt dass etwas was im SLA möglicherweise vorkommt wenn ich halt in unserem Ort Bereich vielleicht tätig bin ich habe immer Gespräche begriffen reingeschrieben also es gibt in dem es sehr häufig Formulierungen in 99 Prozent der Fälle liegt die Antwortzeit halt unter einem gewissen Wert zum Beispiel 75 Millisekunden das garantiere ich dann vielleicht als Betreiber entsprechen meinen Kunden und das kann ich über diese Funktion sehr einfach ausrechnen indem ich dann wieder meine Werte als Parameter drin habe und
eben das 99 Prozent Quantil Abfrage und bekommt als Ergebnis hier alte 73 komma 8 4 und wenn ich dann halt zum Beispiel ist klar aber habe der sagt unter 75 Millisekunden dann hab ich immer gemeint sei schon gezeigt dass ich diesen SLA aber jetzt für die konkrete Messung halt halten konnte ja das sind ein paar inhaltliche Funktion nicht mehr werden umgehen können muss ich nicht er hat an dieser Stelle die Argumente sind halt von der Position her wenn sie klar sind werden sie übernommen aber wenn ich zum Beispiel Funktionen habe diese viele Argumente nehmen und ich nicht das 2. mit dem Wert legen wir sondern 1. 5. dann gehe ich halt auch entsprechend den Namen an ich hätte den 1. natürlich auch immer mit dem Namen hinterlegen können das ist eine Sache des eigenen Geschmacks ob man das dann noch mal ich weiß im Moment gar nicht ob das jetzt wirklich nötig gewesen wäre oder ob das der 2. Parameter gewesen wäre ja gerne wissen ob verzeihe klar es es geht um die Frage warum ich oder ob ich denn einige Parameter die ich hier mit Namen angeben ob das so sein muss und warum andere Parameter wie der 1. den ich hatte warum da kein explizit explizit vorgegeben wurde ja jetzt hab ich ein bisschen mit den Zahlen gespielt hat der Mensch ist eigentlich recht schlecht dabei solche Zahlen dann auch zu begreifen und deswegen ist es in vielen Fällen viel besser und interessanter das Ganze sich auf mit grafische Art anzuzeigen hat dann natürlich auch jede Menge Möglichkeiten wo ich jetzt ein bisschen was zeigen möchte die 1. Funktion diesmal mitgebracht hat ist das Stammblatt
Diagramm was Häufigkeitsverteilung angeht die Funktion oben sehen beim Aufruf also wieder unsere Argumente jetzt habe ich jeden 2. und 3. Parameter gesetzt das waren nötig damit das Ganze noch auf die Seite gehen das will ich jetzt hier gar nicht weiter vertiefen die würde man in der normalen Analyse im 1. Schritt auch mal weglassen ich beschreibe mal kurz wenn wir dieses Bild jetzt hilft zu verstehen was die Zahlen dahinter eigentlich darstellen und zwar nämlich dazu wir fangen mit der 1. Reihe an also da wo die 3 Frauen stehen vor dem Park Symbol ich nehme immer das was links vom Kalb Symbol steht hänge eine Ziffer 1 von dem was rechts steht und schiebe dann wie entsprechend angegeben dem Dezimalpunkt noch an die richtige Stelle also in unserem Fall die eine Stelle nach rechts das weiß ich würde aus der 3 und 8 die Zahl 38 machen dass unsere Minimum wie wir eben schon gesehen haben dass unser 1.
Messwerte die 4 neuen in die jetzt in dieser Zeile dahinterkommen bearbeite ich genauso das ich würde daraus viermal die 39 machen und weiß dann dass sich 4 Mal den Messwerten 39 in meinen Daten drin hatte und so wie ich im Prinzip durch jede Zeile durch Mitte 40 sehe ich da hab ich schon ne ganze Menge die entsprechend mit 40 Werken drin sind die 41 die 42 und so geht es weiter auf der anderen Seite springt war ganz nach unten die 7 und die Sexbombe zu 76 zusammen und die 7 und 8 zu 70 und 78 war ja genau unser Maximum das heißt wir sehen hier eine Darstellung von Prinzip jeder einzelne Messwert vorhanden ist sodass sich also auch an der Länge der entsprechenden Zeile sehen kann wo häufen sich die Werte und an den Lehrstellen auch erkennen wo so viele Werte und großen Ausreißer die eben dann irgendwo da hinten noch dahinter kommen und damit die die wenig meines Erachtens im 1. Schritt schon ein sehr gutes Bild wie die Datenverteilung der vorliegt und das interessante an dieser Darstellung meiner Meinung nach ist das ist jetzt rein als die basiert das heißt das ist eine Sache das kann ich auch über eine einfache SSH Verbindung auf dem Server oder sonst wo steht ausführen sehr schnell analysieren und den Überblick verschaffen ich brauche nicht die Daten irgendwo über der vielleicht langsame Leitungen bis zu meinem Desktop zu laden und eine Grafik zu erstellen und ich brauche auch keine grafische Verbindung irgendwo XL vor dem um dann irgendwie meine Grafik anzeigen zu können das hier kann ich eben über eine relativ einfache Verbindung schon aufrufen und es bietet neben ein Bild wie die Daten verteilt und es hätte also die Frage war kann er da irgendwo noch tricksen und Grafiken auf demnächst an zum Beispiel darstellen weil das extern dann in der Lage ist halt etwas mehr Grafiken zu machen so weit ich weiß nicht jedenfalls nicht mit den Standardmittel weil es da einfach ein relativ einfaches der voraussetzt ist kann aber durchaus sein dass in dieser Bibliothek von 5 Tausend 800 Paketen irgendwas dabei ist was das leisten kann da bin ich aber überfragt ja dann hier so ein bisschen Grafik in einfachen Stil ist in der Grafik Welt eigentlich recht gut und ich werde ein bisschen weiter demonstrieren dass an der Stelle auch noch möglich ist in dem echte
Grafiken erstellt werden sich dann auch in welche Dokumente einbetten kann ich hab hier noch ist mitgebracht die das entsprechend als Aufrufparameter oben ist jetzt ein bisschen länger da setze ich aber zum Beispiel und das wollte ich eben mal zeigen auch die entsprechenden Beschreibungen der Achsen ich kann mit den letzten Parameter des BCH lediglich fest welches Zeichen ich benutzt um eine Messwerte darzustellen das ist jetzt hier die 16 ist der Wert für den schwarzen .punkt der dann eben hier verwendet wird und hier sehen wir halt im Prinzip auch ähnlich im letzten Bild jetzt nur um 90 Grad gedreht dass ich jeden einzelnen Messwert als konkreten Punkt in einer Grafik wiederfinden das geht halt ganz links einmal mit der einsamen 38 los daneben viermal die 39 die dann übereinander gepackt werden das kommt vom Methoden gleich die oben angegeben wurde und so habe ich halt alle Daten .punkt irgendwo in diesem Bild drin wir sicher rechts
an ,komma und eben meine Extremwerte meine Ausreise hier mit 76 und 78 Millisekunden dann auch entsprechend finden das heißt das ist jetzt ne Darstellung etwas etwas besser dargestellt eben in einem Grafikformat und wie man sieht mit dem relativ einfachen Aufruf aufzumachen der Normalfall ist dass ich kann so eine Grafik erstellen und geben dann dem System das Kommando das die fertige Grafik weil ich kann sowas auch in leeren aufbauen dass ich so was dann als Datei abspeichern wenn ich in der Arbeit also die Frage Entschuldigung nochmal zu wiederholen wie bekomme ich dann wirklich die Grafiken im im Endeffekt arbeite ich in der DDR zum Beispiel indem er Studio dann erscheint die Grafik wenn ich die produziere sowieso im eigenen Fenster er kann auch wenn es in einer grafischen Umgebung gestartet wird also wenn ich zum Beispiel nannte bin wo ich eben den X-Server ansprechen kann kann es auch eigene Fenster aufmachen und den Grafiken anzuzeigen das ist nicht mehr ganz so wie würde ich sagen benutzerfreundlich als wenn ich das in machen wo das Ganze dann doch etwas besser funktioniert im 1. Schritt ist aber die Erstellung der Grafik als dann eben per geht was ich mir vorstelle als Fall der 1. Ausgabe weg ja letzten grafischen teilen dann noch so den Standard Klassiker das
Histogramm wie man hier sieht auch als Einzeiler machbar ich hab da noch ein bisschen rumgespielt ich kann auch die Farbe setzen wie man hier sieht und auch an einigen anderen Parametern drehen ist eigentlich in der Lage mit den Standard Optionen schon recht gute Grafiken zu erstellen aber ich habe mir sehr viele Möglichkeiten auch einzugreifen und das Ganze eben so zu formatieren wie ist vielleicht für meine Darstellung dann auch gerne hätte ja das soll das 1. Beispiel gewesen sein so ein
bisschen als Einleitung auch was ist an einem Analysewerkzeugen da er hat halt sehr viele Funktionen die mir die Arbeit abnehmen können habe ich mir vorgestellt und ich möchte dann zum 2. Beispiel übergeben dabei soll es um die Frauen Trauben der gehen und Anwendung von R mit der ich halt an der Stelle ein bisschen was produzieren möchte weniger und Robin Welterbes nicht kennt das ist ein der Softwarekomponente kann man sagen die Bibliothek mit der ich
Zeitreihen zum einen an den Iran und zum andern auch visualisieren kann die
meisten dieser im Bereich Administration unterwegs sind die haben vermutlich irgendwo sowas schon mal gesehen weil das Ganze wird bei den meisten Monitoring-Tools unter
der Haube eingesetzt um die Grafiken in zu produzieren die Messwerte und das was wir recht sehen bisschen unscharf das ist also eine typische Grafik wie sie von rd produziert wird mit Messwerten über CPU-Auslastung über Plattenplatz über alles mögliche was weniger bekannt ist ich kann er die auch einsetzen um Prognosen zu machen das heißt Voraussagen zu treffen wie entwickeln sich meine Messwerte den Ruf ist sinnvoll ich kann
damit zum Beispiel erkennen oder ich kann mein System bauen mit dem ich erkennen ob mein System denn eigentlich noch in einem normalen Zustand arbeitet oder nicht einfaches Beispiel ist stellen eine Firma die arbeitet im Bereich Verarbeitung von Kreditkarten Transaktionen und die anderen großen Monitor an der Wand hängen und da läuft aber die Kurve der aktuellen Transaktions Last und einmal die Vorhersage die Sie glauben die heute eigentlich im System verarbeitet werden müsste und die benutzen diesen Monitor wo die 2 Kurven halt übereinander liegen schon mal als visuelles Hilfsmittel um zu entscheiden ob sie tiefer rein gucken müssen ob irgendwas vielleicht schief läuft oder ob das System sich so verhält wie sie im Moment eigentlich noch glauben und wie sie wie sie planen und sowas kann ich Ihnen mit der er die auch sehr einfach machen indem ich die 2 Werte übereinander und darauf mit möglicherweise einfache Monitoring Aufsätze ja was steckt dahinter ihr Wirken
Algorithmus angewendet jetzt glaube ich so 50 Jahre altes nennt sich heute Winters Algorithmus der basiert auf 3 Zahlen die dann mit eingerechnet werden dass es einmal wird das Niveau genannt das ist so quasi mein aktueller Messwerte ich halt benutzt um den nächsten Messwerten bisschen abzuschätzen einmal gibt es den langfristigen Trend also eine Information so 10 Prozent Wachstum im Jahr wurde in diesen Parameter irgendwo hinter stehen und dann etwas was diese und alle Komponenten nennt das steckt halt hinter der sich zur Prognose
meines heutigen des Wertes um diese Uhrzeit den Messwert von gestern und vorgestern oder von letzter Woche benutze weil vielleicht von meinem von dem was sich der Messe so eine saisonale Komponente da drinsteckt dass sich das sinnvollerweise ausnutzen und die Erfahrung die ich da einfach gestern oder vorgestern um diese Uhrzeit hat ja diese 3 Parameter werden einfach verschieden gewichtet in mein Modell einberechnen das Problem ist diese 3 Parameter muss ich kennen damit ich in diese Prognosen machen kann und hier lässt er die mich im Prinzip im Regen stehen weil er die gibt mir keine Hilfe an die Hand wie ich diese Parameter für meine Daten denn jetzt eigentlich rauskriegen was mache ich wenn ich könnte Daten so kann das
aussehen wenn ich diese Parameter rate ich hab also hier so eine typische Grafik wie wäre diese erstellt eine blaue Kurve mit den Messwerten meines Herzens und der Prognose wie das System glaubt dass die Messwerte sein müssen und wie man leicht erkennen kann ist das also für die Prognose nicht wirklich zu gebrauchen also gehe ich hin und Verbände jetzt er um aus meinen Daten aus meinem es werden
diese Parameter abzuleiten wir fangen wir an die Daten zu importieren
benutzen diesmal etwas andere Funktionen sich wie CSV weil die Daten hat in diesem Format vorliegen geben wir den Dateinamen an und über CSV-Dateien ist es sehr häufig so dass in der 1. Zeile den Namen drin stehen für die entsprechenden Spalten dass sich das halt an der Stelle ablesen kann und an der Stelle kann er also auch hingehen und das kann ich über diesen Parameter Heddergott Stromsteuern dass das mit ausgewertet wird und ich dann eben nicht mehr diese Namen selber
setzen muss bzw. Erde auch keine selbst generierten haben verwendet das heißt so bekomme ich die Datenreihen und schauen uns mal ein Beispiel an
Apples Funktion hätte verwendet also ganz ähnlich wie auf der Stelle wer da ein bisschen sich auskennt funktioniert ja ganz ehrlich man ist da sehr schnell denk ich auch in den von den Kommandos drin hätte zeigt mir halt entsprechend 1. Messwerte an es gibt auch eine Funktion namens der die das halt mit den letzten Messwerten machen würde oder den letzten werden in einem Weltcuprennen drinstecken und das kennen sind halt wir 2 Spalten
die 1. sich Teilen besteht eben aus der Datums und der Uhrzeit Komponente und wir kennen ja sehr einfach dass unsere Messwerte in 10 Sekunden Raster aufgenommen worden und dann in die 2. Spalte mit den konkreten werden die zu dem Zeitpunkt eben gemessen worden davon habe ich keine Ahnung ich glaub 2 3 Wochen an Messwerten genommen und dann eine Auswertung damit zu machen und das wollen wir uns jetzt anschauen ich brauche im 1. Schritt
etwas was ich teilen Sie Ihre genannt um diese Auswertung zu machen die erzeugen damit mit der Funktion TS Aufrufparameter wieder ganz ähnlich wie wir eben schon einmal gesehen haben der 1. Parameter ist halt einfach unsere Reihe mit den entsprechenden Netzwerken und angeblich noch eine Frequenz an dass es den Brauch an der Stelle halten Informationen waren sich die Messwerte quasi wiederholen wann ich halt einen Punkt bin gleiche Uhrzeit nächster Tag wenn ich denn eine tageweise Prognosen machen so werden die 10 Sekunden was da gerade eben in den Daten gesehen und bei 86
Tausend 400 Sekunden am Tag habe ich dann eben 8 Tausend 640 Intervalle nach denen dann im Prinzip der nächste Tag anfängt und das tat ich dem System die einfach mit weil ich sage ich möchte die Prognose auf Tagesbasis machen weil ich aus den Daten schon rein optisch sehen kann dass sie sich von einem auf den anderen Tag die Auslastung immer recht ähnlich ist und ich glaube dass das eben guter Ansatz ist ja so weit ich die Werte eben hier als Teilserie abgespeichert habe kann ich dann auch in denen die Parameter mit
denen erkennt diese Funktion holt Winters die ich eben angesprochen hatte also der Algorithmus der dahinter steckt auch als interne Funktion ich rufe das einfach auf und er wurde normalerweise an dieser Stelle eben auch diese Prognose machen die ich eigentlich mit rd die machen will diese Funktion hat aber eine interessante Auffälligkeit sie kann nämlich wenn ich die Parameter alpha beta und gamma nicht an über sich selber ausrechnen welche denn nun am besten für die Prognose passen und die 3 Werte die dann eben von der
Funktion ausgerechnet werden als die optimalsten um eine Prognose zu machen die zeige ich dann hier unten an und so bekomme ich halt meine 3 Werte Alpha-Beta und kann für meine Prognose die ich mit diesem Algorithmus machen ,komma wie sie ihr Wetter steht auf 0 ich hatte eben kurz die 3 Werte erklärt später war der Wert der ebenso im langfristigen Trend darstellt und das erzählt mir jetzt also sehr einfach in meinen Daten ist offensichtlich kein langfristiger Trend verfügbar der für eine Analyse im ausgewertet werden könnte das kann ich also hier an diesen Zahlen auch schon sehen ja unbedingt werden kann ich jetzt einfach hingehen und starte dann einfach wieder das entsprechende erdet den entsprechenden Komponenten der ARD und hier sehen wir das Ergebnis von denselben
werden die wir gerade eben schon hatten aber diesmal eben mit den konkreten 3 werden die davon erhaben ausrechnen lassen und wie man hier sieht passen die Prognose Prognose also die Prognose Kurve und die gemessenen Daten das ist der eine Teil relativ gut aufeinander ist sind immer mal wieder Stellen an denen bisschen drunter und drüber ein weißer Fleck auftaucht aber auf der anderen Seite wird würde ich mir beim wird aber das steckt natürlich auch ein gewisses Zufallselement hinter was sich eben nicht prognostizieren kann und dafür passt das meines Erachtens schon relativ gut zusammen das eine Sache da muss jeder im Prinzip selber aus seinen Daten irgendwo sich eine Meinung bilden aber da vielleicht eine sinnvolle Prognosen mitmachen kann und ob man damit was tun kann oder
ob das weil das System sich sowieso so chaotisch verhält sowieso nicht möglich ist in dem Beispiel denke ich dass es relativ gut würde also die Frage wie viel Trainingswerte im Prinzip für die Prognose genau die vorher eben benutzt werden und ich habe glaube ich insgesamt ein Intervall von 3 Wochen an Daten zur Verfügung gehabt was sich dann entsprechend ausgewertet hat und dann eine 4. Woche die ich dann eben prognostiziere und das ist jetzt ein Ausschnitt hier sieht man ja im Prinzip die Skala und von den paar Stunden nur von einem Tag der dann einfach in der 4. Woche vorlag aber das ist wie gesagt halbe Sachen das hängt sehr stark eben auch vom System von den Daten ab ob das eine Prognose sinnvoll erlaubt ich hab hier jetzt tageweise gearbeitet war von Freitag auf Samstag auf Sonntag sich über meinen wird es aber nicht so viel ändert es mag durchaus Systeme geben bei der der Freitag und der Samstag völlig unterschiedlich arbeiten weil einfach wegen Wochenende eine ganz andere Last drauf ist dann würde ich vielleicht immer wochenweise Prognosen arbeiten können ja und das war auch das 2. Beispiel was ich mitgebracht hatte zum Thema Prognose wo wo ich halte er einsetze und eigentlich eine ganz andere Aufgabe zu lösen wo er wirklich nur so als Mittel als Tool verwendet wird um mir ein paar Werte auszurechnen mit wie ich denke recht einfachen aufrufen um dann eigentlich das was ich machen möchte nämlich innerhalb von RWE entsprechende Kurse zu produzieren diese Kurven werden halt eben die genauso angelegt wie Kurven mit denen ich dich normale Messwerte halt ablegen und das liegt er die dann selber also dadurch dass ich wenn ich das einmal angelegt habe dann einfach neue Messwerte integriere entsteht auch die entsprechende Prognosen wird dann fortgeschrieben ja und als 3. Beispiel möchte ich über die Skalierbarkeit
noch ein bisschen erzählen als Beispiel habe ich hier den vom Kanzler wahrgenommen den ich auch am Anfang schon mal ein Beispiel drin hatte und bei der Frage nach der Skalierbarkeit deshalb um Fragestellungen was ist denn so der maximale Durchsatz denn das ist System der erreicht wurde für die Skalierbarkeit möglicherweise limitiert und wenig Optimierungen mache kann ich dann Aussage übertreffen wie das optimierte System das sich dann vielleicht verhält und das möchte ich
jetzt mit ein bisschen zeigen der Hintergrund hier um den es geht ist etwas das nennt sich und über das Thilo das ist ein mathematisches Modell mit dem die Skalierbarkeit quantifiziert wird quantifiziert heißt ich
Presse das im Jahr zahlen weil Zahlen lassen sich verarbeiten lassen sich auch vergleichen wenn man über Skalierbarkeit spricht dann ist es häufig so dass man über gut oder schlecht redet und was gut und schlecht das verschieden verschiedene Leute halt unterschiedliche Sachen runter insbesondere der Lieferant einer Software und der Benutzer dieser
Software haben manchmal deutlich andere Meinungen ob die Software skaliert oder nicht ja um dieses Modell ist also auch deswegen universell weil es sowohl für Hardware also für Software eingesetzt werden kann dass heißt ich benutze das selbe mathematische Modelle um zum Beispiel zu hinterfragen was passiert wenn ich in meinem System jetzt anfangen zusätzliche Rechner reinzuschieben mehr CPU einzustecken oder mehr kostet einzunehmen und auf der anderen Seite das selbe Modell kann verwendet werden um die Software werde zu analysieren das heißt was passiert eigentlich wenn ich jetzt mehr Zeit startet Mehr kleines auf das System lasse verhält sich das dann irgendwie noch so wie ich mir das vorstelle oder ist im Vergleich zu dem was an zusätzlicher Leistung erwartet wird wird die einfach vom von diesem von dieser Software nicht mehr geliefert entwickelt wurde das Ganze von Doktor Emil Gunter
wer sich mit dem Thema beschäftigen möchte da steckt ne Menge Mathematik dahinter die jetzt heute auch komplett ausblenden möchte weil wir hier eine Stunde Zeit haben und nicht mehr das Semester Dr. Gunther zeigt in diesem Buch über Kapazitätsplanung also auch die komplette Beweis Linie die mathematischen Beweise warum das Ganze funktioniert warum die Formel die daraus kommt auch funktioniert und wir das halt wenn das interessiert das
Buch ist also durchaus empfehlenswert die Internetseite entsprechend von Dr. Gunter hat also auch jede Menge Hinweise und Details wie das Ganze angewendet werden kann ja schon manches Mal an der Staaten in der Messreihe ich hab jetzt hier
von unseren Dank aber der Messwerte mitgebracht insgesamt 6 Messungen für unterschiedliche Anzahlen kleines die da halt Last draufgeben angefangen mit einem kleinen der liefert dann einer Richtfest rät also im Prinzip einen Durchsatz von 12 einhalb Requests pro Sekunde und das Ganze geht eben bis 32 kleines hoch wenn wir hier genau gucken von einem auf den 2. kleinen hochgeschaltet haben wir ja fast eine Verdopplung nicht ganz 25 mal so Pi mal Daumen geguckt von 16 auf 32 klein sind dann nur noch ganze 14 Prozent Wachstum zu sehen das heißt das sieht man schon an den Zahlen werden das verhält es
sich wenn ich dann in die höhere Kleint Anzahl kommen nicht mehr so wie ich das vielleicht gerne möchte und genau das wollen wir uns jetzt eben anschauen und analysieren ich hatte eben schon gesagt Grafik ist immer ein guter Start das kann man hier im 1. Schritt auch mal machen ich hab hier
das Wort ,komma nur von einer mit der ich halt solche Messreihen im 1. Schritt an zeigen kann vom Aufruf die Request rät in Abhängigkeit der kleinen Anzahl möchte ich analysieren das wird halt hiermit gegeben und ich sage dem System die Daten stammen jetzt aus dem Weltall freien namens Luther ist und das was ich eben auch schon mal hatte benutze bitte schwarze Punkte für die Darstellung dass es der letzte Parameter ja und das Ergebnis ist dann diese Grafik und man sieht die Messwerte dementsprechend aufgetragen und was hier immer schon so ein bisschen optisch sehen kann also im einstelligen Bereich kann ich da vielleicht noch eine gerade Linie durch liegen das ist also so wie ich mir das eigentlich auch für aber die Kurve flach doch oder die die Messwerte flachen doch noch in einem recht stark ab und irgendwo fehlt also bis in das was ich eigentlich mein System
gerne als hätte das ist da nämlich genau so weiter geht ja und dann das jetzt einfach auch ein bisschen aus zu werden das ist es eben genau die Aufgabe die wir mit dem Hinweis das gelbe machen wollen wie funktioniert das denn er war dafür gibt es ein entsprechendes Dekret sprach sich eben über
dieses kann Akajew Netzwerk auch runterladen und installieren kann wenn ich das installiert habe bei mir lokal kann ich über den leider die Aufruf hat dafür sorgen dass das eingebunden wird ins laufende System damit hab ich zusätzlich Funktionen zur Verfügung mit denen ich jetzt diese Analyse machen kann die Funktion die ich hier verwende nennt sich USL bekommt von den Parametern der eben ähnliche Werte wie sie auch bei der beiden Platten verwendet worden was ich sage analysiere die Request Rate in Abhängigkeit der kleinen Anzahl und benutzte die Daten eben aus dem
Bereich der Freien das Ergebnis ist dann ein Jahr komplexes Objekt was wir unsere variabel ablegen und das steckt letztlich unsere Skalierbarkeit Modell hinunter und das kann man sich dann eben im nächsten Schritt auch für weitere Auswertung anschauen also das ist erstmal nur die Erstellung des Modells und jetzt geht es halt darum was sagt mir das Modell was kann ich daran ablesen und den 1. Schritt kann man dann einfach auch mal das Ganze noch mal wieder Platten werden jetzt
2 Kommandos das 1. davon hatten wir gerade schon gesehen dass in dem einen einer reinen Messwerte das 2. Block Kommando produziert jetzt eben die Kurve von meinem Skalierbarkeit Modell ist geht dem Kommando halt ein Objekt mit was ich gerade im erstellt habe da ist so ein bisschen Objektorientierung drin auch also Plot ist an der Stelle in den länd intelligent genug zu erkennen dass es jetzt etwas anderes hat was ich glauben soll und macht dann im Prinzip genau das richtige damit nämlich die Methode aufzurufen die für dieses Objekt für diese Klasse im Prinzip definiert ist ja mit Carla Bley stellt ist glaub ich
recht ersichtlich was da passiert und mit dem er Strohsack ich eben dafür dass sich das Ganze in einen bereits vor ein eine bereits vorhandene Grafiken zu malen und so entsteht halt die Grafik die wir hier unten sehen wo in beide Platz direkt in einem Bild zu sehen sind und dass man hier hat kennt das scheint also unser Modell scheint er recht gut geeignet zu sein um das vorherzusagen und das zu analysieren wir treffen die Messwerte hier relativ gut was ist an der Stelle sehr wichtig ist und das ist ein Teil dieser ganzen mathematischen Betrachtungen die in dem Buch auch ausführlich erläutert werden das was wir hier machen ist es nicht eine beliebige Kurse zu finden die möglichst gut durch die Werte gehen sondern die Funktion die Formel die dahinter steckt ist eine fest vorgegebene Formel warum ist gerade die Formel ist ist eben genau Teil dieser mathematischen Betrachtung die Formel hat allerdings 2 Parameter und letztlich drehe ich an diesen 2 Parametern so lange bis sich hier ein gutes Bild hinbekommen das muss ich nicht mehr von der Hand machen dafür gibt es eben hier die Implementierungen er aber als Ergebnis bekomme ich letztlich eben genau diese 2 Parameter die kann man sich dann auch anschauen dafür gibt es auch eine Funktion die Koeffizienten eines Modells sich anzuschauen was mache ich hier die
beiden Parameter heißen halte sichtbar Körper und haben halt für mein Modell hier also für meinen Traum der ähnliche betrachte genau diese Werte auf Basis der Messwerte Dichter vorher gewonnen habe und was jetzt das interessant diesem Modell eben ist diese beiden Parameter hängen direkt mit technischen Effekten zusammen die die Skalierbarkeit emittieren für den 1. Parameter Sigmar ist dass der Overhead durch eine serielle Ausführung also überall da wo ich den Code Passagen habe die zu einem Zeitpunkt immer nur von einem ausgeführt werden hat das direkten Einfluss auf die auf den Wert der hier für den Parameter ausgerechnet wird dieser Wert erzählt mir also wie viel Anteil eines Codes rein serielle ablaufen auf der anderen Seite habe ich den Parameter der ist halt im Prinzip den Overhead der durch Konsistenz Schaffung entsteht also in dem Moment wo ich versuchen muss in meinem Multis werde zu multi CPU Multi aus das dem irgendwo inkonsistenten Zustand zu bekommen diese Teile des Codes die werden hier mit protokolliert und gemessen
damals noch ein paar Beispiele einen für das Erste ganz klar Kjus und Blocks also
überall wo ich einen Code mit User einloggst habe wo ich halte Warteschlangen habe bei den irgendeiner nicht mehr weiterkommt wenn jemand anders gerade dran ist hat das direkten Einfluss auf diesen Parameter und auf der anderen Seite
haben wir halt sowas wie Punkte .punkt Synchronisierung das ist
sehr häufig bei Cash ist der Fall also in dem Moment wo ich 1. in meinem System habe und ich halt einfach in den Zugriff auf ein Objekt erst erklären muss ob ich dieses Objekt ändern darf oder ob jemand anderes dieses Objekt gerade ändert und deswegen zwischen 2 Komponenten der Punkt-zu-Punkt-Verbindung aufmache hat das Einfluss auf diesen 2. Parameter und so
hab ich im Prinzip ein Bild über die beiden Parameter um das besser zu verstehen hab ich noch ein anderes Beispiel mitgebracht nämlich meine Darstellung wie sich das eigentlich auf die Laufzeiten aus wird weil das schöne ist ich kann jetzt im Prinzip
nicht nur erklären oder messen dass da irgendwo Laufzeit Overhead entsteht sondern ich kann Ihnen auch erklären und begründen damit den 1. beiden oben an das ist die Basis der Messung die ich jetzt machen möchte Links haben wir auf der Achse die kleines aufge listet also der 1. beiden ist mit einem kleinen gemessen ich lasse in meinem Traum wird weiß ich 100 Tausend 1 Million Request laufen und messen die Zeit ich dafür brauche einen kleinen das läuft also alles seriell alles hintereinander die Laufzeit das ist jetzt hier unsere 100 Prozent Marke das ist die Grundlage das ist das was ich als Ausgangspunkt nehmen und dann gucken wir zum 2. Balken an mach ich denselben Test aber ich benutze diesmal 4 kleinen ich möchte an der Stelle eigentlich dass ich dann nur noch ein
Viertel der Laufzeit habe das wäre die optimale Skalierung rechnerisch die ich auch von diesem viel von diesem Viertel aus das ist jetzt der grüne Anteil der eben meiner Applications Berechnungen ausmacht die ich ständig auf 25 Prozent aus deswegen eine der beiden 25 der oberhalb der aber steht der kommt noch oben drauf und das Modell erlaubt mir jetzt eben auch eine Aussage zu machen und zwar vorab nach Aussage zu machen wie viel Overhead das ist also eine Aussage bei welchen Positionen dann der beiden an dieser Stelle aufhören muss und dass durch die Farbe dargestellt wir haben einmal ein Rauschen Bereich das ist nämlich das was unser Parameter sieht mal eben ausmachte also Giusti in einem System vorhanden sind wo irgendwo seriell abgearbeitet wird und auf der anderen Seite etwas das ist dieser Kollege Parameter also das wo ich Punkt-zu-Punkt-Verbindungen habe um 1. zurief Flaschen oder zu involvieren diese 2 Komponenten kommen noch obendrauf und die kann ich mit meinem gemessenen Parameter an der Stelle jetzt vorhersagen und das wird eben auch durch die Farbe ausgedrückt die an dieser Stelle die ich hier verwendet habe noch mal konkret das ist wirklich mein Traum denn ich sehe das also ich kann jetzt auch von von dieser Position hingehen und sagen wenn ich an dieser Stelle was verbessern will ich weiß nicht nur wie viel Verlust ich habe sondern ich kann an der Farbe quasi auch sehen in welche Komponente wo muss ich dann in mein System ansetzen um das Ganze zu verbessern hier sieht man an dem Ort das ist eben unser Konferenzen Parameter also ich muss an der Juli einer klugen Thematik irgendwas machen das ist vom durchsetzen zu verbessern und extremer bezahlt wenn ich dann in noch größere Parallelität gehe ich hab ja noch 2 Messwerte oder 2 Prognosen für 15 und 30 kleines mitgebracht der Grünanteil halbiert sich klar wir verdoppeln die Anzahl der kleinste aber man sieht eben dass der Overhead der dabei entsteht auch noch größer wird so dass in Summe wenn ich eben alle Komponenten zusammen nehmen an der Stelle nur noch 2 ,komma 3 Prozent Verbesserung zu sehen sind also ein Effekt den vielleicht auch der eine oder andere im echten System schon gesehen hat irgendwann lohnt es sich nicht nur noch weiter zu parallelisieren weil ich an der Stelle gar nicht mit den Gewinn bekomme wenn ich da irgendwo reinstecken muss ja das so ein bisschen als Erläuterung was diese 2 Parameter sind und was sie eigentlich ausdrücken was ich eben jetzt machen kann wenn ich dieses Modell fertig habe ich kann hingehen und damit eben weiterarbeiten ich keine
Prognosen machen für Bereiche in denen ich überhaupt keine Messwerte habe das mach ich jetzt ich rufe dazu die Funktion bildet hier auf die Funktionsstellen bildet ist eine Funktion die wieder eine Funktion als Ergebnis liefert etwas was in modernen Programmiersprachen jetzt nach und nach eingebaut wird etwas was aber zum Beispiel ist seit Jahrzehnten vorhanden ist also Funktionen sind vorerst Glasobjekte und können eben als Argumente gegen eine Funktion eingereicht werden oder auch aus der Funktion wieder zurückkommen und durch diese reine Zuweisungen auf meine Variable SCF entsteht damit den Funktionen die ich wieder
aufrufen kann das mach ich im 2. Schritt ich meine Funktion das ist eben jetzt die Skalierbarkeit Funktionen für meinen Trompete mit dem werden 30 36 und 40 auf also ich Frage das ist welchen Durchsatz erreiche ich mit dieser Anzahl kleinste ohne dass ich das hier in meinem System gemessen hätte einfach dadurch dass sich das Modell gewonnen habe und bekomme als Ergebnis in die 3 Werte der 114 112 110 erkennt man schon wir sind ja im Prinzip schon in einem Bereich wo es eigentlich schon bergab geht wenn ich sowas sehe dann ist natürlich die spannende Frage wo ist denn der Punkt an dem eigentlich der maximale Durchsatz erreicht wird und auf diese Frage kann mir das Modell beantworten die Funktion sich Kriegsgegner bildet
die rufe ich genauso auf für mein Modell und bekomme die Antwort bei 28 ,komma ein bisschen ist halt der Punkt erreicht an dem ich im Prinzip den maximalen Durchsatz in meinem System haben und wenn ich das dann wieder ineinander Einsätze sich dann auch den konkreten Wert der dabei rauskommt wenn wieder die 114 ,komma 3 ja und dem hatten wir an unserem einen farbigen Darstellungen gesehen dass sich im Prinzip erkennen kann wo eigentlich die Verluste in meinem System sind und wenn ich das schon weiß dann ist natürlich der
nächste Schritt zu fragen was passiert denn wenn ich an dieser Stelle etwas verbessert wie viel kann ich denn aus dem System insgesamt rausholen wenn ich da Ansätze und das vielleicht schaffe irgendwas zu optimieren und das kann ich eben mit diesen Funktionen auch machen indem ich einfach die Parameter entsprechend auch Ansätze ich geh jetzt hier mal davon aus dass irgendein findiger Programmierer in der Routine oder in irgendeiner klugen Komponenten noch was gefunden
hat sagt da kann ich aber gut die Hälfte wegnehmen und wir hatten eben für unseren Parameter sieht macht das ist ja genau der Anteil an dem das Kilo stattfindet oder in dem das Kino im Prinzip ablesbar ist hat einen Wert von 0 Komma 0 4 gesehen denn setzt sich jetzt hier mal in dem Modell einfach auf 0 Komma 0 2 runter also ich teste mal wie verhält sich das System laut meinem Modell wenn ich das eben vom Wert her halbieren kann und das kann ich eben machen ohne überhaupt eine Zeile Code anzufassen oder ohne ein Stück Hardware zu bewegen und bekommen als Ergebnis eben 29 ,komma 2 das heißt der Punkt an dem ich die
maximale Skalierbarkeit erreichte hat sich jetzt ein bisschen nach hinten geschoben und wenn ich das 1. .punkt kenne dann kann ich in einem 2. Schritt dasselbe
nochmal machen und den Wert mehr ausgeben zu lassen das heißt zu ermitteln welchen Durchsatz erreiche ich den ja eigentlich und das wird sich dann eben wieder ineinander 1 und bekommen in dem konkreten Fall eben die 145 als Ergebnis das heißt der maximale die Request Durchsatz den ich mit meinem System erreichen kann unter der Voraussetzung diese Optimierung ist realisierbar wäre halt 145 Transaktionen oder Requests pro Sekunde und damit habe ich eben bevor ich überhaupt anfangen irgendwas im System zu verändern schon mal eine Hausnummer wo ich sagen kann lohnt sich das überhaupt ist das
der Wert mit dem ich mein System nachher wirklich betreiben kann oder wenn ich damit noch viel zu weit von dem weg was ich eigentlich erreichen will und wir müssen viel stärker optimieren das kann ich Ihnen schon sagen bevor ich überhaupt mit der Optimierung Anfang ich muss ich warten bis das Ganze fertig ist und dann sollten wir vielleicht auch nicht und so halt im Prinzip ein Modell ein mathematisches Modell für unser System geworden mit dem sich im Vorhersagen machen lassen mit dem ich ein bisschen rumspielen kann und zu erkennen wo geht das eigentlich die Performance führten was ist die Komponente natürlich nicht auf Basis einer Zeilennummer immer ein Grund dafür ist dass es dem halt doch viel zu komplex aber als Modell eben doch eine Aussage machen kann wie das Ganze eben funktionieren kann ja und das war auch mein 3. Beispiel wo ich mit Ehrengästen zeigen wollte unter Zuhilfenahme eines entsprechenden Paket das was lässt sich denn hier so im IT-Bereich für Performance Aussagen so weiter eigentlich die lässt sich aber der einsetzen welche Aussagen kann ich damit gewinnen ja dann herzlichen Dank erstmal und ansonsten würde sagen wenn wir dann noch Fragen haben dann kann ich die jetzt auch noch beantworten bitte kennen gelernt und untersucht eigentlich keiner also die Frage war welche Alternativen es gibt zu er beziehungsweise ich dann kennen gelernt habe und kennen gelernt habe in dem Sinne keine er ist der freie Software das heißt ist ein sehr einfacher sehr niedrige Einstieg da kann jeder oder auch Geld auszugeben mit Anfang es gibt ein paar andere mathematische Tool von Tools von denen ich weiß Matlab wird sehr gerne verwendet im Statistik Bereich gibt es es GPS und und andere Applikationen die eben alle Geld kosten das ist bei einem schmalen Budget möglicherweise auch als Student eben nicht der Punkt mit dem man anfangen möchte und ich hab einfach irgendwann als ich die Notwendigkeit sei nicht mehr mit solchen Datenauswertungen zu beschäftigen haben mal geguckt was ist verfügbar war und er war da eigentlich sehr gute Alternative denke geschwungenen wenig von einer wenig Energie reinstecken muss und dann anfangen zu können ist mit mehr also die Frage ist gibt es ein gutes Buch zum Einstieg oder gibt es von der Dokumentation ist das ausreichend was vorhanden ist und es gibt den er ein integriertes Hilfesystem was also auch so mit ein bisschen halt allerdings funktioniert das heißt wenn ich bei einer Funktion bin und es werden andere Funktionen der Fernseher kann ich mich da durchklicken das ist schon mal für die Parameter sehr hilfreich denn es gibt ne ganze Reihe Bücher jetzt muss ich überlegen ob ich davon irgendwas empfehlen könnte also in Akt des Verlags in ein paar erschienen zum Thema aber zum Teil sind einige Bücher auch er auch vor dem vor dem Hintergrund der fachlichen Hintergrund Statistik wie wenig statistische Methoden an und benutzte dabei aber das hängt halt immer ein bisschen davon ab was ich da mache also wie gesagt er ist sehr stark zum Beispiel der Bioinformatik zu Hause und da gibt es natürlich dann einfach Bücher die aus diesem Themenbereich kommen und dann eben das versuchen aufzuarbeiten da gibt es eine Sache in diese diese 2. Grafik die war jetzt oder die die diese beiden Grafik die ich hatte die war es ein bisschen bunter das ist eine Komponente die gänzlich GG Plot basiert auf einer ich glaub Promotionsarbeit oder so (klammer auf Graphics nennt sich das Ganze das heißt da hat sich jemand die Mühe gemacht und überlegt welche Grammatik können sich in die Welt werfen um zu beschreiben wie wie Grafiken aufgebaut werden sollen wie das ganze funktioniert im leeren das heißt ich kann dann eine Ebene jetzt nicht in im Sinne der in der Anzeige Ebene sondern der logischen Ebene also ich hab ich kann ich es mit den Achsen beschäftigen mit der generellen Darstellung dieser Hintergrund aussehen dann kann ich halt sagen welche Farben verwendet und so baue ich meine Grafik nach und nach auf wie gesagt das nennt sich GG Plot ist ein Tool oder einen eine Bibliothek die man eben hier auch installieren kann und dafür gibt es ein relativ gutes Buch was nur über diese über diese DBT geht es auch vom Autor dieser Bibliothek selber das fand ich also auch sehr empfehlenswert die aktuelle Version die Bibliothek hat sich natürlich weiterentwickelt und das Buch ist dann nicht mehr wirklich auf den letzten Stand aber diese beiden Grafik zum Beispiel die bunte es genau auf diese Art entstanden um das zu produzieren was ich jetzt hier angezeigt hat das waren 6 7 Zeilen Code um das halt entsprechend in der Darstellung mit den Farben mit den Achsen Beschriftungen und so weiter zu machen also das würde ich für diese grafische Thema würd ich das auf jeden Fall bitte schön das ist eben der Sache wenig zu schreiben dann muss der Autor im Prinzip auf jeden Fall eine Art nennen Patch mitliefern also das Hilfesystem füllen mit den Funktionsbeschreibungen und dann gibt es eben Module bei den sind sogenannte Vignette dabei das sind dann zusätzliche PDS in denen der Autor möglicherweise den Anwendungsfall beschreibt das Ganze noch noch konkreter macht oder so aber das ist keine Pflicht und deswegen ist das nicht bei jedem Modul dabei danke für den Hinweis ja ansonsten ich hab noch ein paar Kontaktmöglichkeiten aufgezeigt und mein die hat erkannt und ich werden den Vortrag also inklusive der kompletten 1. 3. die dabei auch abgelaufen sind an der Stelle dann irgendwo in den nächsten Tagen hinterlegen und da kann also wer Interesse hat dann auch mal schauen wie das Ganze halt quasi auch im Quellcode aussieht und wie das Ganze dann in einem Rutsch auch das PDF generiert was wir jetzt hier als Präsentation gerne nochmal
Programmiersprache
UNIX
Datenanalyse
Datenanalyse
Systemverwaltung
Wurm <Informatik>
HTTP
Rechnen
WINDOWS <Programm>
Computeranimation
LINUX
Software
GNU <Software>
Rechnen
Programmierumgebung
Laufzeitsystem
Programmiersprache
Internet
UNIX
Hauptspeicher
UNIX
HTTP
Systemplattform
WINDOWS <Programm>
Computeranimation
LINUX
Anwendungssoftware
GNU <Software>
Rechnen
Spielkonsole
Repository <Informatik>
Hilfesystem
Laufzeitsystem
WINDOWS <Programm>
GRADE
Programmcode
UNIX
Oracle <Marke>
ACCESS <Programm>
Systemplattform
WINDOWS <Programm>
Programmcode
Computeranimation
LINUX
XML
PDF <Dateiformat>
Skript <Programm>
GNU <Software>
Vorlesung/Konferenz
Version <Informatik>
Rechnen
HTML
Schnittstelle
Feinstruktur <Mengenlehre>
Datei
GRADE
Programmcode
Datenhaltung
Oracle <Marke>
ACCESS <Programm>
Computeranimation
Richtung
Anwendungssoftware
XML
PDF <Dateiformat>
Vorlesung/Konferenz
HTML
Gebiet <Mathematik>
Markov-Kette
Schnittstelle
GRADE
Oracle <Marke>
ACCESS <Programm>
Bildschirmtext
Computeranimation
Bioinformatik
ARCHIVE <Programm>
Algorithmus
Anwendungssoftware
XML
PDF <Dateiformat>
Dateiformat
Vorlesung/Konferenz
HTML
SQL
Datei
Laufzeit
Vorlesung/Konferenz
Tomcat <Programm>
Response-Zeit
Apache <Programm>
Umfang
Computeranimation
Internet
Datei
Variable
Punkt
Gleichheitszeichen
Hebel
Computeranimation
Tabellenkalkulation
Hauptspeicher
Funktionalität
Lead
Computeranimation
Objekt <Kategorie>
Parametersystem
Lag
Vektorrechnung
Wertevorrat
Vektor
Computeranimation
Funktion <Mathematik>
Variable
Vektorrechnung
Mittelwert
Minimum
Kennzahl
Maximum
Vorlesung/Konferenz
Response-Zeit
Computeranimation
Wertevorrat
Mittelwert
Arithmetisches Mittel
Mittelwert
Kennzahl
Medianwert
Computeranimation
Wertevorrat
Parametersystem
Streuung
Streuung
Kennzahl
Vorlesung/Konferenz
Zahl
Computeranimation
Funktion <Mathematik>
Parametersystem
Position
Momentenproblem
Streuung
Quantil
Kennzahl
Abfrage
Zahl
Computeranimation
Response-Zeit
Medianwert
Menge
Response-Zeit
Funktion <Mathematik>
Parametersystem
Ziffer
Länge
Reihe
Maximum
Häufigkeitsverteilung
Extrempunkt
Zahl
Computeranimation
Response-Zeit
Diagramm
Menge
Minimum
Server
Vorlesung/Konferenz
Desktop
Häufigkeitsverteilung
Neun
Parametersystem
Datei
Punkt
Extrempunkt
Achse <Mathematik>
Laufzeitsystem
GRADE
Schreiben <Datenverarbeitung>
TINA <Telekommunikation>
Dienst <Informatik>
Häufigkeitsverteilung
Computeranimation
Histogramm
Parametersystem
Histogramm
Komponente <Software>
Dienst <Informatik>
Häufigkeitsverteilung
Computeranimation
Funktion <Mathematik>
Zeitreihe
Prognostik
Prognose
Visualisierung
Computeranimation
Parametersystem
Transaktionsverwaltung
Algorithmus
Prognose
Momentenproblem
Kurve
Komponente <Software>
Last
Parametersystem
Information
Visualisierung
Kurvenanpassung
Zahl
Computeranimation
Parametersystem
Prognostik
Prognose
Kurve
Verbandstheorie
Vorlesung/Konferenz
Saisonale Komponente
Visualisierung
Apache <Programm>
Computeranimation
Parametersystem
Vorlesung/Konferenz
Apache <Programm>
Parallele Schnittstelle
Computeranimation
Funktion <Mathematik>
Intel
Komponente <Software>
Lead
Computeranimation
Parametersystem
Prognostik
Prognose
Punkt
WEB
Netzwerk <Graphentheorie>
Parametersystem
Reihe
Zeitreihe
Information
Frequenz
Computeranimation
BETA <Programmiersprache>
Parametersystem
Prognose
Algorithmus
WEB
Komponente <Software>
Parametersystem
Zeitreihe
BETA <Programmiersprache>
Zahl
Computeranimation
Prognose
Mittelungsverfahren
Prognostik
Skalierbarkeit
Prognose
Kurve
Last
Parametersystem
Kurvenanpassung
Apache <Programm>
Systems <München>
Computeranimation
Prognose
Software
Skalierbarkeit
Globale Optimierung
Skalierbarkeit
Mathematisches Modell
Durchfluss
Vorlesung/Konferenz
Limitierungsverfahren
Durchfluss
Optimierung
Computeranimation
Hardware
Software
Hardware
Skalierbarkeit
Software
Skalierbarkeit
Mathematische Modellierung
Vorlesung/Konferenz
Rechnen
Quantifizierung
Zahl
Computeranimation
Hardware
Software
Mathematik
Menge
Skalierbarkeit
Vorlesung/Konferenz
Quantifizierung
Computeranimation
Hardware
Aggregatzustand
Linie
Last
Höhe
Vorlesung/Konferenz
Durchfluss
Messprozess
Zahl
Computeranimation
Moden
Parametersystem
Kurve
Vorlesung/Konferenz
Plotter
Computeranimation
Linie
Moden
Parametersystem
Informationsmodellierung
Skalierbarkeit
Komplexes Objekt
Vorlesung/Konferenz
Computeranimation
Funktion <Mathematik>
Parametersystem
Informationsmodellierung
Objektklasse
Skalierbarkeit
Kurve
Koeffizient
Plotter
Implementierung
p-Block
Objektorientierung
Plotter
Computeranimation
Parametersystem
Multiplikation
Skalierbarkeit
Momentenproblem
Parametersystem
Vorlesung/Konferenz
Overhead <Kommunikationstechnik>
p-Block
Extrempunkt
Overhead <Kommunikationstechnik>
Programmcode
Computeranimation
Parametersystem
Momentenproblem
Synchronisierung
Laufzeit
Extrempunkt
Programmcode
Synchronisierung
Computeranimation
Komponente <Software>
Parametersystem
Vorlesung/Konferenz
Punkt
Warteschlange
Overhead <Kommunikationstechnik>
Zugriff
CASHE
Soundverarbeitung
Parametersystem
App <Programm>
Position
Laufzeit
Berechnung
Oval
Computeranimation
Laufzeit
Balken
Summe
Prognostik
Komponente <Software>
Parametersystem
Vorlesung/Konferenz
Overhead <Kommunikationstechnik>
Programmiersprache
Self-consistent Field
Prognose
Parametersystem
Prognostik
Variable
Skalierbarkeit
Punkt
Durchfluss
Vorlesung/Konferenz
Durchfluss
Computeranimation
Funktion <Mathematik>
Programmierer
Parametersystem
Prognose
Darstellung <Mathematik>
Einfügungsdämpfung
Punkt
Durchfluss
Optimierung
Computeranimation
Komponente <Software>
Koroutine
Client
Durchfluss
Funktion <Mathematik>
Parametersystem
Skalierbarkeit
Hardware
Punkt
Vorlesung/Konferenz
Optimierung
Programmcode
Computeranimation
Ebene
MATLAB
Punkt
Plotter
Datenanalyse
Mathematisches Modell
Extrempunkt
Programmcode
Computeranimation
PDF <Dateiformat>
Bioinformatik
Prognose
Energie
Achse <Mathematik>
Vorlesung/Konferenz
Optimierung
Hilfesystem
Funktion <Mathematik>
Parametersystem
Statistik
Open Source
Reihe
Aussage <Mathematik>
HTTP
Durchfluss
Quellcode
Hausdorff-Raum
Optimierung
Patch <Software>
Komponente <Software>
Ein-Ausgabe
Anwendungssoftware
Version <Informatik>
Software
Computeranimation

Metadaten

Formale Metadaten

Titel Datenanalyse mit R für Administratoren
Untertitel Beispiele aus der Praxis
Serientitel FrOSCon 2014
Teil 55
Anzahl der Teile 59
Autor Möding, Stefan
Lizenz CC-Namensnennung - keine kommerzielle Nutzung 2.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/20962
Herausgeber Free and Open Source software Conference (FrOSCon) e.V.
Erscheinungsjahr 2014
Sprache Deutsch
Produktionsort Sankt Augustin

Inhaltliche Metadaten

Fachgebiet Informatik
Abstract R, die freie Programmiersprache für statistisches Rechnen und Grafiken, ist auch für Administratoren ein nützliches Werkzeug. Dieser Vortrag beginnt mit einer kurzen Vorstellung von R und zeigt dann an einigen Beispielen, wie R sich für die Analyse von Performance-Daten nutzen lässt oder damit eine Prognose der zukünftigen Auslastung eines Systems sowie der Skalierbarkeit abgeleitet werden kann.

Ähnliche Filme

Loading...