BahnMining - Pünktlichkeit ist eine Zier
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 254 | |
Author | ||
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/53190 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
00:00
SimulationLink (knot theory)VolumeStatistikerStatisticsMoment (mathematics)Stress (mechanics)Row (database)Table (information)Hausdorff spaceData typeGrand Unified TheoryEmailDurchschnitt <Mengenlehre>Web pageSet (mathematics)Data analysisBulletin board systemExplosionswelleTape driveDatabaseData storage deviceComputer scienceComputer animationJSON
09:45
StatisticsOrder of magnitudeSet (mathematics)ProzentzahlRow (database)Stress (mechanics)Computer animation
13:09
LaufzeitDownloadStress (mechanics)LaufzeitWeb pageFault-tolerant systemLinieRow (database)DistanceServer (computing)DatabaseGrand Unified TheoryDebian GNU/LINUXEngineering drawing
19:31
DownloadSmartphoneInterface (computing)Abruf <Informatik>Grand Unified TheoryDownloadStress (mechanics)Query languageMobile appSound effectZahlDiagram
22:22
DownloadAbruf <Informatik>DownloadXMLDurchschnitt <Mengenlehre>LogarithmMoment (mathematics)Web portalState of matterComputer animation
24:24
DownloadWeb portalInternetQuery languageWordServer (computing)Abruf <Informatik>LengthMoment (mathematics)LogarithmLecture/Conference
26:14
DownloadLink (knot theory)MittelungsverfahrenInternetProzentzahlWeb pageRow (database)Inequality (mathematics)Moment (mathematics)Ferry CorstenComputer animation
29:11
DownloadQuoteStatisticsBusiness reportingStress (mechanics)Moment (mathematics)Order of magnitudeMathematical modelStatistikerKennzahlPlausibilitätBinary fileAudiovisualisierungComputer animation
34:41
DownloadStatisticsMoment (mathematics)MathematicsHIT <Programm>StatisticsComputer animation
37:01
Link (knot theory)Spring (hydrology)Social classNegative numberStatisticsTwitterStress (mechanics)StreckeDirection (geometry)Urinary bladderTiefeHausdorff spaceComputer animation
41:03
Stress (mechanics)Set (mathematics)Hausdorff spaceAxiom of choiceTrans-European NetworksComputer animation
42:05
Lecture/Conference
43:01
User interfaceComputer wormDrum memoryReading (process)Source codeWordStress (mechanics)Computer animation
46:21
WordEckeDirection (geometry)Computer animation
47:09
Slide ruleTape driveStress (mechanics)InternetStatisticsSupremumRun-time systemSound effectRow (database)CounterexampleSun <Marke>Durchschnitt <Mengenlehre>ParadoxFilm editingMusical ensembleLecture/Conference
54:25
Stress (mechanics)StatisticsMoment (mathematics)Quest <Programm>StreckePlane (geometry)Table (information)Business reportingDirection (geometry)KennzahlWeb pageSupremumPowerPointNoten <Programm>Slide ruleAPIInformationLecture/Conference
01:01:25
openSUSEComputer animation
Transcript: German(auto-generated)
00:21
ist schon ganz schön lang unterwegs. Beim 33C3, da fuhr er mit Xerox ab. Beim 33C3 hat er dann Spiegel einmal gedatameint und hat geguckt, was ist denn dort Spiegel online und hat uns wirklich eine total perfekte Datenanalyse zu dem Thema gemacht. Und beim 36C3 geht's mit dieser Zugfahrt weiter. Bitte begrüßen mit
00:43
einem Riesenapplaus David Grisl. Applaus, Applaus, Applaus. Viel Spaß. Also ich glaube, so geil bin ich noch niemals eingeleitet worden.
01:05
Ja, herzlich willkommen euch allen hier auch, herzlich willkommen an die Leute im Stream und an die Aluhüte im Besonderen. Die Aluhüte glühen aber leider noch nicht. Vielleicht kriegen wir das im Verlaufe dieses Vortrages doch hin. Mein Name ist David Grisl, ich bin Informatiker aus der Nähe von
01:28
Sachen in größeren Datenmengen zu finden. Und neudeutsch heißt das Data Scientist. Zusätzlich zum Beruf habe ich verschiedene Hobbyprojekte und manchmal nehme ich mir eins davon raus und halte darüber hier
01:41
einen Vortrag. Ich bin Rheinländer und bei uns sagt man, ab zweimal ist es Tradition und beim dritten Mal ist es Brauchtum. Ich bin jetzt das dritte Mal hier. Das ist also schon voll Brauchtum und ich freue mich, dass es so oft geklappt hat. Unsere Geschichte heute beginnt im Jahr 2018. Am Ende des Jahres 2018 hat nämlich die Bahn gesagt,
02:06
rund 75 Prozent ihrer Fernzüge seien pünktlich gewesen. Und dafür muss man erst mal wissen, was ist denn pünktlich? Und die Bahn errechnet das folgendermaßen, die sagen, wenn ein Zug bei einem Stopp weniger als sechs Minuten zu spät ankommt, dann ist der
02:24
pünktlich. Das ist wirklich die Definition und wir übernehmen das einfach, dann müssen wir da nicht handeln irgendwie. Und dann errechnen sie den Prozentsatz aller Stops, bei denen das der Fall ist und das wären bei knapp 75 Prozent in 2018 so der Fall
02:40
gewesen. Und das hat mich in meiner persönlichen Erfahrung irgendwie gestört. In den letzten Jahren bin ich quer durch Deutschland gereist, davon relativ häufig mit der Bahn. Und dann habe ich in meine Mailbox geguckt und für mehr als die Hälfte meiner Fahrten habe ich diese E-Mail von verspätungsalarm.de. Und da
03:06
dachte ich, ich bin wohl dieser eine Typ, der aufpassen muss, nicht vom Blitz getroffen zu werden, während er den Sechser im Lotto abholt. Und ich wollte das dann genauer wissen, also habe ich mal in die Statistiken geguckt, die auf der Webseite der Bahn sind, dann habe ich gesehen, da sind
03:23
fast kaum welche. Und die Bahn bietet auf ihrer Webseite nur die Prozent der pünktlichen Stops pro Monat an, fürs Gesamtnetz, bundesweit, noch einmal getrennt in Nah- und Fernverkehr. Und das ist zusammengefasst, damit kann man nichts anfangen. Man kann da nicht nach bestimmten Verbindungen filtern, man kann auch nicht gucken, bei
03:42
welchen Bahnhöfen die Performance besonders schlecht ist oder gut ist und alles, was interessant ist oder was ich interessant fand, das geht nicht. Also habe ich am 8. Januar begonnen, die Deutsche Bahn zu Vorratsdaten speichern. Und in diesem Datensatz gucken wir heute
04:07
rein. Und wir werten das auch nicht nur aus, sondern ich werde auch ein bisschen Zeit darauf verwenden, euch grob zu erklären, wie man so ein Datenprojekt angeht und worauf man achten muss und wie man vor allem merkt, ob man Vertrauen in die Daten haben kann. Das muss ja nicht sein, dass alles stimmt, was man so
04:22
runterlädt. Und über den ganzen Vortrag hinweg gebe ich euch immer so ein paar Praxistipps, die ihr mit nach Hause nehmen und an die ihr denken könnt, wenn ihr eine Bahnfahrt bucht. Und Disclaimer vorweg, ich habe mit der Bahn nicht über die Auswertungen gesprochen. Behaltet im Hinterkopf, am Ende ist
04:40
das ein kleines Hobbyprojekt und es kann durchaus sein, dass ich Fehler gemacht habe. Aber da wir auch noch über die Vertrauenswürdigkeit der Daten reden, könnt ihr selbst entscheiden, ob ihr meinen Daten vertraut oder nicht. So und wir gucken uns jetzt endlich mal an, wie die Daten aussehen. Hier sehen wir eine fiktive Fahrt eines ICE. Ich gebe euch mal kurz fünf Sekunden für den ersten Überblick und danach erkläre ich die. Drei Sekunden reichen auch. Der ICE fährt
05:08
in München los und jede weitere Zeile ist ein Stopp. Und irgendwann ist der am Ziel angekommen, hier Bergen auf Rügen. Und eine Fahrt ist also die Sequenz aller Stops, die der Zug von Anfang bis Ende macht. Danach ist
05:22
das eine neue Fahrt. Hier sind die Verspätungen pro Stopp. Der Zug ist mit sechs Minuten Verspätung abgefahren und nach der Messmethode der Bahn wäre der so gerade, als verspätet zu werden an diesem Stopp. Und dann schwanken die Verspätungen. In Erfurt sind wir auch mal sechs Minuten zu früh dran gewesen. Die Verspätung ist negativ. Das passiert. In der
05:43
Regel heißt das übrigens, dass der Zug dann einfach länger bleibt und nicht auch zu früh wieder abfährt. Und am Berliner Flughafen, der Stopp fällt aus. In 20 Jahren werde ich diese Witze immer noch machen können. Und diese Stops aller
06:05
Fahrten sind die Grundlage unserer Daten. Meine Tabelle hat 25 Millionen Zeilen. Das sind 25 Millionen Stops von irgendwelchen Zügen. Das sind alle Stops im Fernverkehr von 8. Januar bis jetzt und auch der Nahverkehr. Aber der nur an den Fernbahnhöfen, komme ich gleich noch
06:20
zu. Und die Tabelle hat auch verschiedenste Spalten. Die, die ich hier vorführe und noch einige mehr. Und wir können in einzelne Orte reingucken, einzelne Fahrten reingucken, in Zeiträume reingucken. Wir können auch kompliziertere Auswertungen fahren. Machen wir auch heute noch. Und zum Anfang machen wir mal ein paar ganz einfache Sachen mit den Daten. Das ist nicht um euch zu langweilen, aber wir müssen ja erst mal reinkommen, den Datensatz
06:41
kennenlernen und so weiter. Und wir sortieren jetzt die ganze Tabelle von Stops, 25 Millionen Stück, mal nach Bahnhöfen und dann ermitteln wir die Anzahl der Stops für jeden Bahnhof über das ganze Jahr hinweg. Und jeder Bubble hier ist so ein Bahnhof mit Fernverkehr und davon haben wir um die 350 Stück. Das sind die wichtigen. Und die Größe der
07:02
Bubble gibt die Anzahl der erfassten Halte für den Bahnhof wieder und zwar für alles, was da fährt, Fern- und Nahverkehr. Und der größte, was das angeht, ist Köln Hauptbahnhof mit im Moment 380.000 Stops in der Datenbank. Ich habe die Top 6 mal in der Karte beschriftet. Warum genau die Top 6? Weil der sechste Bahnhof genau Hamburg-Dammtor ist.
07:22
Und das wollte ich euch nicht vorenthalten. Das war unser letzter Kongressbahnhof. Der Bahnhof Leipzig- Messe ist übrigens deutlich, deutlich kleiner. Inklusive Nahverkehr haben wir hier so 60.000 Stops im Jahr und überhaupt nur ein paar hundert Fernverkehr. Wo wir schon dabei sind, machen wir jetzt was aus Kundensicht Interessantes und
07:41
färben mal die Bahnhöfe ein und zwar nach der Pünktlichkeit, nach dem Prozentsatz der Pünktlichkeit der dortigen Stops im Fernverkehr. Das ist die Pünktlichkeit. Knallrot ist 60 Prozent. Knallblau ist 90 Prozent. Und dazwischen farblos, das ist ungefähr der Durchschnitt bei 75. Als erstes sieht man, in
08:01
Ostdeutschland ist quasi alles blau. Ja, ich bin sicher, das sind diese, ich bin sicher, das sind diese blühenden Landschaften, von denen altkanzler Kohl immer sprach. In Nordrhein-Westfalen ist so ziemlich alles rot. Köln hat nur
08:21
so 66 Prozent Pünktlichkeit. Bonn ist wirklich eins der Schlusslichter mit 59 Prozent. Ja, das sind die beiden Bahnhöfe, über die ich oft fahre. Generell der ganze dicht besiegelte Raum in Nordrhein- Westfalen ist ziemlich schlimm dran. Und ich habe euch ja gesagt, dass ich das ganze Projekt überhaupt erst gestartet habe, weil ich dachte, die Statistik
08:41
der Bahn wäre falsch, weil meine Züge so häufig unpünktlich sind. Die simple Wahrheit ist, ich wohne nur schlecht. Hamburg oben ist auch schlimm. Das finde ich auch gerecht. Warum soll ich der einzige sein? Irgendwo bei 60 Prozent, je nachdem, welchen Bahnhof man erwischt. Das sieht da jetzt röter aus, als es ist,
09:01
weil die Dinger transparent sind. Und was die Pünktlichkeit angeht, haben wir uns mit Leipzig-Messe definitiv verbessert. Also wir sind hier so bei 80 Prozent oder etwas mehr. Ganz wichtig, ich zeige euch jetzt überall, wo es nicht anders dran steht, nur noch den Fernverkehr an. Überhaupt wird der ganze Vortrag primär über den Fernverkehr gehen, weil
09:20
über das wird meistens berichtet in den Medien und über auch gemeckert. Und der Fernverkehr ist das, worüber alle reden. Aber wenn ich sage, dass ich hier primär über den Fernverkehr heute rede, dann muss ich auch fair sein und das Folgende sagen, der Nahverkehr, den wir jetzt auslassen, erreicht fast flächendeckend Pünktlichkeitswerte von besser als 90 Prozent.
09:42
Behalte das bitte über den Rest des Vortrages im Hinterkopf. Die Bahn hat auch gute Seiten und bringt gerade im Nahverkehr eine ziemliche Menge Leute jeden Tag zu ihrem Job. Da geht sicher auch mal was schief, aber deutlich weniger als im Fernverkehr. Und jetzt ich hoffe, die Leute von der Bahn hören zu und hören das jetzt gerade.
10:02
Wir ändern jetzt noch mal die Ansicht. Die Pünktlichkeiten pro Bahnhof waren ja interessant für den Kunden. Aber wenn man ein bisschen analytisch was machen will und bei der Bahn arbeitet, dann ist das Interessante, welche Bahnhöfe richtig viel Verspätung generieren, also dem Netz hinzufügen. Und das ist die Ansicht. Ganz schlimm sind große
10:21
Bahnhöfe mit vielen Stops, die gleichzeitig jedem Zug, der da anhält, noch so ein bisschen Verspätung mit auf den Weg geben. Die fünf schlimmsten sind Hamburg, Köln, Frankfurt Flughafen, Mannheim. Die sind alle mit mehr als 50.000 hinzugefügten Verspätungsminuten im Messzeitraum.
10:41
Und der Spitzenreiter ist Frankfurt Hauptbahnhof mit 93.000 generierten Verspätungsminuten. Ich höre, wir haben eine Frankfurt-Fraktion. Wie seid ihr hergekommen? Die sind heute erst angekommen. Ich hoffe, ihr habt euch nicht gehetzt, zweiter Tag abends.
11:01
Gibt aber auch Bahnhöfe, die funktionieren so gut, dass sie insgesamt Verspätung aus dem Netz rausnehmen. Die Top 3 sind Bremen, Berlin Hauptbahnhof und Berlin Spandau. Und das hat mich sehr kalt erwischt, dass mir völlig unverhofft ein
11:21
Nachweis dieser Größenordnung gelungen ist. Es gibt tatsächlich etwas an Berlin, das funktioniert. Wir machen weiter. Hier seht ihr im Vergleich, sonst artet das aus. Ihr seht immer im Vergleich, wie viel Fahrten es im Nahverkehr, Fernverkehr und von Drittanbietern gibt.
11:41
Wie ihr seht, ist das weitaus meisternde Nahverkehr. Hier orange. Es sind mehr als 5 Millionen Fahrten im Datensatz. Dagegen gibt es nur ca. eine Viertelmillion Fahrten im Fernverkehr. Der ist hier blau. Und es gibt noch auch ziemlich viele Fahrten von Drittanbietern. Und wir dröseln das jetzt mal in einzelne Zugarten auf, einfach damit wir sehen, was es so gibt, bevor wir richtig einsteigen.
12:01
Wir sehen jetzt, dass sich der Nahverkehr aufspaltet in die drei dicksten Bubbel. Regionalbahn, Regionalexpress, S-Bahn und der Fernverkehr im ICE Intercity. Das ist IC und Euro City IC. Die Abkürzungen verwende ich auch im Folgenden. Und diese vergleichsweise kleinen blauen Punkte, das sind die eigentlich
12:21
interessanten Zugarten für heute. Das sind nämlich die Züge, die quer durch Deutschland fahren. Da kann man richtig was sehen. Und jetzt gehen wir einen Schritt weiter. Wir nehmen diese für uns relevanten Zugarten her, also ICE Intercity, Euro City. Und dann schauen wir einfach mal, welche Zugart generell am spätesten dran ist. Damit man gleich weiß,
12:41
wo man ausweichen muss. Ich wiederhole nochmals, wie die Bahn das misst. Prozentzahl der Stops, die maximal sechs Minuten zu spät sind, sind pünktlich. Im Fernverkehr am pünktlichsten sind die Intercity mit gut 76 Prozent. Dicht danach folgen die ICE und deutlich dahinter die Euro City. Davon sind nicht mal 70 Prozent
13:01
nach der Bahndefinition pünktlich. Und da muss ich sagen, das kann ich in der Tat aus persönlicher Erfahrung bestätigen. Nach meinem Eindruck ist die Qualität von den Teilen einfach schlechter in jeder Hinsicht. Also die Züge sehen, auch wenn ich damit fahre, immer relativ alt aus. Aber man muss auch fair sein. Die fahren internationaler als der Rest der Züge. Und wenn die direkt
13:20
von außen Verspätung mitbringen, kann die Bahn da nichts führen. Und solche Fälle gibt es. Und es fehlt noch eine Größe, die wir messen können und die wir messen werden. Und über die schweigt sich die Bahn auf ihren Webseiten aus. Und wenn man sich so konsequent ausschweigt, hat das natürlich zur Folge, dass man sich für eine Analyse bewirbt. Und das ist der Prozentsatz
13:41
der Ausfälle. Und hier ist er. Und das war für mich überraschend. ICEs sind ja das Flaggschiff der Bahn. Und anscheinend fallen die mit weitem Abstand am häufigsten aus. Euro City gut zwei Prozent, Intercity gut drei Prozent und ICE über fünf Prozent. Also wenn ihr einen ICE bucht,
14:02
dann taucht er in einem von zwanzig Mal einfach nicht auf. Und das fand ich ganz schön stramm. Mich hat das überrascht. Mein Praxistipp an euch lautet also, Vorsicht mit den ICEs. Ich weise fairerweise nochmals darauf hin, dass das eine Auswertung von außen ist. Es besteht die Möglichkeit,
14:20
dass das nicht stimmt oder da ewig viele Extrafahrten dann für die Ausfälle gefahren werden, die gar nicht im Plan standen. Aber alle diese Stops standen in deren Daten explizit als ausgefallen drin. Die Daten sehen insgesamt realistisch aus. Und im Spiegel hatten sie auch neulich eine Auswertung, wo sie auf ähnliche Werte kamen. Also schlage ich vor, wir betrachten das mal als gegeben, bis die Bahn widerspricht.
14:43
Übrigens, einer der fettesten nicht ausgefallenen Verspätungen in meinem Datensatz war der ICE 576 von Stuttgart nach Hamburg, und zwar am 17. Oktober 2019. Der hatte 456 Minuten Verspätung. Das sind mehr als siebeneinhalb Stunden.
15:01
Und der war nicht ausgefallen. Und um unseren Überblick zu vollenden, gucken wir uns jetzt das Ganze nochmal über die Zeit an. Hier sehen wir die Fahrten über die Zeit, die ich für den Fernverkehr in der Datenbank habe. Die können wir uns mal angucken, wie das funktioniert. Wir sehen, dass wir so um die 800 Fahrten am Tag haben im Fernverkehr.
15:21
Die niedersten Zacken sind immer Samstage, die hohen Zacken immer Freitage. Das ist der Berufsverkehr. Hier sind Ostern und Pfingsten. Weihnachten habe ich nicht mehr hingekriegt. Und was sieht man noch? Man sieht zum Beispiel, dass ich zwischendurch Mist gebaut habe und ein paar Tage Daten verloren habe. Wer meinen letzten Vortrag hier gesehen hat, dem wird das bekannt vorkommen.
15:42
Ich mache das jeden Vortrag. Aber ich war besser. Diesmal war ich so klug. Und dann habe ich mir ein vernünftiges Download-Monitoring gebaut. Und dann dachte ich, ich wäre cool. Und dann habe ich es irgendwie geschafft, den Debian-Server, auf dem das Ganze läuft, komplett zu crashen. Also der hat gar nicht mehr geantwortet. Ich musste die Kiste hart booten.
16:02
Und ich war da gerade in Urlaub und habe das nicht gemerkt. Also diesmal technischer Tipp für euch. Baut nicht nur ein Download-Monitoring, sondern lasst das auch noch auf einem anderen Server laufen als den Download selbst.
16:20
Und weil wir heute ja auf Bahnbewerbung hin die Ausfälle besonders genau machen wollen, hier sind die Ausfälle über die Zeit. Das sind die Prozent der Stops pro Tag, die einfach ausgefallen sind. Und man sieht sofort zwei fette Spikes. Hier ist der Orkan Eberhard. Dieser Orkan ist am 10. März über uns hereingebrochen.
16:41
Und am Nachmittag war der der Meinung, es würde jetzt mal reichen mit Bahnverkehr. Und den gucken wir uns auch noch genauer an. Und hier ist der heiße Tag des Jahres mit der Hitzewelle dieses Jahres. Und generell sieht man hier, wenn ihr mal so ein bisschen genauer guckt, dass es im Hochsommer eine stark erhöhte Ausfallrate gibt. Wie kommt das?
17:01
Klimaanlage höre ich da. Die Ausfälle nach Zeit zerlegen wir jetzt nochmal in die relevanten Zugarten, bevor der alles vorwegnimmt. Und das machen wir jetzt nicht mehr auf der Basis von Tagen, sondern von Wochen. Das ist einfach etwas glattern. Und die gelbliche Linie sind die ICEs. Und da sieht man erst mal,
17:21
was für ein fettes Problem die mit den ICEs im Sommer haben. Und ihr seht, wie die Ausfälle der ICEs im Sommer im Vergleich zu den anderen Zugarten richtig stark nach oben ausbrechen. Das sind so um die 8% Ausfallquote. Fast an jedem 12. Stopp taucht so ein ICE in der warmen Zeit dann einfach nicht auf.
17:43
Und in der Woche vom 22. Juli, in der ganzen Woche sind mehr als 10% aller ICE-Stops ausgefallen. Also ich weiß nicht, wie euch das geht, aber das geht bei mir über die Fehlertoleranz. Also wenn das jeden Sommer so ist, hier mein nächster Praxistipp für euch. Vorsicht mit ICEs im Sommer.
18:03
Und jetzt wo es kälter wird, fängt das auch wieder so an. Aber wenn man das so anguckt, wir müssen noch ein bisschen abwarten. Es ist noch nicht raus, ob das wirklich so wird. Also in zwei, drei Monaten wissen wir mehr, wenn es richtig kalt war. Wir machen jetzt noch zwei kleine Sachen
18:20
und danach reden wir mal darüber, wie man so ein Projekt überhaupt aufbaut und was die Grundregeln sind. Hier ist was Offensichtliches. Ich habe hier die Stops mal aller Fahrten sortiert nach der Zeit, die die Zugfahrt bereits vor diesem Stopp gedauert hat. Von links nach rechts steigt die bereits gefahrene Laufzeit vor dem Stopp an, hier von 0 bis 500 Minuten.
18:40
Und was sieht man? Früher in der Fahrt ist der Prozentsatz der pünktlichen Züge höher. Später sinkt die prozentuale Pünktlichkeit krass ab. Bei 500 Minuten sind unter 60% pünktlich. Das habt ihr euch wahrscheinlich jetzt alle schon selbst gedacht. Warum sage ich das also? Weil ich die Bahn ein bisschen in Schutz nehmen möchte. Man sieht nämlich häufiger in den Medien
19:00
irgendwelche Untersuchungen von Fahrten zwischen weit entfernten Metropolen. Und da werden dann unglaublich schlechte Pünktlichkeiten gemessen. Und wenn ihr so etwas seht, lasst mich euch sagen, die machen die Bahn schlimmer, als sie ist, weil sie durch Weiterentfernen eben nur den Datenteil mit der hohen Verspätung auswählen. Und ganz ehrlich, also die häufigen Problemen mit den japanischen Hochgeschwindigkeitszügen
19:21
sind aus meiner Sicht auch einfach Stuss. Die verbinden in Japan nur die absolut riesigen Metropolen. Die haben ein komplettes Schienennetz für sich alleine. Der Fernverkehr der Bahn muss euch das Netz mit Güter und Nahverkehr teilen und bindet auch noch die Mittelzentren mit an. Also das ist nicht vergleichbar. Sofern müssen wir schon sein. Trotzdem hier wieder mein Praxistipp für euch.
19:42
Vorsicht mit Zügen, die bereits lange unterwegs sind. Ihr könnt ja, wenn ihr bucht, sehen, was das für eine Zuglinie ist und woher die kommt. Könnt ihr also mit einbeziehen. Als nächstes habe ich mich gefragt, ab welcher Verspätung wird es nicht mehr besser? Und dafür habe ich für alle Stops aller Fahrten geguckt,
20:01
wie sehr ist der gerade schon verspätet? Und das hier ist von links nach rechts aufgetragen. Links stehen die wenig verspäteten Stops, rechts die mit mehr Verspätung. Und dann habe ich geguckt, wie viel Prozent bauen auf dem Rest ihrer Fahrt 5% der Verspätung ab und existieren noch, also sind nicht ausgefallen.
20:24
Hört sich jetzt kompliziert an, aber kurz, wie viel Prozent werden noch mal spürbar besser? Oder war es das jetzt? Und wie man sieht, was man sieht ist, dass bei Verspätung unter 40 Minuten noch mehr als die Hälfte der Züge am Ende der Fahrt besser dastehen als jetzt gerade. Und ab 40 Minuten Verspätung,
20:42
da ist eine gut sichtbare Stufe in den Daten, die einzige, da scheint die Bahn die Dinger irgendwie aufzugeben. Ab da wird es in der Mehrzahl der Fälle bis zum Fahrtende nicht mehr besser. Woran das liegen könnte, darauf kommen wir gleich auch noch. Praxistipp für euch also, ab einer Verspätung von 40 Minuten erweckt ein anderes Transportmittel.
21:04
So, das war ein Höllenritt. Jetzt haben wir schon diverse Praxistipps abgestaubt. Ich schlage vor, wir machen jetzt einen Einstub und ich versuche euch ein paar Anhaltspunkte zu geben, was ihr beachten solltet, wenn ihr Datenprojekte selber hochzieht. Und ich werde das kurz halten, sodass wir wieder in die Daten eintauchen können bald.
21:21
Punkt 1, organisiert den Download gut. Die Bahn hat einige öffentliche Schnittstellen. Es gab hier auch schon einen schönen Vortrag zu eben diesen Schnittstellen. Ich bin froh, dass jemand ermessen kann, wie viel Schmerzen ich gehabt habe. Über zwei davon kann man Fahrpläne und Veränderungen abrufen.
21:41
Wenn ihr in eurem Smartphone mit der Bahn-App oder FW Bahnverbindung nachguckt, dann macht euer Handy genau das. In den Fahrplänen steht, wann welcher Zug ankommen soll. Und in den Änderungen steht, was sich dem gegenüber verändert. Eine Ausfälle, Verspätung usw. Und das ist ein bisschen anstrengend, denn leider müsst ihr beides
22:01
in getrennten Abfragen abrufen. Und wenn ihr die Schnittstellen abruft, erhaltet ihr nur zeitlich begrenzt Daten ein paar Stündchen vor und zurück. Und leider müsst ihr beides für jeden Bahnhof einzeln abrufen. Und das bedeutet, wir können uns nicht am Schluss einfach ein Jahr Daten ziehen, sondern wir müssen wirklich über das ganze Jahr hinweg mit ein bisschen Infrastruktur sehr häufig Daten abrufen,
22:22
die sich überlappen. Solche Szenarios findet man relativ häufig. Das funktioniert dann so, dass man die Downloads einfach erstmal wegspeichert und konkrete Werte auslesen und Duplikate raussortieren. Das passiert dann einfach alles später. Und jetzt machen wir mal eine Nebenrechnung auf. Wir haben 6.500 Bahnhöfe in Deutschland.
22:42
Für jeden müssen wir einzeln beides abrufen, also mal zwei. Und jetzt sagen wir mal, wir machen das alle 10 Minuten für Fahrplan und Änderungen. Und das macht dann 6.600 mal zwei mal 144. Das sind knapp zwei Millionen Abrufe am Tag. So einen Abruf hat im Durchschnitt 22 Kb.
23:01
Bei den Veränderungsdaten ein bisschen weniger, bei den Plandaten. Und wir würden dann so bei 40 GB XML landen. Am Tag. Für das ganze Jahr, ja das passt sich auch nicht mehr von alleine. Für das ganze Jahr wären das dann 14 Terabyte
23:20
in 700 Millionen Request. Denn diesen Moment kriegen die Admins der Bahn vermutlich einen Herzanfall. Und wenn die damit fertig sind, dann werden die in ihre Logs schauen, welche Abrufe von mir sind. Und dann werden die ihren Anwalt anrufen. Um mir eine riesige Rechnung zu schicken. Aber die enttäuschen wir jetzt. Natürlich habe ich das nicht
23:41
so gemacht. Erstmal hätte ich das dann alles speichern und verarbeiten müssen. Das ist viel zu aufwendig. Und zweitens ist eine Sache ganz wichtig, wenn ihr so was macht. Ihr müsst den Trafik minimieren. Und zwar aus zwei Gründen. Das sind die Punkte zwei und drei. Punkt zwei handelt verantwortungsvoll. Das bedeutet, dass ihr bitte nicht so
24:01
viel Trafik erzeugt, dass ihr die Infrastruktur des Ziels abwirkt. Oder irgendwie unnötige Kosten verursacht. Das ist jetzt realistischer, als es sich anhört. Vielleicht nicht bei der Bahn. Aber beispielsweise bei den Justizportalen in Deutschland müsst ihr aufpassen. Die sind erstaunlich schwach auf der Brust. Habe ich gehört.
24:29
Meine Lösung dafür ich rufe maximal stündlich ab. Und auch nur die ca. 350 Fernbahnhöfe. Das sind dann statt der zwei Millionen sofort nur noch 16.000 Requests am Tag.
24:41
In der Regel ist es nochmal deutlich geringer, weil man das adaptiv machen kann. Und in diesem Moment kriegen die Admins zwar keinen Herzanfall mehr, aber die sind trotzdem enttäuscht, weil sich dafür keine Rechnung mehr lohnt. Punkt 3. Fliegt unter dem Radar. Das soll ja eine Weihnachtsüberraschung bleiben, so was.
25:01
Und das wäre es natürlich schlecht gewesen, wenn die Millionenabrufe vom Server Decrizelcom irgendwie in ihren Logs stehen haben. Das fällt nämlich irgendwann auf. Und die Lösung hierfür ist, ihr schickt die Abfragen über tausende Zwischenstationen in der ganzen Welt. In der Fachsprache heißen die anonyme Proxys. Mit anderen Worten, wenn ich Massen
25:23
von Daten runter lade, dann sieht das für das Ziel aus wie so ein Grundrauschen von winzigen Abfragen, die von der ganzen Welt kommen. Viele von euch werden das auch so machen. Niemand sieht mich, aber in Wirklichkeit laufen die Daten dann einfach im Hintergrund auf meinen Servern wieder zusammen, sofern ich sie nicht crashe.
25:41
An dieser Stelle hören die Admins der Bahn vermutlich auf, meine Abfragen in ihren Logs zu suchen und ich freue mich, dass die jetzt wieder voll beim Vortrag dabei sind. Damit ich euch nicht abschrecke, so ein Aufwand müsst ihr nicht bei jedem Datenprojekt treiben. Das war vielleicht ein bisschen Overkill, weil ich das mal ausprobieren wollte mit den Proxys. Punkt 4.
26:01
Es kann passieren, dass ihr nicht sicher seid, was ihr rechtlich dürft, ohne dran zu kommen. Die meisten von unter uns sind keine Juristen und manche AGB sind auch einfach mies formuliert. Und wenn ihr nicht sicher seid, was ihr dürft, dann fragt einen Anwalt, der für euch die AGB liest. Es gibt im Internet Portale, wo ihr für schmales Geld Anwälten Fragen stellen könnt und danach
26:21
kriegt ihr eine rechtsverbindliche Antwort. Wenn das nicht stimmt, haftet der. Und bei mir kam dann leider raus, dass ich bei der Bahn lieber eine schriftliche Genehmigung erfragen sollte. Und das war so ein Moment, wo ich kurz dachte, dass das Projekt vielleicht auf der Kippe steht. Und das wäre schade gewesen, weil ich mir vorab schon ein bisschen Arbeit gemacht hatte. Also lest zuerst
26:41
die AGB. Und Punkt 5. Habt trotz Hindernissen den Mut, es einfach zu tun. Ich habe dann gepokert und wirklich bei der Bahn nachgefragt, ob ich automatisiert Daten drunter laden und darüber zum Beispiel einen kleinen Community-Vortrag halten darf.
27:07
Und sie haben es mir genehmigt. Ohne weitere Auflagen. Ohne Auflagen. Und ob sie wirklich so offen sind oder einfach vergessen haben zu googeln, weiß ich nicht. Aber ganz ehrlich, das könnte jetzt mal ein Applaus für die Bahn wert sein, weil das sportlich.
27:28
Nicht schlecht. Ich hoffe, die hören zu. Und Punkt 6. Seid fair bei der Auswertung. Wenn ihr Daten für ein Jahr habt zum Beispiel, dann sucht ihr nicht die vier Monate raus, wo die Bahn besonders unpünktlich war, damit ihr
27:40
fiesere Dinge behaupten könnt. Gängiges Mittel. Und das Wichtigste zuletzt, Punkt 7. Guckt, ob ihr an euren eigenen Daten vertrauen könnt. Und das ist gar nicht so einfach. Und ich führe das jetzt mal vor. Und dann könnt ihr entscheiden, ob ihr meinen Daten vertraut. Und außerdem ist das jetzt unsere Ausrede, dass wir diesen Einschub verlassen und endlich wieder in die Daten reingucken.
28:00
Am besten schafft ihr Vertrauen in euren Datensatz, indem ihr mal eine Analyse komplett nachbaut, die die Quelle des Datensatzes, also hier die Bahn schon mal gemacht hat. Und die Bahn gibt auf ihrer Webseite ja pro Monat die Prozentzahl der pünktlichen Stops an. Und in ihren Dokumenten steht auch, wie sie das exakt ausrechnen. Und die habe ich einfach
28:20
genauso nachgebaut und siehe da. Das sieht wirklich fast genauso aus. Die zwei größten Abweichungen sind die folgenden. Im Januar messe ich die Bahn einen halben Prozentpunkt schlechter als sie ist. Das liegt vermutlich daran, dass ich erst am 8. Januar angefangen habe, Daten aufzunehmen. Und im September 0,8
28:41
Prozentpunkte. Das ist da, wo mir ein paar Tage fehlen. Ansonsten scheint bei mir die Bahn sogar generell minimal besser wegzukommen. Exakt die gleichen Werte werdet ihr nie kriegen. Die meisten Abweichungen sind hier so um 0,1 Prozentpunkte. Aber für eine Messung von außen ist das verdammt akkurat. Wenn eure Werte
29:00
mit denen des Ziels so übereinstimmen, dann seid ihr auf einem guten Weg. Das heißt externe Verifikation, weil wir was externes zum Vergleichen hatten. Jetzt kommt die interne. Das bedeutet, ihr guckt in den Datensatz rein, ob da alles realistisch aussieht. Zum Beispiel in Hand der Tageszeiten. Jeder Punkt hier ist wieder ein Fernverkehrsbahnhof. Das ist der Tagesbeginn
29:21
0 Uhr vom 9. März Ich gehe jetzt die Zeit Stunde für Stunde durch und dann sehen wir, wie so ein Tag für die Bahn aussieht. Die Bahnhofspunkte schwellen an, wenn in der Stunde mehr Stops stattgefunden haben. Und die Farbe markiert die Ausfälle. Blau ist wenig, rot ist viel, dunkelrot entspricht 50 Prozent oder mehr Ausfällen. Und es ist jetzt 0 Uhr.
29:42
Und man sieht, dass noch einige wenige Züge des Vortages sozusagen unterwegs sind. Das sind die Lumpensammler sozusagen. Und das wird jetzt weniger werden. Und die Nachtruhe kehrt ein. Die Zeit vergeht. Nachtruhe. Und hier erwacht ein neuer Tag.
30:03
Jetzt ist so langsam Vollbetrieb. Es ist 8 Uhr. Wir sehen hier ein paar punktuelle Ereignisse, die für Ausfälle sorgen. Das sind die roten Flecken. Das Unwetter oder so passiert. Keine Notizen. Es ist Mittag.
30:22
Jetzt wird es wieder weniger. Der Tag geht am Ende entgegen. Die letzte Stunde des Tages. Ein neuer Tag beginnt. Es ist der 10. März. Wir sehen wieder die letzten Züge, bevor die Nachtruhe beginnt. Alles schläft. Der Tag wird älter. Es ist 6 Uhr. Man sieht schon ein bisschen Treffik.
30:42
Es ist 9 Uhr. Wir sind wieder im Vollbetrieb. Es ist Mittag am 10. März. Und wir erinnern uns, an dem Tag war ja was. Und hier zeigt der Orkan Eberhard erste Auswirkungen.
31:01
Und hier hat er in fast ganz Deutschland den Fernverkehr flach gelegt. Ich musste die Farbskale erweitern, weil man 50% Ausfälle normal nicht hat. Und wir lassen diesen sehr schlechten Tag für die Bahn nun ausklingen. Und hier ist wieder Mitternacht. Die Grenze zum Folgetag. Eine Störung in der Größenordnung zieht natürlich noch einige Tage
31:21
messbare Verspätungen und Ausfälle nach. Wenn man das aufplottet, sieht man das mehrere Tage runtergehen. Die spielen wir jetzt aber nicht alle durch. Aber wir sehen, nicht immer ist die Bahn schuld. Wenn ihr die Daten so auf Plausibilität checkt, dann nutzt unbedingt gute Visualisierungen, die am besten gleich mehrere Dimensionen abdecken.
31:40
Hier hatten wir Ausfälle, Ort in zwei Dimensionen und die Anzahl der Stops und die Zeit nach Stunde. Und der beste Apparat zur Mustererkennung, den wir zur Zeit haben, das ist nun mal das Gehirn. Und da gibt es nur eine Breitbandleitung hin und das sind die Augen. Und wir werden jetzt noch ein paar größere Auswertungen machen.
32:02
Und als erstes bitte ich euch dafür, in Gedanken die Seiten zu wechseln. Stellt euch vor, ihr gebt keine Analysen raus, sondern ihr lest welche. Und wenn ihr Analysen lest, die andere euch geben, dann ist es immer sehr wichtig zu riechen, worüber die anderen mit euch nicht reden möchten.
32:21
Und bei Firmen findet man das raus, indem man deren Kennzahlen genau anguckt. Die Bahn hat zum Beispiel gesagt, sie wollte dieses Jahr 76,5 pünktliche Stops haben. Daran wollen sie sich messen. Dieser Bericht ist aus dem Januar 2019 und Anfang Dezember 2019 haben sie das Ziel dann kassiert.
32:42
Es werden nur unter 75 pünktliche Stops im Fernverkehr. In meinen Daten sind es im Moment noch knapp über 75%, aber trotzdem eigentliches Ziel wird verfehlt. Aber was insgesamt auffällt, ist, dass sich die Bahn so ausfällt. Ich sagte es schon ganz komisch ausschweigt.
33:01
Und jetzt bitte ich um Handzeichen an euch. Stellt euch vor, ihr steht am Bahnsteig und der Zug fällt einfach aus. Ihr steht da mit leerem Blick. Und der kommt einfach nicht. Ihr dürft jetzt entscheiden, ist der pünktlich oder unpünktlich. Wer von euch sollte sagen, der ist eher pünktlich? Ich sehe zwei Hände.
33:21
Drei im Saal von 5000 Mann. Okay, ist messbar. Wer von euch würde sagen, der Zug ist eher unpünktlich? Das sind so ziemlich alle. Und so sehe ich das eigentlich auch. Und jetzt schauen wir mal in die Unterlagen der Bahn dazu.
33:42
Ihr müsst das nicht lesen. Ich lese euch das vor. Komplettausfälle oder Teilausfälle werden, wie übrigens bei den anderen europäischen Bahnen auch, nicht in Statistiken eingerechnet. Zum einen ist das schwierig, dafür ein sinnvolles mathematisches Modell zu hinterlegen. What? Welche Pünktlichkeit ordnet man einem Zug zu, wenn er an einer bestimmten Stelle seiner Fahrt
34:02
ausfällt? Ja, wir können binär messen, ob drei von acht Stops pünktlich oder nicht pünktlich sind, aber mit Ausfallen nicht ausgefallen. Das geht nicht. Und zum anderen liegt die sogenannte Erfüllungsquote aller täglich Fernverkehenden, DB Personenzüge, über 99 Prozent im Jahresschnitt, sowohl für Fern- als auch für Nachverkehr, also Punkt eins.
34:23
Da möchte ich als erstes mal zu anmerken, dass ich das in der Sache nicht nachvollziehen kann, weil wir schon gesehen hatten, dass alleine der Fernverkehr eine Ausfallquote von mehr als vier Prozent hat und nicht ein Prozent. Das heißt, wir haben insgesamt 103 Prozent Fernverkehr.
34:41
Aber vor allem, vielleicht ist die Erfüllungsquote auch was anderes, was ich hier nicht verstehe, keine Ahnung, aber vor allem so ein ausgefallener Zug, der ist nicht unpünktlich. Der fällt einfach komplett außer Wertungen. Die Ausfälle werden statistisch verdeckt, weil man sie angeblich nicht statistisch einbauen kann. Also liebe Leute,
35:02
ich mache solche Auswertungen ja auch beruflich und da habe ich echt schon manche Ausrede zu hören gekriegt. Aber das hier, das ist schon krass. Ich nenne so etwas den finalen Rettungsstuss.
35:22
Wenn ihr so etwas erzählt kriegt, dann wisst ihr ganz genau, ihr habt es gefunden, hier müsst ihr gucken und nicht woanders. Also helfen wir jetzt mit und wir entwickeln jetzt eine Idee, wie man die Ausfälle doch sinnvoll in die Statistik reinkriegt. Hier sehen wir eine Zugfahrt mit vier Stops. Die beiden weißen
35:42
links sind pünktlich, der hellblaue ist unpünktlich, größer sechs Minuten und der rechte in rot ist ganz ausgefallen. Und im Moment zählt die Bahn einfach alle Stops, die nicht ausgefallen sind und misst davon den Prozentsatz der Pünktlichkeit. Das wären hier zwei von drei, 66 Prozent und ich schlage stattdessen vor.
36:02
Wir zählen alle Stops, die geplant waren und messen davon den Prozentsatz, der angekommen ist und pünktlich war. Das wären hier 50 Prozent. Also nehmt das nicht auf die leichte Schulter. Das ist jetzt wirklich eine große Mathematik, bahnbrechend sozusagen.
36:30
Und wenn man mit den Ausfällen ehrlich umgeht, dann liegt die Bahn nicht bei den 76 halb Pünktlichkeit, das waren die angekündigten und auch nicht bei den 75, das ist der aktuelle Wert,
36:42
sondern bei 72 halb. Und mit jedem Prozent weniger wird es sehr viel unwahrscheinlicher, dass Leute ihre Anschlüsse kriegen, also unterschätzt das nicht, wenn das nochmal zwei Prozent weniger sind, als sie behaupten oder drei. Das ist knackig. Beim Fernverkehr liegt bei denen einiges im Argen.
37:00
Und damit möchte ich noch zu einem wichtigen Thema kommen, Erfolgskriterien in Unternehmen. Wenn ihr als Unternehmen eure Erfolgskriterien schlecht setzt, dann schafft ihr Anreize, die das Unternehmen in eine unerwartete Richtung lenken. Und hier haben wir ein Paradebeispiel dafür. Wenn die Bahn einen unpünktlichen Zug einfach spontan
37:20
ausfallen lässt, dann steht die nach ihrer eigenen Messmethode danach besser da und nicht schlechter, weil die Ausfälle einfach komplett aus der Statistik fliegen. Also müssen wir uns die Frage stellen, wo genau lohnt es sich für die Bahn am meisten, ein paar Ausfälle zu erzeugen, um damit die Pünktlichkeitsstatistik zu pushen. Ihr klatscht ja schon
37:46
vorher. So kann ich nicht arbeiten. Und die Lösung ist, am Ende und am Anfang von Fahrten. Züge fahren nämlich häufig dieselbe Strecke hin und her. Und der hier fährt los.
38:01
Bis hier ist alles gut gegangen. Hier hat er dann satt Verspätung angesammelt. Das passiert. Und an diesem Punkt ist zu erwarten, dass die letzten beiden Halte auch verspätet sein werden. Und auch die ersten beiden Halte der Rückfahrt natürlich. Das ist also schlecht für die Statistik. Also lassen wir die doch einfach ausfallen, blasen wir ab.
38:20
Der Zug schmeißt die Fahrgäste raus, dreht an Ort und Stelle um und ist wieder pünktlich. Und wer in den roten Stops einsteigen und aussteigen will, der steht halt mit leerem Blick am Gleis. Aber die Verspätungsstatistik verbessert sich, denn die Ausfälle fallen ja einfach unter den Tisch. Aber wie könnte man sowas messen?
38:43
Ganz einfach. Was? Hamburg. Also ganz einfach. Hier ist wieder eine Zugfahrt mit all ihren Stops. Und die unterteilen wir jetzt einfach in drei Klassen. Frühe, mittlere und späte Stops. Die frühen und späten sind die ersten und letzten drei.
39:01
Hier grau. Und die mittleren sind der Rest. Und für diese drei Arten Stops machen wir getrennte Auswertungen. Wenn Ausfälle aufgrund technischen Betriebes entstehen, würde man ja erwarten, dass es am Start einer Fahrt statistisch weniger Ausfälle gibt.
39:21
Und dann werden das so über die Zeit mehr. Und beim IC ist das auch genauso. Die Ausfälle steigen nach hinten an. Und beim ICE dagegen fallen die ersten und letzten Stops häufiger aus. Und das passt alles genau. Die scheinen die Dinge einfach hart zu wenden. Und ich habe dieses Verhalten auch von zwei unabhängigen
39:41
Quellen bestätigt bekommen. Und das war vor einiger Zeit schon mal irgendwo klein in der Presse. Also ich verrate hier keine Staatsgeheimnisse. Und je nachdem, wenn man fragt, heißt dieses Vorgehen entweder nach unserem Verkehrsminister die Scheuerwende. Oder aber nach dem Bahnvorstand die Pofallerwende. Das müsst ihr jetzt heute Abend beim Bier entscheiden,
40:01
was ihr besser findet. Jedenfalls ein weiterer Praxistipp. Vorsicht am Anfang und am Ende eines ICE Zuglaufs. Die fallen gerne mal aus, bucht die nach Möglichkeit nicht. Und aus Gründen der Neutralität muss ich dazu sagen, die Bahn hat natürlich ein Interesse daran, dass das ganze Zugnetz ungefähr im Plan ist.
40:21
Also werden die sich denken, dass bei so einem Manöver nicht so viele Passagiere von den Ausfällen betroffen sind. Dafür aber im weiteren Verlauf deutlich mehr Passagiere im pünktlichen Zug kriegen. Ist eben deren Geschäftsentscheidung. Es liegt mir fern, da jetzt von der Seitenlinie ohne tieferes Wissen und Altkluge Ratschläge zu erteilen. Wir sind hier nicht auf Twitter.
40:42
Und was ich hier kritisieren möchte, ist aber, dass ausschließlich die positive Seite des Manövers danach in der Statistik auftaucht und die Negative einfach verschwindet. Das stört. Wir wollen gar nicht wissen, wie viele Leute im
41:00
Verkehrsministerium denen das abgekauft haben. Wir hatten jetzt schon ein bisschen Praxistipps gesehen, die euch zu Hause beim Buchen vielleicht ein bisschen was bringen. Vorsicht mit bestimmten Bahnhöfen, Vorsicht mit ICs im allgemeinen ICs, Vorsicht mit ICs im Sommer im Speziellen, Vorsicht, wenn Züge schon lange unterwegs waren, Vorsicht, wenn sie 40
41:20
Minuten oder mehr verspätet sind. Und jetzt gerade Vorsicht mit ICs am Anfang und am Ende der Fahrt wegen der Scheuerwänden. Und ich könnte jetzt mit euch noch jede Menge Standardkram machen, der sich irgendwie aus den Daten ergibt, Top 10 Bahnhöfe oder Zuglinien nach Verspätung, Ausfällen und so weiter. Aber das hilft doch nur wenigen,
41:40
ganz ehrlich. Also machen wir jetzt noch zwei Sachen. Erstens machen wir unsere letzte große Sache mit den Bahndaten. Und ich hoffe, dass ihr davon zumindest für ein paar Monate ganz konkret was habt. Und danach würde ich mit euch gerne kurz über das ausklingende Jahrzehnt nachdenken. Zuerst die Datensache. Wenn ihr ein Bankenticket kauft,
42:00
könnt ihr wählen. Mit Sparktickets seid ihr an exakt die Züge, die ihr gebucht habt, gebunden. Oder ihr nehmt ein Flexticket, das ist deutlich teurer, aber dafür habt ihr keine Zugbindung. Und interessant ist nun folgende Regel auf den Sparktickets. Wenn sie durch Verschulden der DB ihren Anschlusszug nicht erwischen oder allgemein eine Verspätung von mehr als
42:22
20 Minuten erwartet werden muss, wird die Zugbindung automatisch aufgehoben. Und ich verstehe das so, dass ihr dann eigentlich ein Flexticket habt plötzlich. Und dann gucken wir mal auf den Prozenterz der Stops, die entweder mehr als 20 Minuten zu spät waren oder aber ausgefallen sind. Und insgesamt
42:40
sind das immerhin 12,4%. Und wenn man jetzt diese Stops erwischt, dann verwandeln die einem vielleicht schon vor Abfahrt ein preiswertes Sparkticket und ein Flexticket. Und das wäre doch total cool, wenn man die vorher wissen könnte. Und ich bin
43:00
nicht so vorhersehbar. Und komplett vorhersehen geht natürlich nicht, aber es gibt Züge, bei denen sowas häufiger auftritt und Bahnhöfe, bei denen sowas häufiger auftritt. Und es gibt auch Wochentage, bei denen sowas häufiger auftritt.
43:20
Und hier ist ein Beispiel. Lest mal mit, das bedeutet, beim Intercity 2221 ist an allen Halten bei Mainz-Hauptbahnhof an allen Mittwochen dieses Jahr mit 53% Wahrscheinlichkeit die Zugbindung aufgehoben. Also von allen Stops, die ich dazu erfasst habe, waren 53% entweder mehr als 20 Minuten zu spät
43:41
oder sind ganz ausgefallen. Und am Freitag das Ganze mit 50%. Ich muss die Schreibweise so kurz machen und euch das so beibringen, das Lesen, damit ich jetzt gleich platzsparend arbeiten kann. Euch schwarnt vermutlich schon, was ich jetzt mache. Also ich habe für euch mal die Kombination aus allen Wochentagen, allen Bahnhöfen und allen Fernzügen durchsucht
44:02
und habe dann nur die Kombination genommen, wo ich mindestens 10 Datenpunkte hatte, damit das einigermaßen fundiert ist. Und für die habe ich gemessen, bei wieviel Prozent die Zugbindung dieses Zuges an diesem Wochentag, an diesem Bahnhof gekillt wurde. Und dann habe ich gesagt, ich will nur die ganz fiesen haben, wo das mit mindestens 50% der Fälle der Fall war.
44:21
Und herausgekommen sind fast 500 Kombinationen aus Wochentagen, Bahnhöfen und Zügen. Hier sind sie. Also ich würde kein Flex-Ticket für teuer Geld kaufen, wenn ich an einem dieser Bahnhöfe einsteige, aussteige oder umsteige an dem Wochentag
44:42
mit diesem Zug. Kauf ein Sparticket. Und für alle, die das jetzt nicht lesen könnten, ich stelle den Foliensatz wieder irgendwie bei mir auf die Seite morgen oder so, beachtet auch, dass die Daten irgendwann ungültig werden. Ihr behaltet den Zug bitte am Fahrtag im Auge. Ich bin nicht schuld, wenn ihr unverhofft doch pünktlich zum Zug eintreten müsst,
45:02
weil die Kiste halt pünktlich ist. Also bitte behandelt diese Daten, als wären sie mit Xerox-Geräten gescannet. Und wenn ihr doch pünktlich da sein müsst,
45:20
dann ist das ja auch ein gutes Zeichen, weil es nichts anderes bedeutet, als dass die Bahn was verbessert. Verbesserungen passieren nämlich durchaus. Dieses Jahr wurde zum Beispiel die ICE-Trasse zwischen München und Berlin ausgebaut. Da kann man jetzt unter 4 Stunden zwischen beiden Städten hin und her fahren, ohne den Zug zu wechseln. Und wenn das rund läuft, ist das echt mal eine Alternative zum Flug.
45:42
Es ist also nicht alles schlecht. Also ich hoffe, auch ich bin bei aller Kritik fair mit der Bahn umgegangen heute. Ich bin jedenfalls, obwohl ich das alles gesehen habe, mit der Bahn zum Kongress gefahren und werde das auch auf dem Rückweg machen. Und für heute möchte ich damit die Bahnbetrachtung abschließen
46:00
mit den Worten, seid nett zur Bahn, mit ihren Fehlern, wir haben nur diese einen. Und was bleibt? Einen habe ich noch. Da kam er schon gelaufen.
46:21
Das hier ist der letzte Vortrag, den ich in diesem Jahrzehnt halten werde. Ich lasse euch jetzt mal ein paar Sekunden in Ruhe und wünsche mir, dass jeder kurz darüber nachdenkt, was für ihn in diesem Jahrzehnt die maßgebliche, gesellschaftliche Entwicklung war.
46:47
Glaube hat jeder was. Für mich ist es der Aufstieg der Empörten. Und damit meine ich ausdrücklich jede politische Richtung. Ich habe in diesem Jahrzehnt tausendmal an jeder Ecke gehört,
47:01
wie wichtig heutzutage technische, naturwissenschaftliche und analytische Skills seien angeblich, mit anderen Worten Rationalität. Und auf der anderen Seite aber reicht es heute im öffentlichen Diskurs als Totschlagsargument, wenn jemand empört ist. Und ich finde das Paradox, das Gegenteil von Rationalität. Man kann nicht beides
47:21
gleichzeitig propagieren. Und ich möchte anregen, dass wir für das jetzt kommende Jahrzehnt zu einer Kultur finden, in der es ungern gesehen wird, einfach nur alles Mögliche anzuprangern und in der es ganz umgekehrt bewundert wird, wenn man sich die Datenlage anguckt und sie sich gegenseitig präsentiert mit seinem
47:42
Kontrahenten und sich dann zusammensetzt. Und wer soll das starten, wenn nicht wir hier? Verlassen wir uns nicht auf die Medien, denn die leben vom Aufruhr, auch wenn es positive Gegenbeispiele gibt. Verlassen wir uns nicht auf irgendwelche Stars, die leben von Likes und die kriegt man am besten
48:01
durch Zusatzspitzung. In der Regel sind die Teil des Problems. Verlassen wir uns nicht auf Politiker, die achten wegen der Shitstorm-Kultur nur noch darauf, bis zur nächsten Wahl nicht anzuecken und zu viele von denen haben ohnehin niemals außerhalb der Politik gearbeitet, was soll da schon kommen. Und das ist der Grund,
48:21
warum ich das hier mache. Ich versuche euch zu inspirieren, eure eigenen Analysen zu strittigen Themen anzustellen. In meinen letzten Vorträgen, meinen beiden hier, habt ihr ein paar Instinkte davon bekommen, wie das geht und ich hoffe, ich habe euch bewiesen, dass das absolut keine Raketenwissenschaft ist. Und ich frage nochmal,
48:41
wer soll das machen, wenn nicht wir hier? Wenn wir es gemeinsam schaffen, dass wenigstens manche, die heute echt nichts Besseres zu tun haben, als sich im Internet zu empören, im nächsten Jahrzehnt zur engagierten Analyse übergehen und dabei auch anerkennen, wenn was rauskommt, das sie vorher nicht gedacht hätten, dann haben wir gesellschaftlich
49:00
unglaublich viel gewonnen. Und heute Abend stehe ich hier in einem Saal mit 5.000 Leuten, vollbelegt, da sitzen sie noch neben der Tribüne, mit 5.000 Leuten, die sich am Samstagabend zwischen Weihnachten und Silvester hier hinsetzen, also da, wo die allermeisten Menschen einfach gar nichts tun und sich die Flasche Wein an den Hals anschließen.
49:21
Und warum tun die 5.000 Leute was? Das? Um einen Statistikvortrag zu hören. Ja, das gibt mir Hoffnung. Ich werde glücklich heimfahren, da kann die Bahn mit mir machen, was sie will. Und ich bedanke mich, dass ihr hier wart und wünsche euch ein schönes neues Jahrzehnt.
50:27
Vielen lieben Dank. Wow! Auch von mir nochmal herzlichen Dank. Super Vortrag, wie immer. Super lustig. Dankeschön, David, dass du das immer wieder machst. Echt schön. Wir haben noch ein bisschen
50:41
Zeit für Fragen. Bitte an die Mikrofone. Es gibt vier, fünf Stück, glaube ich, hier im Saal. Wenn ihr Fragen habt, wir fangen mit Mikrofon eins an. Ja, du hast ja damit angefangen, dass du der Fairness halber die Pünktlichkeitsdefinition der Bahn von sechs Minuten höchstens gesetzt hast. Hast du aus purer Neugier mal
51:02
Sachen durchgerechnet mit Pünktlichkeitsdefinition, die sie irgendwie sinnvoller anfühlen? Das müssen ja nicht gleich die 30 Sekunden aus Japan sein. Ja, da kann man jetzt ja sich streiten, welchen Wert man setzt. Also das sieht natürlich... Fastbo und welche. Ja, habe ich. Und das sieht dann so aus, dass wenn man das eng zieht, am Schluss natürlich alle Züge
51:21
verspätet sind. Jeder hat mal irgendwie eine Minute. Was ich gemacht habe, war, ich habe mal eine Reibungslosmetrik gesetzt. Reibungslos habe ich gesagt, das alles, was maximal drei Minuten zu spät ist, nicht ausgefallen und kein Gleiswechsel, weil das geht mir immer unglaublich auf die Nerven, wenn ich dann mit Koffer einmal hoch und runter
51:42
und das waren dann irgendwie 60 Prozent. Aber nagel mich jetzt darauf nicht fest. Ich habe es jetzt nicht im Kopf, aber es waren deutlich weniger. Ich glaube, es war bei 60 Prozent oder so diese Pünktlichkeit. Danke. Ich weiß jetzt nicht, wer das Mikro erst war. Wir fangen mal den Signal ein, der hat eine Frage. Ja, also der Stream schließt sich den Standing
52:01
Ovations an. Danke schön. Und es gab viele Leute, die darauf hingewiesen haben, dass für ausgefallene Züge oft Ersatzfahrten bereitgestellt werden, die das ja dann teilweise kompensieren. Wie taucht das bei dir in der Statistik auf? Das taucht bei mir gar nicht auf. Deswegen, da war ich mir auch nicht komplett sicher, deswegen habe ich es auch gesagt, wenn die komplett neue Fahrten haben, die irgendwie gar nicht im Plan aufgetaucht waren, dann werde ich
52:21
die vermutlich nicht drin haben. Wenn die Fahrten in irgendeiner Form in den Plandaten drin waren, habe ich die aber drin. Deswegen kann ich es nicht genau sagen. Ich weiß jedenfalls, dass die Kollegen beim Spiegel eine ähnliche Analyse neulich hatten auf einen kleineren Datensatz. Und da war das auch jenseits der 4% Ausfallquote. Deswegen, wenn es falsch ist,
52:42
stimmt es zumindest über ein. Es kann sein, dass sie drin sind. Ich bin mir nicht völlig sicher. Danke. Mikrofon 5 bitte mit einer Frage. Ja, vielen Dank für diesen sehr interessanten Vortrag. Es war bestimmt auch super viel Aufwand, das alles zu analysieren. Und nach den ständigen Ovasen traue ich mich auch fast gar nicht, eine
53:01
kritische Frage zu stellen. Aber Sie hatten ja ziemlich am Anfang einen Slide zu den Bahnhöfen, die den Zügen Verspätungen hinzufügen oder wo die Züge vielleicht Verspätungen aufholen. Aber es ist nicht viel eher so, dass die Strecken zwischen den Bahnhöfen dazu führen, dass sie
53:21
die Züge Verspätung bekommen und nicht die Bahnhöfe selber. Und wäre das dann nicht auch für die Bahnen interessant zu schauen, zwischen welchen Bahnhöfen kriegen die Züge am meisten Verspätung? Das ist eine exakt sehr geile Frage. Weil diese Auswertung war in der Tat ein bisschen tricky, genau aus dem Grund. Vielleicht ist der Bahnhof Frankfurt die Verspätung gar nicht schuld,
53:41
sondern die Gleise beim Reihen und Rausfahren zum Beispiel. Und deswegen messe ich die Verspätungsänderung von dem Streckensegment vor dem Bahnhof und dem Streckensegment nach dem Bahnhof. Und der jeweilige Bahnhof kriegt dann den Durchschnitt, damit ich genau von diesem Effekt halt geheilt werde. Dann habe ich einen sehr guten Durchschnittswert.
54:00
Und wer halt immer was dazu fügt im Schnitt, der wird auch selber was dazu beitragen. Oder beide Streckensegmente dahin sind schlecht. Also immer. Und dann ist das auch für mich ein Bahnhofproblem. Also genau genommen, was ich analysiere, ist dann das Problem des Bahnhofs und der näheren Umgebung darum herum. Also danke
54:21
für diese Frage. Vielen Dank für die Antwort. Da habe ich mir nämlich lange durch Gedanken zugemacht, ob ich da jetzt einfach immer nur die Änderung der Verspätung nehme. Aber das hätte ich mir selbst als Statistik zerrissen, wenn ich da einen bei erwischt hätte. Aber deswegen perfekt, dass es
54:41
aufgefallen ist. Sehr gut. Wir haben nur gute Menschen hier. Sehr schön. Wir nehmen den Mikrofon 3. Wechseln wir die Seite bitte. Ich muss immer ein bisschen suchen. Bitte entschuldigt, wenn ich euch nicht da hinten ist. Du hattest am Anfang angeprangert, oder am Ende angeprangert, dass die Ausfälle
55:02
nicht zu Verspätungen zählen. Und hattest am Anfang dieses Leid, wo der Berliner Flughafen immer ausfällt. Und es gibt ja vielleicht auch andere Bahnhöfe, die umgebaut werden oder wo eben in Anführungszeichen Planen mehr nicht ausfallen.
55:20
Hast du die irgendwie rausgerechnet? Nach meiner Information sind die Stops dann gar nicht im Plan. Ja, also das sieht so aus, ihr habt die Plandaten mit den Stops und dann habt ihr die Änderungen. Und da ist dann, wenn da was ausfällt, ist da eine Cancellation-Time drin. Nämlich der Zeitpunkt des Ausfalls. Da kann man auch noch schöne Auswertungen mitmachen. Ausfälle mit kurzer Vorlaufzeit und so weiter.
55:43
Und das wäre nicht, das würde dann in den Daten nach meiner Kenntnis anders aussehen, wobei ich das auch nur reverse engineer. Die dokumentieren nicht alles. Ich weiß nicht, wer von euch vorhin in dem BahnAPI Vortrag drin war, aber man muss sehr viel reverse engineern, wenn man das macht. Also auch das mit dem Körnchen Salz. Danke, wir nehmen
56:03
Mikrofon 2. Ich bin auch Bahnfahrer, aber nach meiner Erfahrung ist der Regionalverkehr viel häufiger verspätet als der Fernverkehr. Und deshalb die Frage, wann gibt es die Analyse für den Nahverkehr? Wo kommst du denn her?
56:20
Ich lebe südlich von Stuttgart. Also ich habe die Nahverkehrsbahnhöfe nicht runtergeladen. Was ich aber habe, einfach weil das hätte sonst die Requests werden explodiert. Aber was ich habe, ist natürlich sämtlicher Nahverkehr, der über alle Fernbahnhöfe gefahren ist. Und die sind strategisch gut verteilt.
56:42
Sodass ich da in der Tat auch für den Nahverkehr was sehen kann. Also vielleicht mache ich meine Pünktlichkeit von dem Nahverkehr, der in den Fernverkehrsbahnhöfen vorbeigefahren ist, weil das habe ich. Dann muss ich das mal als Tabelle auf meine Webseite stellen oder so einfach. Dann kannst du gucken.
57:02
So, wir haben noch ein kleines bisschen Zeit. Mikrofon 6 nochmal, die andere Seite. Ja, vielen Dank nochmal für den Vortrag. Aus München kommen, haben wir eine chronisch schlechte S-Bahn. Und ich habe mich auch gefragt, ist es dann Regionalverkehr nochmal unterschiedlich zum Nahverkehr oder ist einfach die Münchner
57:21
S-Bahn zu spät und dem Rest Deutschlands gut? Also die fährt ja über eure großen Bahnhöfe. Ihr habt ja zwei oder drei richtig dicke, ne? München-Ost, München und noch irgendeinen. Ja. Und dann habe ich die drin. Kann ich mal gucken auch. Würde dann auch in der Frage auftauchen, ob die da also diese über 90% Pünktlichkeit
57:41
im Regionalverkehr die sind für Bahn- und Subunternehmen vermutlich. Ich muss mal gucken, aber die anderen habe ich ja drin, ne, zur Not als Drittunternehmen. Vielleicht beziehe ich die einfach mal mit ein in die regionale Analyse. Das könnte interessant sein, wenn ich dafür irgendwann Zeit habe. Ich erwarte das jetzt nicht morgen früh.
58:01
Danke. Super. Wir nehmen euch beide hier. Mikrofon 4 zuerst. Auf dem Slides 80 und 84 war dargestellt, wie die Bahn die Teilausfälle rausrechnet aus der Statistik, aber müssten nicht die gesamten Züge rausgerechnet werden aus der Statistik.
58:21
Die Verspätung akumuliert sich ja natürlich. Und dann wäre die Statistik ja eben dementsprechend noch besser. Jetzt habe ich meinen Powerpoint abgeschossen. Nö, wieso müsstest du die ganze Züge rausrechnen? Das verstehe ich nicht. Also es ist ja schön, Granular für Stops zu rechnen. Wenn jetzt angenommen
58:40
das ganze System würde so funktionieren, dass alle Züge auf der Hälfte ihrer Stops pünktlich sind und auf der anderen Hälfte unpünktlich. Dann wäre das doch halb pünktlich. Ich sehe nicht, warum. Also wir arbeiten ja feiner als auf der Granularität von Zügen. Das ist doch besser. Ja, aber es werden ja Teilausfälle auch rausgerechnet. Ist es dann wirklich nur der ausgefallene Stopp? Nee, soweit ich weiß, ist da wirklich nur
59:02
der ausgefallene Stopp. Okay, gut, danke. So, dann noch Mikrofon 1. Ja, vielen Dank nochmal für den Talk. Meine Frage geht in die Richtung Perverse Incentives, also sprich die Kennzahlen, an denen sich die Bahn messen lässt. Hat sie ja drauf hingewiesen, dass die
59:20
Ausfallrate da vielleicht nicht, also gut sein könnte, wenn Es wäre schön, wenn sie drin wäre. Genau, wenn sie drin wäre. Eine andere Sache, die da reinspielt, ist halt, wie hoch die Ziele sind, die sich die Bahn setzt sozusagen. Also hast du in deinen Daten irgendwelche
59:42
Hinweise gehalten? Also ich meine Ziele im Sinne von wie schnell denn eine Strecke zu befahren ist. Man könnte ja die Züge pünktlicher machen, dadurch dass man einfach jedem Zug eine Stunde mehr Zeit gibt, dieselbe Strecke zu fahren. Du meinst die Taktung? Nee, die habe ich nicht. Die ist aber bei der Bahn relativ eng im Vergleich zu Flugzeugen.
01:00:00
sagen lassen von kundigen Personen, weswegen die Flugzeuge auch häufiger pünktlich sind oder ungefähr pünktlich. Aber bei der Bahn ist alles sehr eng getaktet und vor allem sind die Sachen interdependent. Wenn einer auf der Strecke liegen bleibt, haben alle dahinter halt auch ein Problem. Und das beides in Kombinationen sorgt für die Fragilität, die wir sehen.
01:00:21
Hast du vor, die Analyse in weiteren Jahren vorzuführen, um dann da vielleicht in die Richtung was zu sehen? Ich bin mir nicht sicher. Also zum einen habe ich wie alle anderen auch Arbeit und Familie und so. Und zweitens ist die infrastrukturell sehr aufwendig. Ein bisschen mache ich das sicher noch weiter und dann gucke ich mal, was ich noch rauskriege, aber ich kann nichts versprechen.
01:00:45
Letzter Nachschub. Sind deine Daten von, also kriegt man die von dir? Denke ich nicht, weil ich das nicht darf. Am Ende hat die Bahn dafür das Copyright. Also viel mehr Copyright-Verstoß ginge gar nicht, als wenn ich das ganze Ding nehme und euch einfach rauskopiere.
01:01:03
Aber gesucht bei der Bahn die Timetable API und dann ladet ihr das einfach runter. Das ist, es geht. Es ist keine Raketenwissenschaft. Vielen Dank. Super. Nochmal einen riesengroßen Applaus an David. Herzlichen Dank.