DataCenter Netzwerke ohne Vendor-Lockin selber bauen
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Untertitel |
| |
Serientitel | ||
Anzahl der Teile | 49 | |
Autor | ||
Lizenz | CC-Namensnennung 4.0 International: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. | |
Identifikatoren | 10.5446/51752 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | ||
Genre | ||
Abstract |
|
FrOSCon 2020 Cloud-Edition28 / 49
1
2
5
8
9
10
13
19
20
21
22
23
25
26
27
29
31
32
33
34
35
42
44
46
48
00:00
PunktwolkeLaufwerk <Datentechnik>Netzwerk <Graphentheorie>Physikalische GrößeMAX <Programm>Dienst <Informatik>SoftwareentwicklungHausdorff-RaumTaupunktInternetSystemplattformEINKAUF <Programm>Prozess <Physik>Computeranimation
02:42
Open SourceVollständiger VerbandSoftwareKerndarstellungMAX <Programm>Dienst <Informatik>IntelSoftwareentwicklerCharakteristik <Algebra>Anbindung <Informatik>VAX/VMSKomponente <Software>Systems <München>SoftwareentwicklungTwitter <Softwareplattform>Open SourceMehrwertnetzTreiber <Programm>Zirkel <Instrument>Garbe <Mathematik>ServerRechenzentrumEigenwertproblemComputeranimation
06:51
VirtualisierungCiscoSwitch <Kommunikationstechnik>BetriebssystemVAX/VMSFirewallRouterVirtuelles LANInternetRechenzentrumServerKlasse <Mathematik>EckeNetzadresseLINUXStreckeRichtungSummeHardwareEINKAUF <Programm>ART-NetzDienst <Informatik>Lokales MinimumPhysikalische GrößeRechenwerkZahlenbereichModemSALEM <Programm>Gebiet <Mathematik>SenderARM <Computerarchitektur>Aktion <Informatik>UnterteilungMachsches PrinzipVerschlingungOrdnung <Mathematik>Formation <Mathematik>Umsetzung <Informatik>KommunikationLinieHausdorff-RaumMISSAsset <Informatik>Computeranimation
16:31
AMG <Mathematik>Content <Internet>XTREMESSoundverarbeitungSicherungskopieSwitch <Kommunikationstechnik>Ende <Graphentheorie>Typ <Informatik>VerschlingungDienst <Informatik>EckeNetzwerk <Graphentheorie>Systems <München>ServerRichtungRechenzentrumEbeneLastMengeReiheHardwareSoftwareVALAktion <Informatik>Bindung <Stochastik>Prozess <Physik>FokalpunktEigenwertproblemErzeugendeZahlGebiet <Mathematik>MultitaskingAnbindung <Informatik>Patch <Software>EigenraumFeld <Mathematik>VorhersagbarkeitBAYESInsight.xla 2.0ComputeranimationTechnische Zeichnung
26:11
Switch <Kommunikationstechnik>Fibonacci-FolgeMAX <Programm>Dienst <Informatik>BiproduktMAXISProtokoll <Datenverarbeitungssystem>RichtungBALIS <Programm>Abstrakter SyntaxbaumServerComputeranimation
28:48
CW-KomplexDynamikMengeSystems <München>CW-KomplexHausdorff-RaumZusammenhang <Mathematik>SummeLaufzeitsystemConstraint <Künstliche Intelligenz>Neuronales NetzParallelenWeg <Topologie>Version <Informatik>Domain-NameComputeranimation
33:00
EckeEntscheidungstheorieRichtungMengeRohdatenBiegungEin-AusgabeFlächentheorieSummeInformationLösung <Mathematik>Expertensystemotto <Programmiersprache>MAX <Programm>GruppoidValiditätComputeranimation
36:24
Switch <Kommunikationstechnik>Systems <München>Netzwerk <Graphentheorie>MAX <Programm>Hasse-DiagrammOLEDiagrammKategorie <Mathematik>
37:20
Netzwerk <Graphentheorie>DatenverarbeitungssystemLösung <Mathematik>LebensdauerInternetSystems <München>Gebäude <Mathematik>Gesetz <Physik>Computeranimation
38:55
FirewallGrenzschichtablösungBorder Gateway ProtocolUpdateHardwareAbsoluter UmgebungsretraktSwitch <Kommunikationstechnik>SoftwareHardwareSystemplattformGroßrechnerRoutingMicrosoftSoftwaretestUpdateTerminierung <Informatik>MengeComputeranimation
41:41
GatewayBorder Gateway ProtocolServerSwitch <Kommunikationstechnik>MomentenproblemMengeVirtuelles LANVerfügbarkeitKeller <Informatik>GatewayDienst <Informatik>VAX/VMSRoutingCLIPPER <Programm>GasphaseQuantenzustandEDV-BeratungLängeQuick-SortComputeranimation
44:55
CW-KomplexWhiteboardChatten <Kommunikation>VerschlingungEigenwertproblemEin-AusgabeEntscheidungstheorieLoginMAX <Programm>Abstrakter SyntaxbaumRechenwerkKanteSchnitt <Mathematik>Offene MengeStandardabweichungFormation <Mathematik>Prozess <Physik>TOSMISSComputeranimation
49:54
CW-KomplexChatten <Kommunikation>Quelle <Physik>Switch <Kommunikationstechnik>E-MailInverser LimesServerGRADEBimodulSystemplattformXTREMESLastHardwareArithmetischer AusdruckMengeCAPALT <Programm>WärmeleitungKommunikationBalkenMISSSoftwaretestSenderSiebenPoint of saleComputeranimation
56:34
Netzwerk <Graphentheorie>InternetGraphikkarteMaschinelles LernenHardwareDickeZeitzoneJames <Programm>GroßrechnerOffice <Programm>EbeneSoftwareKomponente <Software>Tangente <Mathematik>PowerPointSystems <München>Dienst <Informatik>Open Sourcep-BlockImpulsVersion <Informatik>Switch <Kommunikationstechnik>RoutingPlug inLINUXNUGGET <Programm>Agent <Informatik>DatenparallelitätChatten <Kommunikation>ReiheMover <Programm>Computeranimation
01:03:14
EckeDynamic Host Configuration ProtocolKurvenanpassungSwitch <Kommunikationstechnik>Virtuelles LANPerspektiveSoftwareTrident <Militärische Rakete>KommunikationsprotokollProgrammfehlerEbeneNormalvektorNetzwerk <Graphentheorie>Mooresches GesetzKlasse <Mathematik>Message Transfer AgentProgrammiererReiheComputeranimation
01:09:55
PunktwolkeLESMinimumGroße VereinheitlichungComputeranimationJSONXMLUML
Transkript: Deutsch(automatisch erzeugt)
00:06
Hallo zusammen, herzlich willkommen zum Network Track der Frostcon Corona Edition, diesmal remote. Wir machen ja Netzwerke, das heißt remote kriegen wir hin. Es ist eine große Freude Christian Teuner anzumoderieren. Er ist Geschäftsführer und Bastler bei
00:24
Flying Circus, ein Managed Services und Plattformanbieter aus Deutschland. Wir kennen uns tatsächlich schon seit 2017, da habe ich ihn das erste Mal anmoderiert auf der Python-Konferenz. Ich weiß zwar nicht mehr worüber, aber ich weiß, dass der Vertrag sehr spannend war, also bin ich sehr gespannt, was Christian uns gleich hier erzählt. Christian mag Automation und Python und Netzwerke. Und damit
00:46
übergebe ich das Wort an Christian und erzähle uns mal, wie man Datacenter-Netzwerke selber baut, ohne sich irgendwie einzuschränken. Danke Max. Genau, auch an alle anderen herzlich willkommen virtuell. Jeder freut sich zu Hause oder ich habe auch schon heute ein Foto aus
01:06
Da erzählen, wie ich in den letzten zwei Jahren das Rechenzentrenetzwerk, das wir betreiben, modernisiert haben bzw. sind es auf den Weg gemacht haben, das zu modernisieren. Und wir haben es dabei mit dem Netzwerk zu tun, das in
01:21
zwischen über 20 Jahre gewachsen ist. Und ich bin selber ja nicht Vollzeit- Netzwerker, sondern ich mache alles mögliche von Python, früher Softwareentwicklung für Kunden in Projekten, dann aber eben viel Operations, was man heute DevOps nennen würde. Und Netzwerk gehört da halt mit dazu, aber es ist nicht das, was ich den lieben langen Tag mache.
01:43
Und wir haben so über die 20 Jahre diverse Leidensgeschichten hinter uns und wollten jetzt nicht nochmal in die Falletappen einfach irgendwie Einkaufskatalog von Herstellerinnen durchzuklicken. Und ich möchte euch deswegen ein bisschen mitnehmen und einen Einblick geben, wie man sich mit
02:01
modernen komplexen Techniken, also Herangehensweisen an Herausforderungen wagen kann, ohne vorher die Lösung vielleicht schon in der Schublade zu haben oder auch mit dem Problem konfrontiert zu werden, dass man zwar in Greenfield alles neu baut, aber dann in der Realität damit nichts anfangen kann. Und gerade im Netzwerk ist es immer so ganz praktisch,
02:21
wenn man Architekturänderungen machen möchte, die man in kleinen Schritten umbauen kann, statt einem Big Bang-Szenario, wo an dem Wochenende, wo man dann irgendwie alles ändern muss, plötzlich das Licht ausgeht. Und wahrscheinlich reg ich mich auch noch ein bisschen über die Realität mit diversen Herstellern und Einkaufsprozessen und vielleicht noch mit so diversen Supporter auf. Ganz kurz zu mir.
02:44
Ich bin Christian, auch Toiny, da findet ihr mich auf GitHub und auf Twitter und an so diversen anderen Stellen im Netz. Ich mache das Ganze jetzt schon so etwa seit 99 aus dem Umfeld Webentwicklung und Open Source und mache auch seit gut 20 Jahren Python, bin Mitgründer und Vorstand vom Python Software-Proband.
03:03
Früher war ich mal ein Soap-Kernentwickler, viel an der CDB gearbeitet. Also ich habe ein sehr breites, breiten Erfahrungshorizont jetzt inzwischen zusammengesammelt und neben dem, dass ich seit 20 Jahren Ops mache, haben wir jetzt seit 50 Jahren eine Firma ausgegründet, den kleinen Circus.
03:21
Wir nennen das manchmal so DevOps as a Service. Also Entwickler können Zeug entwickeln, werfen uns Repos rüber und Repos plus Geld bedeutet, wir kümmern uns drum den Kram irgendwie ordentlich zu betreiben, in einer Manier, wo wir auch sagen, nein, das ist nicht von Zaunwerfen, sondern wir kooperieren gern mit Entwicklern, um gegenseitig zu verstehen, was machen, was wollen die da drüben auf der anderen Seite eigentlich. Genau und so Betrieb von Zeug.
03:47
Wir haben hier so eine Grafik, wo wir sagen, na ja, das ist so was von dieser fliegenden Circus. Das ist eine Show, Sachen zu betreiben und der wichtigste Spruch dabei ist immer the show must go on. Also egal, was irgendwie jetzt gleich passiert und
04:02
explodiert, irgendwie muss man was dahinter haben, um weiterzumachen, um Sachen vorangehen zu lassen. Nicht ausgehen ist heutzutage halt einfach keine Option. Ursprünglich kommen wir halt aus der Softwareentwicklung und wir wissen deshalb, wie man Anbindung betreibt, mit auch dieser Charakteristik von, es sind keine Standardanwendungen, sondern es sind Anwendungen, wo
04:21
irgendein Softwareteam was gebaut hat und wie jetzt der Vorschlag, was macht man jetzt hier eigentlich? Das heißt, wir haben jetzt auch seit irgendwie den neunziger Jahren immer schon Lienungsadministrationen gemacht und Serverbetreiben war immer irgendwie interessant und ja, wir haben halt damals, weil wir da groß geworden sind, auch Lahnpartys gemacht und da hast du mal ein paar Dutzend, vielleicht mal ein paar hundert Leute. Meine größten Erfahrungen selber waren
04:43
auf der Assembly in Finnland, da habe ich das Netzwerk zwar nur bloß von der Seite gesehen, aber die bauen mal für drei Tage in den Netzwerk für knapp 15.000 Leute auf und wieder ab. Wenn man sich schon mit denen austauscht, lernt man auch interessante Dinge. Na ja, und wir interessieren uns halt immer so für alle möglichen Schichten und deswegen ist es
05:00
bei uns auch so, man sieht immer, dass irgendwie alles oben rausguckt. Wer auf dem Bild genau schaut, sieht auch, dass der Grafiker da eine Fizzbox irgendwo steckt hat. Aber uns ist halt wichtig, dass wir, wenn wir uns auch dann mit Entwicklern und Kunden unterhalten, dass wir halt genau verstehen, wie hängen diese ganzen Sachen eigentlich zusammen. Und uns ist halt dabei wichtig, dass wir so von First Principles
05:22
aus denken, also immer nochmal sich zu erinnern, ok, woraus besteht eigentlich so Rechentechnik? Es hat Rechenzeit, also CPUs, es hat irgendwie Speicher, es hat schneller Speicher, langsam Speicher, es hat so ein bisschen I.O. und alles andere baut ja irgendwo auf diesen Grundkonzepten auf. Und dann ist es natürlich auch nachher interessant zu lernen,
05:40
wie vor zwei, drei Jahren als Intel dann mal einem die Füße fast weggezogen hat mit der Regierung. Wir können nicht mehr garantieren, ob CPUs eigentlich sicher sind. Und alle anderen haben sich aber in der genannten Architektur drauf verlassen zu sagen, naja, alles unten drunter ist immer einfach, das funktioniert einfach, da muss ich mich gar nicht drum kümmern. So, und wenn ich so ein Bild raushole, um zu beschreiben, wie sieht ein so Anwendungsbetrieb aus, dann ist
06:01
dieses Bild irgendwie total lustig. Und man denkt sich, naja, komm, das ist ja eigentlich hier alles ordentlich designt und überhaupt. Und dann kann ich über das zweite Bild daneben legen und sagen, naja, so sieht es dann halt in Realität aus. Das heißt, diese ganzen Fäden, an denen das hängt, die sind da immer noch und jetzt sind die Boxen halt eckig und nicht rund. Also in unserer Erfahrung ist es
06:21
ebenso, wenn egal, ob das jetzt Systeme sind, die, das ist eine etwas ältere Grafik, mit irgendwie VMs und Komponenten auf den VMs arbeiten oder ob das dann ein Kubernetes Cluster ist. Die Art, also die Vielfalt von Dingen, die da miteinander reden und wie die miteinander reden und was sie eigentlich tun, das wird halt immer mehr, immer komplexer. Und es kann es halt nicht mehr am
06:40
Schreibtisch einfach durchdesign, da braucht es halt neue Techniken. So, und jetzt nehme ich euch einfach mal mit auf den ersten Teil der Reise, um zu gucken, wie ist unser Netzwerk eigentlich gewachsen. So. Max hat sich schon gefreut über meine Begriffsauswahl. Ich nenne die erste Phase mal die Antike. Das war in so einem, in der Phase relativ am
07:01
Anfang, 1999 bis 2006, da hatten wir irgendwo ein Rechenzentrum. Es gab vor 1999 noch die Konstellation, dass wir mal einen Server bei einem Stadtwerke-RZ-Anbieter, in Anführungszeichen, hatten. Da standen die Server tatsächlich unter Tischen.
07:21
Das zeige ich hier nicht mehr. Ich bin zwar sehr schamlos, aber das bleibt hier draußen vor. Und tatsächlich so die ersten Phase, da hatten wir irgendwie so Dell-Server gekauft und Dell-Switches gekauft und im Prinzip war die Idee, naja, da packt man da oben irgendwie einen Switch rein und kommt da dieses Kabel vom Rechenzentrum raus und dann hat man da so ein IP-Adressen und dann stellt man die
07:41
auf die Server drauf und dann ist irgendwie gut. Und das hat natürlich brutale Fehler-Szenarien. Da haben wir dann immer gelernt, okay, Layer 2-Übergabe zwischen Organisationen ist eine blöde Idee, wenn unser Switch und deren komischer Ablinkrouter oder Switch dann anfängt, irgendwelche STP-Linge zu spielen und da mal das Licht ausgeht oder wenn dann irgendwie
08:00
immer das halbe Rack neben dran auch mal von dem Switch versorgt wird und der Support-Mitarbeiter meint, er muss mal jetzt mitten am Tag unseren Switch rebooten und dann geht plötzlich vom anderen Kunden da mal auch für fünf Minuten das Licht aus. Insofern da winke ich Spreadshirt einmal, die waren damals direkt nach vorn uns, da gab es dann einmal eine Downtime, weil der Mitarbeiter vom Rechenzentrum nicht wusste, ob
08:20
ihr Switch vielleicht einen kaputten Port hat. Naja, und da haben wir dann ein bisschen gemerkt, okay, jetzt muss ich mal langsam mal irgendwie, das war ja wirklich am Anfang, wo es noch 100 Megabit-Switches waren, jetzt müssen wir mal Richtung Gigabit rüber und dann waren die Day-Switches auch irgendwie alle Mist und da war glaube ich auch, als ich dann auf der Suche war, da war ich bei Systems damals noch in München, hab mit so diversen Herstellern und
08:41
Systemhäusern und Partnern irgendwie geredet und angeguckt und das total spannend war, wenn man sich mal den ganzen Tag lang dann nur um Switches und Netzwerkequipment gekümmert hat und mit Leuten geredet hat, dann weiß jeder immer ganz viel Schlimmes über alle anderen zu sagen. Jeder lästert über HP, lästert über Cisco, Cisco lästert über Juniper, Juniper über
09:00
Xtreme, alle können, alles ist Mist, aber das Spannende für mich damals war, dass über HP alle anderen immer noch gesagt haben, naja, das Schlimmste ist, dass man sich nicht mehr los wird. Aber das war am Ende dieses Tages bei mir so ein Kriterium von, damit kann ich leben und tatsächlich, die waren für uns von Einkaufserfahrung eigentlich total interessant, das waren dann so
09:20
ProCurve Existitches gekauft, die Serien, die es damals gab, das waren 2610er, das waren noch 100 Megabit, ein 2810er Gigabit und das Schöne, was ich bei denen finde, ist, du kannst tatsächlich online die Teile einfach klicken, kaufen, hast auch heute noch bei den meisten, wobei die ein bisschen angepasst wurden, die garantieren eine lebenslange Garantie,
09:41
das heißt, solange die Karre bei dir rumsteht, rufst du dabei der Hotline an, sagst, hier ist ein Port kaputt und dann kommt am nächsten Tag irgendwie ein neuer Switch irgendwo raus und keiner prüft irgendwelche Seriennummer oder irgendwas anderes oder irgendwelche Rechnungen aus der Portverträge und du kannst auch die Firma einfach aus dem Netz laden, also die waren für uns tatsächlich so ein Ding von, das war eigentlich ganz angenehm. Was auch angenehm
10:01
ist, wenn man heutzutage so 2810er anmeckert, dann kommt es schon mal vor, dass man dann halt auch einen neueren 2530er kriegt und da wir eh nicht mehr gemacht haben, also ein bisschen Layer 2 mit so ein bisschen Faulanz, dann war das jetzt überhaupt kein Thema. Heutzutage hab ich mit denen Switches so eher das Problem, die machen halt ein Gigabit und haben aber keine vernünftigen
10:21
Aggregationsablinks, also du hast halt keinen 10 Gig und wenn du halt irgendwie einen 48-Port-AMG-Switch irgendwo anders anbinden möchtest, dann sind so vier AMG-Ports als lag so ein bisschen schmal. Genau, HP hat dann sonst auch ein paar Spenden sich natürlich ganz schnell ausgeschlossen. So für uns
10:40
war das ein Thema von, okay, die Teile sind dumm, wir müssen uns nicht viel um Netzwerk kümmern, wenn mal ein paar Ports, wir wissen ja, irgendwann geht mal der eine oder andere Port kaputt, das heißt, lass halt mal ein bisschen Luft. Und ja, die Firmware, da ist irgendwie nicht viel dran und wenn du heutzutage so eine 1810er hast, dann kann der halt irgendwie keine aktuellen SSH-Cypher, das ist auch ein bisschen nervig, aber okay, das hat
11:01
erstmal so weit funktioniert und die guten halt auch schnell. Genau. Wobei das Guten hat auch den Nachteil, wenn die Teile einen Erdungsfehler haben, dann merkt man das teilweise nicht, wenn man im erzeppten Umbau macht, weil man dann ab und zu mal das Chassis berührt, während man einen Kabel steckt und dann bootet diese Karre neu, ist nach 20 Sekunden aber wieder im Forwarding. Nach einer halben
11:20
Stunde stehen irgendwie fünf Kunden auf den Füßen, warum eigentlich gerade Dinge komisch sind und man selber sucht sich einen Wolf, bis man irgendwann feststellt, dass einer dieser Switches ständig seinen Nightrider-Modus macht, weil er halt bootet, aber so schnell gut, dass das Monitoring das gar nicht mitkriegt, das ist so ein bisschen gemein. Die haben wir wie gesagt auch noch in Einsatz, diese eigentliche Switches, aber
11:41
so sieht das Netz da natürlich nicht mehr aus. Als wir die dann nämlich gekauft haben, haben wir uns halt auch Gedanken drum gemacht von, wie isolieren wir jetzt eigentlich die Kunden und waren 2006 auch dabei, ein neues AZ zu ziehen und ein sehr grundlegendes Design für so eine gemanagte, virtualisierte Infrastruktur zu machen und
12:02
tatsächlich ist so das Grundkonzept, wir haben eine funktionale Trennung mit VLANs gemacht, das hier ist jetzt erstmal so eine topologische Anordnung von, oder eine logische Anordnung, das heißt wir haben damals gesagt, okay, jetzt setzen wir eine vernünftige Router hin, wobei auch bei uns router, weil wir eben gerne Hersteller unabhängig sind, einfach X86
12:20
Hardware ist und ein Linux da drauf läuft und wir haben im Prinzip fünf VLANs definiert, nämlich eins fürs Management, eins für den, für sogenannte Server-Server-Kommunikation, eins für Frontend oder bei anderen Leuten auch GroBi genannt, das große, böse Internet, eins für Storage und dann wir setzen Ceph ein, da gibt es
12:41
noch ein zweites Storage für die ganze Hintergrundkommunikation vom Cluster für Neuverteilung etc. Und das dann so, wir haben im Prinzip drei Klassen an Servern neben den Routern, nämlich die Virtualisierungsserver, wo die VMs laufen und VMs sind bei uns so angeordnet gewesen, dass Frontend VLAN kommt auf jede VM und das
13:02
Server-Server-VLAN und wenn ein Kunde auf einer VM kein Frontend braucht, dann ist zwar der virtuale NIC da, aber da ist nichts auch konfiguriert und im SRV ist es so, das ist immer da und da können die Server, da können die VMs untereinander miteinander reden und weil wir das komplette Netz ja auch voll managen, das heißt auch die
13:21
Betriebssysteme in den VMs sind voll ins Komplett unter Kontrolle, ist es so, dass wir auf dem Layer 2 da in dieser Phase keinerlei Unterscheidungen gemacht haben zwischen unterschiedlichen Kundensegmenten, sondern die liegen alle in einem großen Layer 2 und das wird dann auf jeder VM beschützt, weil die ja wissen, wer ist die andere VM, die auf sie zugreifen darf und dann gibt es nämlich Firewalls an zwei Stellen, nämlich einmal vorne am
13:40
Router zum Internet, alles aus dem Internet auf das Frontend-Netz darf durch und auf das SRV-Netz intern darfst du vom Internet nur per SSH rein und da gibt es nochmal auf jedem, auf jeder Maschine sowohl physisch als auch virtuell einen zweiten Layer an Firewalls, die dann wiederum wissen, wer eigentlich die Räder des RZs miteinander reden dürfen. Genau, das hat gut für uns
14:01
erst mal soweit funktioniert und ist von der Logik halt auch erst mal relativ gut umsetzbar, jeder Server mit vier physischen Interfaces, die dann auf ungeteckte VLAN-Ports kommen, genau, und im Prinzip war das eigentlich relativ easy. Problem ist dann, als wir irgendwann so viel hatten an Equipment, dass
14:20
wir nicht mehr nur einen Rack hatten, sondern zwei Racks und dann irgendwann die das dritte und das vierte und die dann aber im RZ nicht mehr nebeneinander stehen konnten, sondern tatsächlich da so diverse Reihen dazwischen sind und wenn ich dann halt irgendwie ausreichend, wie ich es gedacht habe, die haben dann komplett nur gigabitige Switches, wenn ich dann ausreichend
14:42
Interkonektivität brauche und wie man hier sieht, ist es auch so, dass diese unterschiedlichen Serverarten in den Racks verteilt dann durch eben langsames Wachstum auch entsprechend ungleichmäßig waren, also dann stehen die Computer da neben ein und der eine hat einen großen Backup- Server und der andere auch und dann stehen mehr Storage-Server
15:00
als da, das heißt, das ganze Thema aus West-Traffic ist extrem ungleichmäßig und wenn ich dann anfange und sag, ich brauch mindestens so viermal ein Gigabit zwischen den Switches jeweils, wobei wir denen das führen direkt dann gedacht haben, du aggregierst das, dann muss es also teilweise nochmal einmal um die Ecke laufen, aber dann hab ich da in Summe tatsächlich so 8 bis 12
15:22
Kabel einmal quer durchs RZ gelegt und wenn ich sehe, dass irgendwie 8 quer durchs RZ, zwischen denen zwei nebeneinander stehen, kann man die ja einfach so durchziehen und ein Kabel quer durchs RZ kostet mich 50 Euro pro Monat, dann geb ich da allein 400 Euro für Kabel, die
15:41
da rumliegen, aus. Ganz schön teuer. Und die ein Gigabit haben halt auch irgendwann nicht mehr geholfen. Du wirst, okay, jetzt muss man langsam mal Richtung 10 Gigabit geben und haben dann tatsächlich irgendwann sogar eine Notaktion machen müssen. Da war dann der Move, für den wir
16:00
uns jetzt schämen, da mal solche netgear 10-Giga-Beteile dazwischen zu knallen, damit man dann nämlich sagen kann, okay, ich spar mir diese Strecke mit diesen 8-mal 1G links, sondern mach da 2-mal 10G zwischen die beiden REC-Paare und verteile das dann intern wieder weiter. Und irgendwann kam natürlich, was kommen musste, das ist vendor übergreifend, SCP läuft
16:21
anderthalb Jahre und dann geht plötzlich einfach das Licht aus. Sehr uncool. Okay. Also haben wir uns dann 2016 irgendwann auf den Weg gemacht, okay, das machen wir mal anders machen. Und ich hab dann ein bisschen recherchiert und wir haben uns dann Richtung 10G aufgemacht und wir hatten dann immer so das Problem,
16:41
dass wir uns, was die Switches in die Hardware angeht, immer weiter in Segmente bewegt haben und merken, okay, die Geräte werden jetzt immer teurer, aber gleichzeitig ist die Vorhersagbarkeit, wie lange überleben die eigentlich und wie viel organisches Wachstum können die mitmachen, ohne dass ich dann eine Grenze stoße, wo ich nicht weiß, wie lange es eigentlich hält und
17:02
ich die wieder rauswerfen muss. Gerade mit diesem Thema Port-Config, der hat da das, der kann da das, der kann jenes. Und Procade war damals eine Hersteller, die sind zwischenzeitlich von abroad gekommen und gekauft und dann an die Xtreme weiterveräußert worden. Die hatten damals ein tolles Angebot, was genau in unserer Layer-2-
17:21
Basis war, das waren die sogenannten VDX und was die Content war tatsächlich ein komplett ohne Konfiguration, steck einfach Ports an den Switches ineinander. Alle Links sind aktiv, das ist dann so eine sogenannte Fabrik und du
17:40
kannst Kreise bilden und es ist völlig egal, jeder Switch sieht alles und macht sich selber für ein Paket den Plan, wie er am besten die Last verteilt, mit den Links, die er hat. Du kannst da irgendwie 10G-Ports, 40G-Ports, Kreise, Bäume, was auch immer bauen. Das war für uns in der Situation eigentlich ganz cool,
18:01
weil es nicht mehr so viel zu tun und du kannst dann da halt einfach mal statt irgendwie 8G, 2x10G reinpacken und das hat uns was den Ostwest-Traffic-Eingang dann auch gut gerettet. War aber natürlich immer noch so, dass der halt relativ asymmetrisch war und dann haben wir irgendwann gelernt, dass auch 10G einen natürlich nicht endlich rein geht, hintergerettet, vor allem, wenn man so etwas wie Ceph hat, wo es solche
18:22
Effekte gibt, wo ich den Namen gerade war, finde ich schon, den Namen vergessen habe. Wenn alle Ceph-Clients gleichzeitig anfangen neue Verbindungen aufzubauen, dann gibt es einen Burst, der einmal extrem viele Pakete erzeugt, wo selbst 10Gb mal kurz für ein paar
18:40
Millisekunden überfordert sein kann und dann kommt der Paketverlust und dann braucht das TCP länger, um seine Verbindungen aufzubauen und dann fängt alles an zu kackeln. Und das war tatsächlich so die Zeit, wo das auch erst ordentlich wahrgenommen wurde mit, wie ist das eigentlich mit solchen großen verteilten Systemen bei den Netzwerker Herstellern? Und das war für uns auf jeden Fall erstmal
19:00
dann plötzlich vom Management easy und bei der Brocade war das Schöne, dass man diese Teile mieten konnte. Das heißt, die waren jetzt zwar eine Ecke teurer, also ein so ein Ding kostet dann halt mal locker 10.000 bis 15.000 Euro pro Switch und wenn ich dann nicht mal weiß, ob das Ding noch zwei Jahre, drei Jahre, fünf Jahre lebt, zumal auch irgendwie klar war, okay, die haben so ein Plan für Layer 3 Netzwerk und das ist etwas, das soll ich mir jetzt
19:20
angucken, aber ob die Architektur das dann mitmachen wird, naja, die hatten eine Mietangebot und das war eigentlich ganz cool, weil da könnte man sagen, gib mir mal ein paar Switches und ich bezahle die einfach monatlich und ich kann immer innerhalb von sechs oder acht Wochen, innerhalb von 60 Tagen, kann ich die Dinge aufkündigen, schickst die wieder zurück und dann ist gut. Und die sind dann so ausgelegt vom Pricing auf, nach
19:42
drei Jahren hast du die halt im Prinzip abgezahlt. Also wenn du weißt, hast du fünf Jahre dastehen, fährst du dann mit Liga, wenn du aber nicht weißt, ob die überhaupt zwei Jahre dastehen, dann bist du im Prinzip besser unterwegs, indem du sie halt mietest. Das Dumme war, bei The Brocade, das war eigentlich erst cool, die haben so richtig schönen Support gehabt und theoretischerweise hatten die Teile auch in Service Software Updates, aber
20:01
ich glaube, das haben jetzt inzwischen alle gelernt, dass das was ist, was you don't. Also ich glaube, auf den Kisten habe ich irgendwann eine Firmware-Version rausgegriffen, wo die Aussage war, so die fahren wir jetzt überall und danach fassen wir sie nicht mehr an und ich glaube, die hatte einen einzigen Bug, wo ab und zu mal irgendwelche 10G-Ports es nicht schaffen, 10G zu Niveau-Shaken, sondern dann nur noch
20:21
eingeben machen und dann muss man irgendwelche ominösen Hex-Kommandos auf der Support-Bash, die man in den Zwitschristen drin freigeschaltet kriegt, reinpacken mit der Ansage und wenn das wieder kaputt geht, dann dreh den Hex-Code bitte wieder um, aber das ist tatsächlich glaube ich zweimal passiert, ansonsten haben die Teile eigentlich sehr gut funktioniert. So, das war dann so dieser
20:41
Punkt, wo wir merkten, okay, jetzt haben wir immer noch dieses Problem, dass wir nicht wirklich Kabel zwischen den Switches ziehen können und es ist alles ein bisschen asymmetrisch und wir hätten eigentlich gerne mehr Bandbreite und das geht eigentlich so nicht mehr mit diesem Direx-Chain durcheinander und deswegen haben wir danach nochmal gesagt, na gut, gegen
21:01
diese logische Ebene kommen wir momentan nicht an, da fällt uns nichts Besseres ein mit den Faulans, wir müssen uns aber mal dringend aufräumen, wie dieses ganze Thema Oversubscription auf dem Inter-Switch-Links aussieht und haben uns in das sogenannte spärte Mittelalter-Gestürs. Da sind wir im Prinzip im Rechenzentrum umgezogen und haben uns einen eigenen Raum gemietet, bzw. einen halben
21:21
Raum, wo eine Reihe von neuen Racks am Stück jetzt uns gehören und das war tatsächlich auch eine Aktion, die wir komplett im Live-Betrieb gemacht haben. Das heißt, wir haben dort eigentlich geplant gehabt. Da war nämlich das Thema, wir haben jetzt dieses schöne Mietmodell, wir können ja sagen, hach, wir bauen da rüber ein neues Netzwerk auf,
21:41
wo die Server alle rüber wandern, mieten dessen wieder und geben euch danach die alten Switches aus den alten Racks zurück. Das war insofern eigentlich ganz cool, aber Xtreme war inzwischen halt der Hersteller, mit dem wir da reden mussten, weil die die Brokette gekauft hatten. Das waren furchtbare Kaufprozesse, wo es keine Preislisten mehr gab,
22:01
für das kostet das und das, sondern du musstest fertige Pakete machen und dann musstest du rumverhandeln und dann wusstest du nicht, was es beim nächsten Mal kostet und dann dauert es irgendwie zwei Monate, um für so eine Miet-Ding einen Angebot zu kriegen und dann hat es irgendwie aus Versehen deren Quartalgrenze überschritten, womit sie gesagt haben, jetzt dauert aber die Lieferung wieder nochmal neu drei Monate,
22:21
weil immer bei unserem Quartalsende werden nicht abgeschlossene Projekte einmal ausverkauft, damit wir keine Lagerhaltung haben und so. Das war, man konnte es dann sozusagen nennen, das Mieten war sehr flexibel, solange es nicht flexibel sein muss. Also da haben wir uns ganz schön die Hörner dran abgeschlossen und mussten letzten Endes tatsächlich auch mit dem
22:40
Bestandsequipment dann von A bis B umziehen, was immer hieß, dass wir so einzelne Switches dann umgesteckt haben und da wir so alles neutralisiert haben, können wir ja immer einzelne Maschinen, sowohl Storages, Backup und immer frei räumen und dann die davon umstecken. Aber das war halt schon ganz schön nervig, weil die eigentlich Vorstellung war, hey, wir stellen uns da jetzt diese schöne Leaf-Spine-Fabrik hin. Nein, da musste man
23:00
sich erstmal, die Spines hatten wir eh neu geschafft, aber die ganzen Alten, die mussten wir dann im laufenden Betrieb dann halt umstecken und das war einfach sehr unangenehm. Und dazu kam noch, dass die sich dann auch noch vertan haben und da gehen mir diese klassischen Hersteller inzwischen extrem auf den Kopf, dass die zwar nur ein, bei den Kupfergeräten
23:21
zwar nur im Prinzip ein Gerät haben und du kaufst das dann nur nach Lizenz, ob das ein 48 oder 24 Portgerät ist, ob das ein 10G oder 1G ist, nur ob dann bestimmte von den 40G Ablinks aktiv sind, hängt dann wieder davon ab, was das Basismodell ist und ein 1G Switch hat auf jeden Fall 2 40G Ports, aber ein 10G Switch hat gar keinen, den mussten wir dann auf jeden Fall
23:41
dazu lizenzieren oder nur 2 und dann ist der gerade nicht da, der den freigibt und das heißt, wir sind da glaube ich auch die ersten zwei Monate nur auf irgendwelchen zeitbefinitierten Testlizenzen für diese 40G Ports gelaufen, immer mit dem hoffentlich kriege ich eine neue Testlizenz ausreichend früh, bevor der andere Typ da aus dem Urlaub kommt und mir die richtige
24:00
Lizenz gibt. Das war einfach vorläufig, das hatte keinen Bock mehr. Ich glaube, der Bruder war dann noch, dass wir uns angefangen haben Switches ohne Schienen zu schicken, wo dann die Aussage war, ihr müsst jetzt für die gemieteten Switches die Schienen kaufen und das Schienenpaar kostet irgendwie 300 Euro. Also, das war jetzt irgendwie eine technisch super Lösung, seit wir das hatten,
24:21
waren wir da in der Lage zu sagen, ok, wir haben ausreichend 10G Ports, wir haben wirklich gleichmäßige Balance, was die Interconnects angeht, also jeder Switch hat da 80Gb Link und diesen oben Redundanten können ausfallen, das war irgendwie alles super. Wobei wir natürlich pro Server noch keine Ausweisbarkeit hatten. Das war jetzt weiterhin diese gleiche Layer-2-Konstruktion
24:41
und wir haben noch so einen Bestandskunden, der so ein kündeneigenes Rack hat, wo weiterhin diese Broker stehen. Da waren die Broker jetzt eigentlich auch ganz schick, weil die konnte man tatsächlich mit diesem Multi-Chassis-Lack dann entsprechend hinten per LACP anbinden, ohne dass man halt noch besondere Tänze auf den Switches machen muss, weil diese Fabrik da
25:01
einen erlaubt zu sagen, einfach nur, hier ich will so einen Pod-Channel haben und der wird irgendwie terminiert da auf dem Switch mit dem Pod und dem mit dem und danach hat das für die anderen Switches wie ganz normal das LACP ausgesehen, das war echt gut. Also technisch war man da eigentlich jetzt so an dem Stand von, die Architektur kannst du praktisch nicht besser bauen,
25:20
aber der Hersteller das irgendwie misst und tatsächlich wird es auch nicht mehr besser nach vorne. Plus es wird dann halt irgendwann auch zu teuer. Also die Menge an Pots, die wir uns da halt hingestellt haben, weil wir dann halt mit dem Lander geredet haben mit hey, wir würden das so und so machen. Das war halt massiv überprovisioniert. Ich glaube, wir hätten real 70 Pots gebraucht und haben da glaube ich 350 Pots provisioniert.
25:42
Dadurch, dass halt in jedem Rack alles drinne steht und das hat uns glaube ich in der Mitte dann so dreieinhalb, viertausend Euro netto gekostet pro Monat. Und da ist dann die wenige das Thema, dass die Switches nach Bayern abbezahlt wären, sondern mehr, dass ich so viel Zeug eigentlich bräuchte. So und das war mal ein Punkt von, okay, wir haben jetzt die Sachen erstmal
26:00
optimiert, die wir hatten, auf technisch. Es tut, was es soll und es funktioniert und es fliegt uns nicht in die Ohren. Das war echt schön oder ruhig, hat getan, was es sollte. Aber wie geht es jetzt weiter? Und die, da war für uns klar, jetzt müssen wir irgendwie dieses Layer-2-Konzept irgendwie anfassen, weil alle reden über
26:21
Layer-3 und ja, diese Trennung von, dass da mehrere Kunden im gleichen Layer-2-Segment sind, ist eigentlich so cool, es funktioniert nur deshalb, weil wir alles komplett kontrollieren können und überall die Fibers im Griff haben. Und außerdem hatten wir noch keine Redundanz an den Serven, das heißt, wenn ein Switch ausgeht, sind mindestens immer eine ganze Sack-Server betroffen.
26:40
Firmware-Updates auf dem Switch, das war irgendwie nicht so wirklich drinne und genau, und teurer war es halt oben drauf auch noch. Und das war jetzt so etwa 2018 gewesen, wo wir gesagt haben, jetzt muss man da noch mal anders dran. Und wir haben nochmal den gleichen Prozess angefangen, wir haben so mit diversen Leuten geredet. Max hat ja gesagt, wir kennen uns seit 2017 etwa, seit 2018 haben wir uns über die Froschkörner auch mit dem Netzwerk-Klima
27:01
angefangen, auseinanderzusetzen. Max ein bisschen geredet, den kann man kaufen und der ist sehr nett. Und mit unseren Herstellern nochmal gesprochen und auch mit diesen Channel-Partnern immer, die dann nochmal gesagt haben, guckt euch nochmal Thinglipper an, oder das, und haben diverse Design-Workshops mit unseren Anforderungen gemacht. Ich habe zwischendurch auch nochmal so Ausflüge, um dieses ganze Open-Network-Netzwerk
27:20
anzugucken. Da gab es dann so, 2017 war das noch halbwegs irgendwie was, wo Leute über Geräte hatten, war Openflow. Aber Openflow kannst du natürlich nur machen, wenn du im Prinzip selbst Netzwerkhersteller werden willst. Das ist so low-level. Ich habe jetzt hier so ein paar Geräte noch rumfliegen. Da kannst du halt wirklich die ASIC im Prinzip von der Firma programmieren, aber du musst halt im Prinzip jedes Netzwerk-Protokoll
27:40
neu erfinden oder neu nachbauen. Da kann man coole Sachen mitmachen, aber dann bist du halt Netzwerkhersteller und extrem weit weg von dem, was wir da oben mit den Services machen wollen. So, und da kamen jetzt dann uns die konkrete Produkte angeguckt, aber das eine großes Problem, was wir hatten, war, diese Designs sind dann so informiert an einer Anführungsliste
28:02
und dann kommt da eine neue Lösung raus. Und das Dumme, was immer der Fall war, das werfe ich Max jetzt nicht vor, das werfe ich eher so den großen Herstellern vor, du kriegst dann so eine Greenfield-Lösung und wenn du anfangen willst, die umzusetzen, stellst du plötzlich fest, Mist, du hast irgendwann vergessen, was im laufenden Betrieb bei dir so nicht funktioniert.
28:20
Und wir haben halt immer bei uns die Vorgabe von The Show Must Go On. Ich kann dich einfach in den Greenfield hinstellen und sagen, jetzt brauche ich zwei Jahre, um alles von A nach B zu migrieren und die alte Welt kann mit der neuen Welt nicht reden und überhaupt. Und dann kostet sich deshalb nochmal ein Arm und ein Bein und du hast auch noch mit doppelten Kosten. Also für uns war schon ein Ziel, jetzt die teure Lösung möglichst zuerst loszuwerden und dann halt wieder
28:41
in der Lage zu sein, nach vorne zu laufen. Und dabei zu fragen, wie geht man da ran? Und ich habe mich in den letzten Jahren jetzt auch schon seit sechs, sieben bestimmt mit dem Thema Komplexität insbesondere auseinandergesetzt. Und da gibt es so einen Ansatz, der nennt sich Kenneven. Das ist ein valisisches Wort und das bedeutet speziell, sich in mehreren
29:02
Heimaten verankert fühlen, an mehreren Orten zu Hause zu sein. Und das ist so meine Basis, mit der ich jetzt immer wieder mehr dazulerne und mich immer weiter beschäftige, um im komplexen Szenarien handlungsfähig zu bleiben. Und Kenneven kann man benutzen als Framework, wobei es eigentlich nicht so richtig ist. Das ist eigentlich mehr ein Tool,
29:21
was einem helfen kann, unterschiedliche Perspektiven einzunehmen. Und das teilt sozusagen die Welt in unterschiedlichen Domänen, wie man Probleme angehen kann und einteilen kann. Und auf der rechten Seite dieses komplizierten Tier, das sind sogenannte geordnete Systeme. Das sind immer Umgebungen, wo ich ein Problem vorab, ohne es umzusetzen, die Lösung bestimmen kann.
29:42
Also zum Beispiel kann ich geordnete Probleme sind herauszufinden, wenn ich zehn Äpfel kaufe und fünf Äpfel kaufe, wie viele Äpfel habe ich dann? Dann habe ich 15. Das kann ich sagen, ohne loszugehen, ohne Äpfel zu kaufen und danach auch mal zu zählen. Dann kann ich machen, dann weiß ich, dass sie einfach richtig war, aber ich kann halt, ohne Äpfel zu kaufen, dir sagen, wie viele Äpfel du danach haben willst. Auf der linken Seite
30:01
die komplexen und chaotischen Systeme sind die, wo ich halt nur im Nachhinein vielleicht noch erklären kann, wie es zu einem Ergebnis gekommen ist. Oder im schlimmsten Fall auch gar nicht erklären kann, wie es dazu gekommen ist. Das sind dann die chaotischen Systeme und da, wo ich es nachhinein kann, das sind die komplexen Systeme. Und die haben unterschiedliche Eigenschaften, wie ich an Dinge rangehe. Also bei,
30:20
in klaren Fällen, das ist so typische Bürokratie, da kann ich einfach nur sagen, was für ein Problem habe ich hier, in welche Kategorie passt das, dann nehme ich die beste Lösung, die wir dafür kennen, dann mache ich das einfach. Das funktioniert super, wenn meine Umgebung sich nicht ändert und die Constraints halt immer fix sind. In komplett komplizierten Fällen, das ist gerade für das deutsche Ingenieurwesen so, das wo,
30:41
wo wir uns wohlfühlen, ist es so, ich habe einen, auf den ersten Blick, für den Leiden unüberschaubares Problem, aber ein Experte kann sich hinsetzen, kriegt ausreichend Zeit, analysiert das und sagt dann, ok, aus der Menge an Lösungen, die es gibt, habe ich folgende ausgewählt, auf folgende Art parametrisiert und das ist jetzt hier deine Lösung. Das ist immer noch so, dass die Constraints, die es gibt,
31:01
die Dynamik des Systems in Summe bestimmen und auch einschränken und begrenzen. In komplexen Fällen ist es so, da habe ich Constraints, die tatsächlich sogar eher dafür sorgen, dass neue Dinge passieren können und wo ich nicht lineare Zusammenhänge habe, wo ich teilweise Feedback schleifen habe, etc. Und da ist es so, dass es tatsächlich häufiger besser ist, wenn ich versuche, ein Experiment zu machen
31:21
und herauszukriegen, ok, ich pieke das System mal, wie verhält es sich denn und ich bereite mich darauf vor, was passiert, wenn das System positiv oder negativ reagiert, wie kann ich negative Reaktionen eindämmen, wie kann ich positive Reaktionen verstärken, um noch bessere Erkenntnisse rauszuholen und im Chaotischen ist es im Prinzip so, da ist es halt wichtig, ok, hier brennt gerade die Welt ab, dann greift man jetzt
31:40
zum Feuerlöscher und fragen danach, also handeln, gucken, wie reagiert es und dann entsprechend nachsteuern. Da gibt es auch eine entsprechende Dynamik dazwischen, da hängen dann agile Methoden mit zusammen, idealerweise möchte man möglichst viel von seinem Alltag zwischen dem Komplexen und dem Komplizierten verhandeln können, wenn ich Dinge in Komplizierten behandeln kann,
32:01
also Analytical Engineering, dann kann ich sehr effizient sein, dann kann ich sehr wirtschaftlich arbeiten, wenn ich im Komplexen bin, kann ich sehr innovativ arbeiten, kann ich mir neue Dinge ausdenken, kann ich auf komplett neue Niveaus kommen. CLEAR ist halt immer noch, da ist halt ein Zustand, der ist extrem energieintensiv, um sozusagen die Constraints zuständig zu prüfen, ob alles überhaupt noch so ist, wie wir uns das vorstellen.
32:21
Dann gibt es in der Mitte noch so ein fünfter Domäne, die nennt sich Confused, also im Sinne von, ich weiß gar nicht so richtig, was hier gerade Phase ist und kann nichts von diesen vier Dingen in Ansatz bringen und davon gibt es eine authentische und eine nicht authentische Version, deswegen das ANSC, die authentisch ist, ich bin mir bewusst, dass ich es nicht weiß und kann mich deswegen
32:41
damit auseinandersetzen oder ich bin gerade völlig am Schwimmen und mache noch nicht mal Gedanken darüber, welche Herangehensweise jetzt eigentlich überhaupt die richtige ist und das Grüne ist so ein bisschen ein dehnbares Band, wie man zwischen komplex und chaotisch und kompliziert und komplex konstruktiv in den Herbe wandern kann. So, was heißt das jetzt für unser Netzwerk? Wir haben damals,
33:01
jetzt könnte man meinen, Netzwerk ist halt technisch und es ist Engineering, es ist ja begrenzt, es ist deswegen nur kompliziert und es stimmt aber nicht, weil das mit kompliziert zu begleiten und sagen, es ist nur Engineering, das ist ungefähr so, wie wenn wir BWL anhand der perfekten Markttheorie erklären. Ja, wenn wir alle die richtigen Kompetenzen und alle die perfekte Informationen hätten, dann könnten wir uns als Experten hinsetzen
33:21
und könnten alle Optionen durchgucken und in einer definierten Zeit die passenden Lösungen ermitteln, aber da bricht immer die Markttheorie, es gibt ja schon nicht die perfekte Information. Ich sage eben nur dieses Thema von Preislisten von Leuten kriegen zuverlässige Preise und nicht irgendwie drei Monate Feedback schleifen, bis man weiß, ich eigentlich, welches mit welchem Preis vielleicht, aber nicht bei der Masse und damit
33:40
und Zeit ist halt bei analytischen Herangehensweisen wichtig, ich muss bei im Engineering in der Lage sein, auf einen vorher festgelegten Zeit-Slot zu garantieren, dass ich mit einer Lösung rauskomme und Kompetenzen hat auch nicht jeder immer für alles und dafür ist es auch einfach zu viel und dadurch wird aus Quantitäten, nämlich der Menge an Zeug, die da eine Rolle spielt, irgendwann auch die Qualität, das ich nicht mehr
34:00
final überschauen kann. So und außerdem haben wir jetzt noch das Networking und überhaupt Technik sich über die Zeiten weg ständig ändert und selbst während wir über diese zwei Jahre uns da Gedanken drum gemacht haben, hat sich die ganze Zeit der Markt verändert und wir mussten immer noch mal ein Auge mit drauf haben, von was passiert hier jetzt eigentlich gerade um uns herum. Das heißt, der Ansatz, den ich haben will, ist, ich will irgendwie rauskriegen,
34:20
in welche Richtung wollen wir go, was sind die nächsten Schritte, die wir dann tun können, ohne uns in eine Ecke zu manövrieren. Dann haben wir da intern zu dritt einen Workshop veranstaltet und die drei Personen, die dabei waren, waren im Prinzip ich, aus dem Thema von so bei uns Forschung, Entwicklung, Business und ein Kollege, der lange Zeit Engineer ist und noch ein sehr neuer Kollege, der dabei war, mit Netzwerk
34:40
bisher wenig zu tun hat. Aber dann haben wir zum Schluss so viele kleine Projekte und Initiativen rausbekommen, die in Summe für uns ein stimmiges Bild ergeben. Wichtig ist aber, und den Prozess erkläre ich gleich mal ein bisschen genauer, das ist bottom-up entstanden und nicht top-down. Das heißt, diese Sammlung an Projekten, die daraus fällt, ergibt auf den ersten Blick gar nicht so richtig Sinn. Wir sind, warum sind das so unzusammenhängende Teile? Oberflächlich sehen die
35:01
unzusammenhängt aus, aber intern sind sie total eng miteinander verstrickt. Und da haben wir natürlich jetzt auch den ganzen Input genommen, den wir mit dem Bender Consultation hatten und mit unserem unabhängigen Experten Max. Und die drei wichtigen Aspekte von den Techniken, die wir da angewendet haben, sind auf der einen Seite sogenannte Distributed Cognition,
35:20
also die kognitiven Prozesse zu verteilen und zwar kleinteiliger und weniger zu fragen, was ist die fertige Lösung, die ich kaufen kann, sondern von unterschiedlichen Leuten in unterschiedlichen Sachen rangehen, auch noch kleinteiliger abzufragen und weniger zu fragen, was ist wichtig, sondern mehr, was hat jemand hier gerade beizutragen, was interessant ist
35:40
und wie kann ich den interessanten Teil jetzt nochmal aus dem Vorschlag zum Beispiel rauslösen und wieder rekombinieren. Und das dritte ist dann sogenannte Disintermediation. Wie kann ich, wenn dann Entscheidungen zu treffen sind, weniger Executive Summary spielen, sondern wie kann ich Entscheider tatsächlich so mit den Rohdaten zusammenbringen, dass Entscheider tatsächlich auf der Basis der Rohdaten
36:00
und fundierten Entscheidungen treffen können. Das heißt, sowohl die Entscheider müssen näher an die Rohdaten ran und die Rohdaten müssen näher an die Entscheider ran. Bei uns ist das ganz gut. Ich bin als Mitgründer und Tagesbeschäftiger auch mit drin. Da ist das sehr einfach, die zusammenzubringen. Da gibt's dann, wenn man sich mit den komplexen Techniken noch Möglichkeiten, dass wir extrem große Organisationen zu machen. Das wird teilweise eingesetzt bis 50.000 Leute und mehr.
36:22
So, der erste Schritt, den wir dann hatten, war, wir haben Demil gesammelt, die uns in unserem Netzwerk schlecht schlafen lassen oder Bauchschmerzen machen. Und da haben sich so drei Cluster etwa rausgebildet. Der Cluster links oben dreht sich so ein bisschen rum um die Frage, ja, wir sind doch keine Netzwerker. Also im Sinne von, wir sind halt keine Vollzeit-Netzwerker.
36:41
Nicht so, wie der Max. Aber natürlich machen wir Netzwerk. Also, wie kommen wir jetzt dazu, irgendwie handlungsfähig zu sein und mit gehobenem Haupt zu sagen, wir haben eine sinnvolle Entscheidung getroffen. Und der Cluster in der Mitte ist insofar eine Themen von konkreten technischen Sachen von, ja, was machen wir jetzt eigentlich mit Layer 2 oder Layer 3? Wie spielt denn hier BGP und OSPF eine Rolle? Und sollten wir eigentlich
37:00
modulare oder feste Systeme kaufen? Wie ist so eigentlich Scoping mit IP-Nummern in Zukunft zu machen? Und können wir eigentlich was machen bezüglich der Kosten? Wie werden wir flexibler? Können wir eigentlich auch sowas machen, dass wir einfach nur dumme Brotkästen kaufen, die hier als Switches agieren? So, und mit diesem Input, das war mal so zum Orientieren, haben wir dann ein sogenanntes Knaven-Modell gebaut.
37:21
Dann nimmt man auf sich erst die Daten und baut aus den Daten das Modell, mit dem Spruch data proceeds the model. Und immer wenn man etwas in diese vier Kategorien, das ist jetzt so wie dieses Diagramm, was ich vorhin gezeigt habe, diese vier Bereiche, clear, complicated, complex, chaotic und confused. Und im confused bleibt dann noch über, ja, wir sind doch keine Netzwerker.
37:40
Und das Schöne ist aber, wenn man das versucht einzuteilen, muss man immer granularer werden, optimized granularity, weil man irgendwann Sachen hat, wo man nicht weiß, passt das jetzt in die eine oder die andere Kategorie. Dann muss man sie auftrennen und konkreter sagen, ja, warum glaubst du, es passt in die eine? Warum glaubst du, es passt in die andere? Und mit diesem Modell haben wir uns dann auf die Suche nach Lösungen gemacht, indem wir erst jetzt nochmal Anforderungen neu formuliert haben,
38:01
nämlich weil wir ja viele Problemstellungen hatten, um diesem Fragezeichen entgegenzudrehen. Und am linken Fenster, und das ist ausnahmsweise mal ein echtes Fenster, sieht man Anforderungen die sich dann sehr an den Kunden orientieren. Das ist auch von ganz oben extrem kundennah. Da steht dann so was wie, wir wollen beliebige Kunden-OS unterstützen, die ungemanaged in einem Netz sind,
38:22
wo auf der einen Seite komplexe Dinge passieren, auf der anderen Seite aber dann dumme VMS, die bloß DRCP spielt. Oder bis halt runter zu sehr technikgenauen Anforderungen. Also im Sinne von kundenspezifische VPNs, Traffic zum Internet, möglichst ohne NAT solche Sachen. Dann haben wir uns langsam angefangen, an Bestandteile von Lösungen das ist das rechte Fenster, um dann zu sagen,
38:41
okay, was gehört jetzt für eine Lösung alles dazu. Wir müssen uns mal überlegen, wo wollen wir Top of Wreck oder Middle of Row? Wir wollen mal die Lebensdauer von Geräten nachdenken. Wir wollen die leeren Ports vermeiden, Kosten. Wir wollen Verständlichkeit von diesem System für Nicht-Netzwerke haben. Genau. Und dann haben wir die Leute, haben uns dort hingesetzt und haben solche Design-Runden gemacht, wo jeder mal für sich Teil-Designs, die kann man leider ein bisschen schlecht lesen,
39:01
die konnte ich bei aller Verbesserung nicht mehr besser machen. Wie ihr seht, da sind so Netzwerkspitzen drauf. Da hat sich jeder alleine mal für Teilaspekte, wo ihm was zu einfällt, in der Tiefe Gedanken gemacht worden. Guck mal, wir könnten übrigens solche Gateway-Forms machen, dann redet der mit dem und dem und da ist ein Post, da ist ein Switch und das und daraus kamen dann sechs Sachen raus. Und da war weniger wieder die Frage,
39:20
nicht welches davon ist richtig, sondern was hier ist eigentlich interessant und was ist denn hier anders zu dem, was der da drüben zu dieser anderen Teillösung gemalt hat. Dann geht wieder die Granularität auf von was sind hier die interessanten Teilerkenntnisse. Und damit sind wir dann sozusagen in unserer Neuzeit aufgebrochen. Und die Designentwürfe haben wir dann überführt in konkrete Projekte.
39:41
Da ist jetzt die Zeit, die reicht nicht, um dann noch extrem tief ins Detail reinzugehen. Aber auf der einen Seite war das eben dann die Frage, wie organisieren wir Zukunft Layer 3 mit so einem anderen Layoverplay mit eVPN oder ohne. Das hängt dann davon ab, ob man das terminiert, ob man das terminiert auf dem Switch oder auf dem Host. Wie ist das eigentlich mit, kombinieren wir mit unserem Storage,
40:01
der zwei geteinte Netze haben will und a, da müssen wir auch bei uns aus der Plattform noch Dinge tun. Und damit sind wir im Prinzip losgezogen und haben geguckt, was wollen wir kaufen. Und da hatten wir zwei auf der Liste, Cumulus und Arista, den Florian im Prinzip, den würde ich da mal winken, weil Arista sich da extrem ins Zeug gelegt hat, aber tatsächlich die klassischen Herstellereigenschaften,
40:20
was Vertrieb angeht und so. Das hat es halt leider nicht geschafft. Arista war mir sehr positiv, ist mir weiter sehr positiv in Erinnerung, weil die halt wissen, wie man Software macht und wie man Tests macht und so. Aber es ist halt ein langmiedriger, nerviger Einkaufsprozess. Für mich undurchsichtiges Hardware gestrückt. Man kann keine gebrauchte Hardware kaufen, damit ist das Labor irgendwie schwierig. Dann gibt es irgendwie die Software
40:41
zum Update nur mit Lizenz und dann bin ich im Labor und ich muss mich, ich muss mich, ich muss freundlich fragen, wenn ich mir Drittanbieteroptiken haben will, et cetera. Das ist irgendwie so, ich will nicht fragen. Sorry Leute, ich will Brotkästen kaufen, ich will auch mit meinem Bäcker nicht verhandeln, ob ich jetzt zwei oder drei Brötchen bestellen darf und ob ich irgendwie Wurst drauf essen darf oder nur Käse. Da ist bei mir irgendwann die Reaktion,
41:00
geh mir aus der Sonne. So, Cumulus ist es bei uns tatsächlich geworden. Die unterstützen halt durch die Aggregation ein sehr breites Hardware-Spektrum. Das Ökosystem mit der freien Software ist interessant, weil ja auch dann so was wie Sonic von Microsoft durchaus eine gute Alternative ist, wenn man das ohne Lizenz machen will. Da läuft halt dann der Routing dort auch. Cumulus-Support mit Slack ist gut,
41:21
die Doku ist sogar echt gut und ich kann mir halt mit der Kreditkarte bei einem Hersteller wie FS kommen oder bei Delta oder irgendwo einfach Switches ziehen und muss nicht um Erlaubnis fragen. Das ist so, die Lizenzen sind auch überschaubar im Sinne von es gibt Lieblizenz und Zwei-Lizenz und dann war es irgendwie gut. Genau. So, wie sieht denn das jetzt aus? Was haben wir da gebaut?
41:41
Unser erster Schritt in der frühen Neuzeit sieht jetzt so aus, das haben wir jetzt seit so knapp zwei Monaten laufen und das war auch im Umzug interessant, dass wir die gleichen Rexilie auch vorher haben. Was ist jetzt passiert? Wir haben uns entschieden ein Middle-of-Road-Konzept zu fahren. Die Menge der Switches, die eigentlichen SFP-Geräte, die später mal dann BGP sprechen sollen,
42:01
sind drei Cumulus-Geräte hier genau in der Mitte in grün, schwarz und grau, wobei nur zwei aktiv sind. Der eine macht jetzt gerade das Deutsch, der andere macht Track-End und der dritte steht rum, ist leer und ist ein Ersatzgerät. Und dann haben wir noch von der FS-Com ganz billige 400 Euro ein Gigabit Switches mit 10 Gigabit Ablink gekauft, die bilden zum einen oben das Management-Netzwerk und dann werden die Server tatsächlich
42:21
gepatcht an dieser Mitte angebunden und da haben wir jetzt modulare Teile, wo wir auch pro Server uns überlegen können, mache ich da Glasfaser oder mache ich da noch Cat 6 dran, weil wir halt immer auch im Bestand irgendwie voranlaufen müssen, um zu sagen, wir rüsten jetzt alle Server neu auf. Das geht halt nicht bei uns. Und haben dann jetzt temporär mal noch die bestehenden VLANs, also das Frontend und das SRV,
42:40
auch mit diesen billigen FS-Switches abgesetzt, wo auch gesagt, dann kommt halt noch mal einer im Hotspair daneben, ist vorkonfiguriert und das Interessante ist, die sind jetzt alle komplett anonym konfiguriert. Keiner von denen hat jetzt noch irgendwie Servergenau-Konfig, die sind alle dumm, jeder fährt einen VLAN, das ist jetzt ein völlig zurückgekochtes Layer 2, und das haben wir komplett in Live-Migration hingekriegt, ohne dass da irgendwas gebackelt hat.
43:01
Der Altkunden ist auch noch angebunden, alles super. So, und das ist aber erstmal bloß der erste Zwischenschritt, weil jetzt konnten wir die Brokets rauskicken und haben im Prinzip einen 120.000 Euro Stack ersetzt durch einen 30.000 Euro Stack mit Support mit einem Drogen dran. Wo wollen wir damit jetzt hin? Naja, der nächste Schritt ist, dass wir sagen,
43:21
okay, diese Cumulus-Switches, die können jetzt diese ganzen Layer 3-Techniken und wir bauen uns damit dann auf der einen Seite hier in Hila und Orange ein BGP-EVPN-Underlay. Da gibt es halt auch schöne Techniken von der Cumulus, die immerhin auch interoperabel sind, wo ich dann tatsächlich extrem wenig Konfig brauche, um so BGP-Sessions
43:40
zu konfigurieren. Dann machen wir Routing to the Host. Dann gibt es für die VMs darauf VXLAN pro Kunde und pro Projekt. Dazu gibt es dann pro Kunde noch Gateway VMs, wo er dann halt tatsächlich seine eigenen IP-Nummernräume managen kann. Dann hintenrum ein klassisches Management-VLAN und für die Services fahre ich dann tatsächlich einen Service-Netzwerk
44:01
auf dem Underlay hoch, damit die entsprechend die Performance haben und trotzdem von der Verfügbarkeit und Redundanz und der Flexibilität profitieren. Und das Schöne ist, das kriegen wir halt im laufenden Betrieb hin mit. Wir packen jetzt als allererstes dann erst mal die bestehenden VLANs in VXLANs, können den Underlay umbauen, haben dann halt
44:20
zwar noch keine Kundenspezifen in VXLAN, können dann aber auf BGP-IPN gehen, kriegen auch so die Zwischenzustände alle abgebildet und dafür müssen wir dann tatsächlich im RZ gar nicht mehr so viel physikalisch anfassen. Ab dem Moment hat dann jeder Server statt vier Interfaces nur noch zwei, nämlich irgendwie den roten und den gelben und dann läuft alles über BGP im Underlay.
44:42
Die Kunden kann ich mit dem VXLAN rechts trotzdem noch anbinden, indem ich die VXLANs dann auf dem Switch terminiere und wie man in Englisch inzwischen sagt, Bob's your uncle. So, das war jetzt relativ zügig. Ich hoffe, ihr seid alle entspannt gewesen. Ich fasse euch die Sachen nochmal zusammen. Was hat uns geholfen, da irgendwie
45:01
selbstständig in was designen zu können? Also, das eine ist das Thema Cognitive Diversity. Input von möglichst vielen Leuten kriegen. Mir geht es ja nicht darum zu sagen, ich will den Input von Vendor nicht haben, aber der reicht halt nicht. Eine kraftige Lösung einfach nur zu haben, ist halt das Problem, ich brauche es fein gerade lang. Ich muss mit meinen eigenen Anforderungen extrem detailliert in der Lage sein,
45:20
die auseinanderzupuzzeln und dann in Deckung zu bringen, zu sagen, wie passt hier eigentlich was zusammen? Und das hat für uns dann tatsächlich den Realitätsbezug massiv nach vorne geschoben. Wir hatten im Prinzip dann diese Projektliste mit Max nochmal abgeglichen und von einer kleinen, von einem kleinen Denkfehler, den wir hatten, hat uns korrigiert mit, das geht so nicht, aber das hat das ganze Konzept nicht in Frage gestellt, sondern haben wir halt
45:40
ein bisschen an woanders lang gesteuert, hat uns das halt tatsächlich so ein Mehrschrittding gebracht von wie kommen wir jetzt hier von A nach B? Komplexe Techniken, die helfen einem eben wegzukommen, hinzukommen zu fragen, was ist dann etwas, was hier jemand in den Ideenkohl reinfängt, eigentlich interessant? Wie und nicht sich drum zu schreiten,
46:00
ist jetzt dessen Lösung oder seine Lösung die richtige? Und da muss man halt tatsächlich manchmal ein bisschen Menschen mit ihren psychologischen Eigenheiten auf die Sprünge helfen. Aber tatsächlich ist es so, das kann man moderieren und selber dran teilnehmen und ich bin häufig sehr dominant, aber auch ich konnte in diesem Prozess, wo man immer wieder alles aufzahlt und neuen Fragen stellt, neu durch so eine Mühle dreht,
46:21
du kannst deine Lösungsidee, mit der du als Vendor zum Beispiel vorne reingehst, halt nicht durch diesen Prozess durchprügeln. Der bleibt so nicht bestehen, weil immer andere Leute das Ding alles wieder komplett auseinandernehmen, neu zusammensetzen, auseinandernehmen, neu zusammensetzen und wenn du als Vendor halt nicht in der Lage bist, mit so was mitzuspielen, dann fliegst du in den Prozess praktisch raus, weil du sagst, ich bin halt zu starr. So, die Vendorunabhängigkeit
46:41
für uns ist jetzt dadurch gegeben, dass wir es tatsächlich geschafft haben, das Design aufzubauen, was komplett unabhängig von Vendor Features ist. Wir nutzen bei Cumulus hier und da jetzt ein, zwei Sachen, die im Prinzip ein offener Standard sind, wo jetzt aber ein so genannter Reverse Vendor Login drin ist, nämlich Cumulus hat dieses BGP unnumbered und es ist ein offener Standard und alle anderen haben gesagt, wir implementieren
47:00
den offenen Standard nicht, damit wir uns von der Cumulus abgrenzen können und die das nicht als Standard durchsetzen können. Danke auch. Und aber das Open Networking hilft natürlich, das eignet sich häufig stärker, solche kleinteiligen Entscheidungen zu treffen, um zu gucken, wie funktioniert das eigentlich überhaupt alles und die Diska-Aggressionen sind natürlich auch cool, um dann einfach in den Laden zu gehen, sagen wir, das geht, hätte ich jetzt gerne dreimal und ich will jetzt sicher fünfmal drüber reden,
47:21
was das eigentlich kostet. So, ich hoffe, die 40 Minuten mit etwas Druck drauf haben euch Spaß gemacht. Ich bin jetzt gern für Fragen zu haben. Ich würde den Max bitten, weil ich im Screenshare hier nicht alles gleichzeitig jonglieren kann, vielleicht mich mit den Fragen zu interviewen, dann haben auch die Leute, die nachher im Video zuhören die Chance,
47:40
die Fragen auch im Audio zu haben. Genau, danke schön. Ich habe euch gerade alle frei gegeben und gerade noch einen Link gepostet, wie ihr rejoinen könnt, damit ihr akustisch Fragen stellt, wenn ihr das wollt. Alternativ könnt ihr natürlich eure Fragen auch gerne in den Chat schreiben, dann lese ich die vor, wie ihr wollt.
48:03
Jedenfalls müssen Leute gerade mal rejoinen. Wir haben ja Zeit. Genau, wir haben Zeit. Ich finde das nach wie vor sehr spannend. Es hat ja jetzt knapp zwei Jahre gedauert, dieser Prozess bisher. 2018 irgendwann angefangen.
48:21
Ich glaube, Nacht hätte ich noch direkt. Und ich fand das auch sehr spannend, weil du eine komplett andere Herangehensweise an den Tag gelegt hast, als ich die kannte. Also insofern habe ich da auch viel beigelernt, gerade bei dem organisatorischen Teil. Und ja, du hast mir das zwar nicht vorgeworfen, wie du sagst, aber ich habe natürlich eine grüne Wieselösung
48:40
erst mal am Whiteboard zurechtgemalt. Ich habe ja mitgebracht. Ja, ja, das stimmt. Aber du musst da ja auch irgendwie hinkommen. Genau. Deswegen, die Kritik ist auch nicht das vorzuwerfen. Es ist mehr ein, als jemand, der extra draufschaut, hast du im Prinzip ja keine Chance, weil es gibt im Komplexen so auch einen Spruch, Wissen ist nur dann verfügbar,
49:01
wenn man es einsetzt. Das heißt, auch wenn ich mich mit dir oder mit jemand anderes halt an den Tisch setze und Dinge tue, dann kann ich nicht alle Fälle, die mir sonst kommen, wenn ich irgendwie mal nachts drüber nachdenke oder mit, ah, bei dem Ticket hat man diesen einen Fall, die kann man nicht komplett durchnummerieren. Und wenn man glaubt, man kann das, dann hat man später das Problem, dass man sich gerne eine Lösung zusammengebaut hat,
49:22
die irgendwo eine Entscheidung hatte, okay, hier machen wir einen Hoppen Cut, das da akzeptieren wir, alles geht nicht. Und dann findest du ein halbes Jahr später das eine Ding, was du eigentlich hättest finden müssen. Oder, wenn man abends im Bett liegt und noch Schäfchen zählt, haben wir keine Zeit. Genau. Eine Frage gibt es im Chat. Wie ist die Stabilität der FS.com-Switche
49:41
beziehungsweise von Cumulus? Genau. Die FS.com-Switches, die haben sie jetzt ja noch nicht so lange im Einsatz. Die S5000 irgendwas, ich geh mal schnell auf dieses Ding, die S3100, also keiner von denen hat bisher irgendwas an Problemen gehabt. Wir hatten einen,
50:00
da ist ein Netzteil mit einem Sensor dead on arrival ausgeliefert worden. Die haben es uns aber komplett durchgetauscht. Also beide Netzteile dann auch auf einmal. Ich glaube, der eine Wärmesensor ist immer ausgefallen oder so. Das Interessante ist, dass die 10G-Cumulus-Switches von FS.com in Wirklichkeit Edgecore Action sind, die noch nicht mal rebrandet, sondern nur debrandet sind. Und wenn man die dann intern im DMI-Decode anguckt,
50:21
dann steht da die Originalbezeichnung von dem Action drinnen. Außer, dass sie halt, ich glaube, nur zwei Drittel oder die Hälfte von dem kosten, was sie beim Acton-Server-Kauf kosten. Und was man bei FS halt immer berücksichtigen muss, ist, gehe davon aus, dass er sofort lahm ist. Also für die Netzteile habe ich halt zwei Wochen gebraucht
50:41
oder so. Deswegen haben wir uns halt gesagt, naja, wir stellen da einen kompletten Hot-Spare hin. Das kann ich halt auch machen, wenn mich so ein 10G-Switch, inklusive der Cumulus-Lizenz für fünf Jahre, halt 5.000 Euro kostet. Da kann ich mich mit dem Zeug halt bewerfen. Ich glaube, bei der Arista waren wir zum Schluss bei 15.000 oder 16.000 pro Gerät. Und da war noch unklar,
51:00
ob da alle Lizenzen drin sind, die wir brauchen. Und wir hatten noch kein Labor-Equipment. Es war so, ja. Und deswegen, also bei denen und gehen wir geistig halt auf drauf da. Und ich habe die auch durchgetestet, weil wir ja momentan noch Kupfer fahren. Wir haben so Kupfer-10Gig-SFP-Module drin. Und da war dann extra die Frage von, ja, wie viele sind eigentlich da supportet, nämlich wie mit den Slack-Leuten, die, also bei Cumulus
51:21
sind die Entwickler im Slack und ansprechbar. Das ist echt gut. Und die haben dann gemeint, naja, für das Gerät gibt es von Acton die Aussage, der kann gar keine von den Modulen. Und Fs.com hat gesagt, du kannst das vollstoppen damit. Das war so einmal so alles oder nichts. Und ich habe mich dann hingesetzt und hab tatsächlich mal so einen Paketbeschleuniger vollgestoppt, 48 10G-Module rein. Dann guckst du, wie die Stromaufnahme ist,
51:41
wie die Wärmeentwicklung ist. Dann hat das Ding drei Tage auf Volllast, also 10 Gig Packet Forwarding da einmal vorne rein, hinten wieder raus. Und ja, die haben dann irgendwie 60 Grad gehabt, die SFP-Module. Das hat sich jetzt aber auch nicht gestört. Ein, zwei Dead-On-Arrivals hatte ich bei denen. Die haben wir auch rausgetauscht gekriegt. Und ansonsten lief der eine Woche
52:00
unter Volllast, ohne irgendwie mit der Wimper zu zucken, war auch von der Stromaufnahme vom Netzteil noch weit weg. Also da machen wir uns jetzt wenig Platte, wobei wir jetzt halt sukzessive auch dann wechseln und sagen, ok, neue Server kommen dann halt immer mit den Melanox nichts, wo dann halt Last reinkommt und dann dünnen wir die Kupferteile langsam aus.
52:21
Ja. Was ich FS.com noch zu guterhalten wollen würde, bei den zwei Wochen Support, ist gerade mal die globale Gesamtsituation. Die dürfte durchaus einen Einfluss haben. Ich habe vor anderen Quellen gehört, dass FS.com Bestellungen gerade relativ lange dauern, weil die wohl irgendwie ein Quotum haben. Zoll, Export, Import. Richtig, das ist der DHL. Also das ist FedEx.
52:41
Das ging uns auch so. Wir haben eine Lieferung, hat glaube ich 4-5 Wochen gedauert. Und deswegen, aber da lohnt sich auch, dass wir dann halt da kommen, wenn du aus dem Komplexen kommst und dann irgendwann mal so Grundsatzentscheidung kriegst, wie wir Stellenster Hotspäher sind. Das lohnt sich dann halt auch für solche Sachen wie eine Pandemie. Und die, weil wir haben natürlich dann als Netzteil das Defektor erst mal durchgetauscht von,
53:02
ok, da war jetzt der Produktivswitch betroffen. Dann haben wir dann dann kommt halt das Netzteil in den Standby-Switch und das andere nach da oben ist erstmal gut. Und tatsächlich ist es so, wie war das? FedEx hat aus China, aus Shenzhen einen Limit von, ich glaube, einer Dreivierteltonne pro Tag pro Versender. Das heißt,
53:22
FS kann jeden Tag eine Dreivierteltonne Equipment verschicken, aus China. Und als wir bestellt hatten, waren das halt schon so 300 Kilo. Das heißt, wenn da noch 10 andere Leute bestellen, dann dauert das jetzt eine Weile. So ist halt. Einige Sachen hat FS halt in Deutschland auf Lager. Wobei bei mir die zwei Wochen
53:41
mit dem Wechsel von Netzteilen tatsächlich eher das Problem war, dass deren Supporter halt so einmal pro Tag antworten. Da schickst du halt ein E-Mail und dann kommt eine Antwort und dann schickst du wieder eine E-Mail und dann gibt's die nächste, aber die nächste ist sowieso, ja. Da muss man aber dazusagen, dass Cumulus auch noch die Aussage hat, wenn du ein komplexeres Problem hast, jetzt nicht Hardware-Sensor kaputt, sondern irgendwas mit, hier ist was fischi, ist das der Software,
54:00
da hat wer dann sagt, Cumulus explizit, machen ein Support-Ticket auf, das kannst du auch noch in den Chat machen, wenn du willst, und sie verhandeln dann das RMA selber mit dem Hersteller. Das heißt, die haben halt mit ihren Hardware, mit den Support von ihnen gelisteten, in der Hardware-Kompetenz gelisteten Geräten, haben sie die Aussage von, komm zu uns und wir prügeln das RMA
54:21
beim Hersteller für dich durch, wenn wir uns sicher sind, dass das ein Hardware-Problem ist. Das hab ich noch nicht gemacht, aber das ist halt auch noch ein spannende Kombi gerade für die Fälle mit, ist das jetzt ein Hardware oder ist das ein Hardware-Problem, da waren wir jetzt noch nicht drin. Aber das ist auch erstmal ein ganz interessanter Ansatz, gerade für diese Konstellation aus, du hast da zwei Hersteller, mit denen du reden musst.
54:40
Danke, nächste Frage aus dem Chat, hat man negativ gemerkt, dass Nvidia Cumulus kauft? Noch nicht. Das erinnert mich aber halt, als das passiert war, ich hab, ich mach auch so ein Spruch, wenn ich ein Hersteller, also vielleicht solltet ihr das Gegenteil tun von dem, was ich mache, weil meine Leidenshistorie in den letzten drei Generationen, so im Sinne von, wir haben mal ProCov gekauft,
55:01
als wir damit happy waren, hat HP dann 3.com gekauft und danach war die ganze Produktpalette für ein Eimer und alles hat sich zerlegt. Und als wir die Brocade gekauft hatten, hat nach einem halben Jahr Xtreme die Brocade gekauft und gerade als wir die Cumulus dann gekauft haben, hat drei Monate später Nvidia Cumulus gekauft. Das heißt, ich hab irgendwie
55:20
so ein Händchen dafür, Dinge zu kaufen, die dann irgendjemand anderes kaufen, kaputt macht. Die Story dreht sich bei Nvidia mit Cumulus, es haufte sich darum, dass Nvidia gleichzeitig Melanox gekauft hat. Und Melanox ist einer, eine von den supportierten Plattformen von der Cumulus und gerade halt auch die High-End-Lösung. Was ich bei den Melanox Switches interessant finde,
55:41
ist, die haben Switches mit weniger Ports. Ihr habt ja gesehen, dass wir, um die Portdichte und die Auslastung hochzuhalten, haben wir gesagt, wir machen dieses Middle-of-roading. Bei der Melanox gibt es noch die Idee von diesen halbreiten Switches. Das heißt, wenn du dann sagst, ich mach Top-of-rack, dann kannst du über eine HE2 geteintes Switches hinlegen, die geteinte Netzzeile
56:00
und alles haben, für die Relentanz. Dann hat jeder nur noch 16 Ports, glaube ich, oder so. Und dann kannst du das halt wieder in Top-of-rack spielen. Das Problem ist dann aber, dass dann proportional der Lizenzpreis für die Leaf-Switches bei Cumulus teurer wird pro Port, weil die Lizenzen halt immer nur für komplette Switches gelten und denen ist egal, wie viele Ports drauf sind.
56:20
Die haben keine halber Leaf-Lizenz. Das ist da so ein bisschen... Und jetzt ist die große Frage, die auch im Chat alle Woche wieder irgendwie ankommt, wieder neu mit der Frage von, wird NVIDIA weiter Broadcom-basierte Switches unterstützen? Meine Hoffnung ist, ja, werden sie, weil NVIDIA explizit sagt, dass ihre Strategie ist,
56:41
sie wollen ein Komponenten-Zulieferer sein und nicht ein Lösungsanbieter. Wenn NVIDIA sagen würde, ich will hier der Lösungsanbieter für Datacenter-Netzwerk sein, dann würde ich erwarten, dass sie stärker in die Kerbe hauen, wo sie sagen, so, jetzt kaufst du bitte das Cumulus-Ding und die Hardware von Bellanox und dann ist es irgendwie alles gut. Sondern ich würde jetzt eher erwarten,
57:01
dass sie sagen, na ja, es sollen halt Komponenten sein. Komponenten bedeutet für mich, die müssen rekombinierbar sein, ich muss die Auswahl haben, auf unterschiedlichen Ebenen unterschiedliche Dinge zu tun und es ist nun mal ein strategisches Investor und ein offenes System, wie ein Cumulus zu kaufen und dann halt zu sagen, ich habe für ein Brett zwar das komplette Portfolio, aber für unterschiedliche Einsatzzwecke, also Hardware und Software.
57:20
Plus, sie wollen explizit auch sagen, na ja, für den lizenzfreien Einsatz in Laboren kannst du dir auch überlegen, ob du dann zum Beispiel Sonic einsetzt. Das heißt, an der Stelle müssen sie im Prinzip auch gucken, dass sie sich entsprechend positionieren, um zu sagen, ok, du kaufst auf der einen Seite Hardware mit Sonic und auf der anderen Seite mit Cumulus und das muss jetzt irgendwie halt vergleichbar sein. Da habe ich wirklich die Hoffnung,
57:42
dass sie die Stärken, weswegen sie es gekauft haben, wirklich auch nutzen. Zumal auf Melanox in Anbieter sozusagen auf unseren Geräten läuft auch mehr. Also, du kannst auf den Melanoxen, die haben das Onyx, die haben das Cumulus, die haben glaube ich auch Sonic Support. Da muss man mal gucken. Was bei Sonic halt interessant wird, ist die Frage, wie dann dieses Broadcom Licensing
58:00
mit den Blocks aussieht. Das habe ich mir noch nicht angeguckt, aber das ist gerade so das Play, was ich sehe und wir sind jetzt erst glaube ich das erste Portal her ein bisschen mehr, dass dieser Kauf da war und aktuell ruckeln ein paar so typische Sachen, was die Integration angeht zwischen NVIDIA und Cumulus im Sinne von die Räume ein paar von diesen
58:20
Support- und Foren-Systemen auf, aber momentan eher in einer noch ganz verträglichen Version, in der Slack existiert und die Leute reden mit einem. Insofern, das kann man jetzt erstmal nur abwarten. Mein persönlicher Track-Record sagt, ich kann auf deine Seite kaputt gehen. Ich wäre hier jetzt tatsächlich mal vorsichtig optimistisch.
58:42
Ich habe vor einer Weile bei einem Powerpoint Waterboarding bei Dell einen NVIDIA-Vortrag gesehen. Zu viel Machine Learning, AI etc. Wo sie auch viele Netzwerkthemen haben. Also die machen ja zum Beispiel autonomes Fahren, unter anderem haben die relativ viele Finger drin. Ich könnte mir vorstellen, dass der Move einfach nur war,
59:00
ok, Melanox baut geile Hardware, Cumulus finden wir cool. Das soll mal weitergehen und vielleicht demnächst unter irgendeinem großen Branding, dass man dann einen Schrank zusammen an Hardware mit, was weiß ich denn, ein Dell Isilon, NVIDIA, dicke Grafikkarten und Compute-Hobel und Netzwerkart oder sowas. Also ich lege die Hoffnung, dass das kein negativer Kauf war.
59:22
Es wird wohl gemunkelt, dass die Melanox-Leute, ich habe das aus keiner vertrauenswürdigen Quelle, das ist so ein paar Stellen hinhergeflogen mal, das Melanox für den Deal, um zu NVIDIA zu gehen, zur Bedingung gemacht hat, dass sie bitte auch Cumulus kaufen. Das muss wohl wirklich von Melanox das Ding gewesen sein,
59:41
von wenn ihr uns schon kauft, dann bitte auch Cumulus. Das finde ich ganz spannend. Und im Prinzip sind die Aspekte, die sie sich ja zusammen gekauft haben, ja eben so wie du es gerade von dem Dell Ding berichtet hast, genau das sie wollen sich als Komponenten-Anbieter positionieren mit einem Portfolio, was ich habe auf der einen Seite gut kombiniert, aber auch gut separat.
01:00:00
abverkaufbar ist und das würden sie im Prinzip komplett kaputt machen. Zumal Kumbus ja auch tatsächlich von Open Source, die leben den Open-Source-Kram wirklich. Das muss man ihnen lassen. Dieses ganze Thema, ich mach jetzt halt das, wir planen ja, dass wir das BGP-VPN auf den Post terminieren und nur übergangsweise nur für Einzellösungen auf dem Switch, also um zum Beispiel die Altkunden da anzubinden.
01:00:25
Und hab aber dann, ich kann ja halt, wie heißt der, den FRR, also den Routing-Damen von Kumbulus, den kann ich mir halt ohne weitere Lizenz einfach als normale Open-Source-Software halt auf den Post packen und muss nicht um Erlaubnis fragen, dass ich jetzt Routing to the Host darf. Der Switch kann BGP-VPN und es gibt zwar dann spezielles Support-Pack,
01:00:46
dann kannst du dir nochmal ein Stück Software ziehen, um zu sagen, jetzt hast du hier irgendwie die kommerzielle Version von Routing to the Host, aber es ist halt auch komplett supportet und ich guck keiner komisch an, wenn du sagst, ich ziehe mir jetzt hier die Open-Source-Variante vom FRR, tacken die auf mein Lüx drauf und spiel dann halt Routing to the Host mit der Open-Source-Version und sie sagen nicht,
01:01:02
jetzt ist hier das Support zu Ende. Das sind ja sogar die Kumbulus-Leute selbst, die in dem Open-Source-FRR den ganzen Kram implementiert haben und das ganze EVPN-Zeug kommt von den Kumbulus-Entwicklern. Ja, ja. Und es ist wirklich extrem angenehm, auch dass ich halt, ich hab da ein bisschen aufgehört, das ist ja ein debilient Ding, ich hab an ein paar Stellen probiert dann zu sagen, wir haben so bestimmte Dinge,
01:01:22
zum Beispiel nehmen wir halt Prometheus, Grafana für die Telemetrie und da wird endlich das SNMP los, ich bin's auch losgeworden und jetzt tacker ich da halt einen Telegraf auf die Kiste drauf und krieg da meine 5-Sekunden-genaue Telemetrie von dem Zeug halt raus. Oder ich kann meinen Senso auf
01:01:41
dieses Linux draufjagen, wobei ich das nicht mache, der Senso Agent ist ein bisschen doof, da wollte ich nicht zu viel in dem Linux rumbasteln. Jetzt mach ich's halt so, da hab ich halt die Plugins installiert und dann macht mein Senso, ein anderer Senso Agent einfach bloß SSHs auf und ruft da die Nuggets Plugins auf und sammelt die Daten ein. Aber das ist jetzt halt das Schöne, dass das alles in Eins ist. Wir haben jetzt auch ein ganz
01:02:01
normales Deployment-Werkzeug, also wir haben so ein eigenes internes, wo wir jetzt, so wie wir in einem ganz normalen Endkundendienst deployen, deployen wir jetzt auch die Config, auch die Switches drauf. Das kommt jetzt auch dazu, dass das halt irgendwie nur wirklich ein blödes, dummes Linux ist. Und manche verstehen das aber falsch, aber wenn ich Sachen, wenn ich sagen, Dinge sind dumm, dann find ich das total cool, weil es erwartete Fehler Moody hat und mir weniger überraschend in den
01:02:24
Rücken fällt. Im Chat schreibt gerade jemand Broadcom Support für Cumulus Linux nicht mehr, das heißt der Support für Broadcom Asics ist derzeit ungewiss. Da würde ich gerne irgendwie eine Quelle für haben. Ich auch, einerseits ist das natürlich schade,
01:02:43
andererseits baut Broadcom auch nicht unbedingt immer die besten Chips. Nee, aber es geht, also bei Disaggregation in der Stelle geht es ja stark um das Thema Konkurrenz, Konkurrenz befördert Innovationen und so. Da wäre ich jetzt sehr vorsichtig,
01:03:03
das würde ich gerne fact checken wollen, weil ich beobachte den Slack-Chat heute genau und da ist es bisher ständig nachgefragt und es wurde bisher nicht bestätigt. Zumal es ja auch noch eine ganze Reihe anderer Asics gibt, die potenziell interessant sein könnten,
01:03:21
Ja, zum Teil auch mit weniger Bugs. Deswegen haben wir so einen alten gekauft, den Trident 2 Plus ist halt abgehangen, da weiß man was los ist. Würdest du fs.com-Switch wieder kaufen? Das ist auch eine Frage, ob der CLI, das ist ja so ein bisschen Cisco-esque, aber halt auch irgendwie wieder nicht.
01:03:40
Ja, die CLI ist furchtbar, also wenn ich mehr machen würde als sozusagen ein Layer 2, da liegen nur ein paar VLANs irgendwie auf ein paar Pots drauf, das würde ich glaube ich dann nicht machen. Es geht schon damit los, die eine Anstrengung, die es lustig macht, ist dieses Externe Management Interface, das heißt bei denen intern das Craft Interface und die Doku ist Scheiße und
01:04:03
dann muss man immer herausfinden, dass das Craft Interface fürs Management Zugang kein DHCP kann, aber wenn du ein Front and Port dafür opferst und das VLAN 1 zum Management erklärst, dann kannst du aufs SWI und DHCP drauflegen, sowas ist so ein bisschen so, oh Leute, ich wollte ja absichtlich jetzt auch im Managementnetz die normalen Switches, die sind ja auch
01:04:23
alle am Managementnetz angebunden, aber immer nur mit ihren externen Management Ports, weil du ansonsten, wenn du die halt an die Frontend Ports dran tackerst, hast du immer das Problem, dass das ganze Spanning-Kriegel wieder um die Ecke kommt und dir Sachen ausschaltet. Ja, also wie gesagt, das ist jetzt, das Gerät, das du da gekauft hast, ist ein 48 Port 1G Kupfer plus 4x 10G SFP plus
01:04:47
und das für irgendwie 390 Euro oder sowas, das kriegst du halt so nicht und für, ich werf das mal irgendwo rein, ist das schon cool, wir haben ansonsten halt in unserem Laborequipment auch noch Pro Curves rumfliegen, wir hatten jetzt diesen einen Bug, den wollten wir mal noch
01:05:01
nachstellen, Max, wo ich ein ganz skurrile Kombi hatte, wo per IPv6 Pakete bei uns aus Versehen aufs falsche Interface gejagt wurden und der Switch dann angefangen hat, ein Paket, dessen Absendeadresse er sozusagen nicht kennt, also die IP nicht zuordnen kann, angefangen hat auf alle Sachen, auf alle Ports zu
01:05:20
flatten, das war so ein etwas skurriler Bug, den wir jetzt umgehen konnten, da wollten wir, das wollten wir mal noch mal im Pro Curve nachstellen. Ich würde sagen, wenn wir die jetzt in der Verkaufsphase sind, trotzdem, dass die jetzt aktuelle Firmware haben, musst du dir halt diesen typischen, da geht nur 3D SCBC und so ein Zeug drauf, das ist halt grottig,
01:05:42
aber wenn man damit leben kann, die Teile haben ja sogar redundante Netzteile, sind zwar nicht hotspotbar, aber die haben halt auch noch redundante Netzteile, in dieser Preisklasse, irgendein Tod musst du sterben, ich hab halt ansonsten, wenn ich, glaube ich, Pro Curve kaufe, hätte ich wollen, diese Übergangs-Switches mit 10G abgelinkt, dann wäre ich da auch schon wieder
01:06:01
anderthalbtausend, zweitausend Euro los geworden. Choose your poison. Irgendwas ist ja immer. Ich glaube, das ist halt, wenn man so mit, da mache ich mir die Schleife zu, wenn du dich sehr detailliert mit den Sachen auseinandersetzt und deine Trade-offs auch detailliert schließt
01:06:21
und weißt, warum du das machst, dann kannst du halt auch, auch ein guter Freund von mir, der macht dann für die HP so Tier-1 Rechenzentren mit irgendwie, unter 5000 Rechs fange ich nicht an zu designen, der hat mich halt auch eingeschaut und gesagt, auch in so einer für ihn Besen-Schrank-Situation, krieg dein Design detailliert auf die Reihe, dann kannst du auch
01:06:42
in Brotkasten als Switch verwenden. Und das ist im Prinzip so für uns das Thema, wir wollen halt auch noch andere Dinge tun und wollen nicht irgendeine Lösung haben, weil wir ständig Netzwerk machen müssen. Ich sag bloß, die 11 Commandments for networking ist Nummer eins. It has to work. Und das geht halt, glaube ich, am besten, wenn man sich Sachen hinstellt,
01:07:01
die einfach das tun, was sie sollen, wo du nicht schlecht reingreifen musst. Meinst du die 12 networking truths? 12, Entschuldigung. Die weiße. Die weiße. Ja, die zwei Programmierwahrheiten oft bei One-Errors Dinge benennen und Casuals lernen. Genau. Noch eine Frage, habt ihr euch Open-Wi-Switch oder ähnliches angesehen? Ich kann für mich sagen nein, hast du?
01:07:21
Ich hatte sozusagen konzeptionell, das war damals in der Phase, wo ich so Open-Floorzeug angeguckt hatte, es gibt einen extrem guten, es gibt einen sehr guten Podcast von den, wie heißt der? Eine Netzwerkpodcaste hier. Schnell nachschlagen. Den kann ich empfehlen.
01:07:41
Packet Pushers mit dem Erfinder vom Open-Wi-Switch. Also Open-Wi-Switch ist ja im Prinzip die Software, wo der vmware und das Ganze ist ein Projekt, was intensiv aus den Open-Floor-Sachen herausgefallen war.
01:08:00
Der Typ, der das Open-Floor erfunden hat, war früher Militär-CIA und die hatten sozusagen, wollten dieses Problem lösen von sie müssen irgendwo im Irak jetzt schnell ein Netzwerk hochziehen für 5000 Leute innerhalb von sieben Tagen und müssen ständig sich neue Security-Polices einverlassen und müssen aber jetzt gekippt und aus dem Schrank zerren, was sie nicht vorher
01:08:21
ordern können und wollten deswegen in der Lage sein, sich so Security-Polices und Protokollkram auf sehr niedriger Ebene selber zurechtzuschneiden und eben im Prinzip die ASICs per Software außerhalb vom Switch zu programmieren. Und da ist Open-Floor rausgefallen und da ist Open-Wi-Switch rausgefallen und das ist im Prinzip das Produkt, was er an die vmware dann verkauft hatte und Open-Wi-Switch
01:08:41
ist natürlich auch eine Variante dazwischen. Und deswegen ist Open-Wi-Switch so ein interessantes Mittelding von der Konzeption und wir werden es nicht brauchen. Wir kommen im Prinzip nachher mit VLAN-Aware-Bridges aus, wo wir halt VXLAN-Ports in so der Software-Bridge
01:09:01
reinjagen und die wiederum ist ja die Software, die die Cumulus in Linux-Körne mit beigetragen hat. Also auch da sieht man, dass die Cumulus, was das angeht, eigentlich ganz gut agiert und das Open-Wi-Switch kann das sozusagen auf eigenen Protokollen dann ja ein bisschen abstrahieren, aber das werden wir halt nicht brauchen. Deswegen ist das ein Bauteil, das ich dann rauslassen wollte, weil ich habe halt lieber
01:09:21
Bauteile in der Hand, die policyfrei arbeiten und das Open-Wi-Switch ist an der Stelle aus meiner Perspektive eher so ein schon framework-artiger Ansatz, wo ich mich halt den Policies ausliefern muss. Scheint, das ist ein bisschen so ein Mittelding. Der hat nicht so harte Policies an vielen Stellen, aber das sitzt an einer falschen Architekturstelle für uns.
01:09:46
Okay, gibt es sonst noch Fragen? Sonst würde ich sagen, haben wir schon ein bisschen überzogen. Das macht aber nichts. Dann würde ich sagen, sind
01:10:01
wir fertig, oder? Ich glaube auch. Dankeschön. Danke für eure Aufmerksamkeit. Danke für die Fragen. Wenn ich Fragen kriege, ist das für mich immer ein gutes Teilchen. Ich hoffe, für euch war es sowohl unterhaltsam als auch lehrsam.