We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

#Nackt im Netz - Wie Unternehmen intimste Daten sammeln, tauschen und verkaufen. Und was das für uns bedeutet

00:00

Formal Metadata

Title
#Nackt im Netz - Wie Unternehmen intimste Daten sammeln, tauschen und verkaufen. Und was das für uns bedeutet
Title of Series
Number of Parts
234
Author
License
CC Attribution - ShareAlike 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor and the work or content is shared also in adapted form only under the conditions of this
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Was könnte man machen, wenn man Zugriff auf dein Persönlichstes hätte? Auf das Intimste, was du hast? Ziemlich viel. Was genau, haben wir in einer monatelangen Recherche herausgefunden. Für ein Experiment haben wir unzählige Firmen unter falschem Namen kontaktiert und am Ende deine persönlichen Daten erhalten. Deine „Click-Stream Daten“, jede URL, jede Seite, die du im Internet angesurft hast.
18
166
Data analysisComputer animationJSONXMLUMLMeeting/Interview
Meeting/Interview
Meeting/Interview
HTMLConfiguration spaceApache <Programm>WebsiteInformationWeb browserSource code
World Wide WebInformationWeb browserMeeting/InterviewXMLComputer animation
Zusammenhang <Mathematik>Zusammenhang <Mathematik>Meeting/InterviewLecture/Conference
Meeting/Interview
InformationMeeting/Interview
E-commerceComputing platformFacebookGoogleRaw image format
Universe (mathematics)TOUR <Programm>CONSULTANT <Datenbank>DataflowWebsiteData analysisComputer animationMeeting/Interview
GoogleTimestampIP addressEmailComputerbetrugInternetkriminalitätInformationQuery languageZugriffMoment (mathematics)Uniform resource locatorGoogleMeeting/InterviewSource codeXML
Web browserPlug-in (computing)Lecture/ConferenceMeeting/Interview
Mobile WebPlug-in (computing)WEBExpert systemBrowsingWebsiteComputer animation
BlogMobile WebComputer scienceRow (database)Web browserPlug-in (computing)Computer animationMeeting/Interview
DesktopEPROMWeb browserInternetInformationInternetdienstUniformer RaumMobile WebInverter (logic gate)Term (mathematics)ACCESS <Programm>Spur <Datentechnik>TOUR <Programm>HTTP cookieWebsiteComputing platformMathematical analysisImage registrationmakeInformationWebsiteTimestampUpdateXML
Mobile WebInformationMeeting/InterviewLecture/Conference
Attribute grammarRow (database)IP addressInformationSeries (mathematics)PseudonymizationMeeting/Interview
IP addressPseudonymizationRow (database)InformationMeeting/Interview
Uniform resource locatorTwitterUniform resource locatorRow (database)Computer animationLecture/Conference
Uniform resource locatorXINGLecture/ConferenceComputer animationProgram flowchart
Row (database)Domain nameMeeting/InterviewComputer animation
WalkthroughSingle-precision floating-point formatWebsitePredictionInformationRow (database)Meeting/InterviewComputer animationLecture/Conference
Row (database)TelecommunicationRow (database)WebsiteDomain nameUniform resource locatorInformationMeeting/InterviewComputer animation
TwitterSpring (hydrology)Domain nameUniform resource locatorRow (database)Lecture/ConferenceMeeting/Interview
AlgorithmTwitterAPIOracle <Marke>User profileWebsiteArmInformationRow (database)Uniform resource locatorDomain nameComputer animation
Mono-FrameworkDefault (computer science)InformationRow (database)Set (mathematics)Computer animationMeeting/Interview
GoogleGeodesicVideodatGoogleLecture/ConferenceMeeting/Interview
Uniform resource locatorCoordinate systemGoogleGoogle MapsCoin <Programmiersprache>SpeciesGoogle MapsCoordinate systemGoogleBewertung <Mathematik>FacebookComputer animationLecture/Conference
Row (database)Uniform resource locator
AlgorithmUser profileInformationPlug-in (computing)Eigenvalues and eigenvectorsZahlRow (database)Attribute grammarWebsiteMeeting/InterviewComputer animationLecture/Conference
Row (database)PseudonymizationInformation
HTTPBlogMIKE <Programm>IP addressSearch engine (computing)Client (computing)Video trackingPlug-in (computing)Proxy serverService (economics)Tor <Netzwerk>Meeting/InterviewComputer animationLecture/Conference
Blu-ray DiscSpring (hydrology)Expert systemMeeting/InterviewComputer animationLecture/Conference
PseudonymizationLecture/ConferenceMeeting/Interview
HTML
CombinatoricsExpert systemInformationLecture/ConferenceMeeting/Interview
Lecture/ConferenceMeeting/Interview
Lecture/ConferenceMeeting/Interview
Plug-in (computing)Meeting/InterviewLecture/Conference
ArmNetscapePlug-in (computing)Graphical user interfaceMeeting/Interview
WebsiteLecture/ConferenceMeeting/Interview
Router (computing)WebsiteDomain nameInternetLecture/Conference
Attribute grammarWebsiteLecture/ConferenceMeeting/Interview
Presentation of a groupMeeting/InterviewLecture/Conference
WebsiteSystems <München>Lecture/ConferenceMeeting/Interview
Meeting/InterviewLecture/Conference
Direction (geometry)Meeting/Interview
Lecture/ConferenceComputer animation
Transcript: German(auto-generated)
Wir freuen uns sehr, dass wir hier sein dürfen.
Wie gesagt, ich bin Andreas, ich habe die Datenanalyse gemacht hierfür und übergebe jetzt erst mal an Svea, die den journalistischen Teil der Arbeit gemacht hat. Genau, und um gleich sozusagen reinzuspringen ins Thema ohne lange große Vorrede, hier sieht man einen der, wie ich finde, spektakuläreren Ausschnitte aus unserem Beitrag, den wir
draus gemacht haben, letztes Jahr November. Das ist die Bundestagsabgeordnete Valérie Wilms von den Grünen, die sitzt im Verkehrsausschuss. Und hören wir mal ganz kurz an, was sie in dem Beitrag unter anderem zu sagen hatte. Alles zu sehen, ne? Scheiße. Ja, kleine Reaktion vorab und ich möchte euch nicht vorenthalten, was wir ihr da
gezeigt haben. Ich bin damals in ihr Büro gekommen, um ihr ihre Daten zu übergeben, Daten, die ich bekommen hatte und das jetzt, wir gucken uns Ausschnitte davon an. Sie hat das erlaubt, dass ich das hier zeige. Da sieht man zum Beispiel, das geht so ganz profan los, erste Achter, sie ist
Frühaufsteherin, sechs Uhr morgens Banking und zwei Minuten später Banking. Was man so macht morgens, dann kommen viele Zeitungen, Medien und so geht das weiter. Das ist im Prinzip die Browser History von Valérie Wilms, die wir jetzt hier
sehen können. Ich scroll sozusagen mal durch. So sieht das dann aus. Im August macht man ja auch gerne seine Steuererklärung und im Prinzip jede einzelne URL, die ich ansurfe, ist hiermit enthalten.
Die ist irgendwie nicht gepixelt oder verschlüsselt. Das heißt, alle Informationen, die von der Webseite in die URL gehoben werden, finden sich dann auch in der Browser History wieder. Und hier kann man relativ gut sehen, im Prinzip jedes einzelne Formular ihrer Steuererklärung, das Valérie Wilms im August vergangenen Jahres
angesurft hat, aber sie natürlich nicht begeistert. Das sind Informationen, die sind unangenehm und vielleicht besten Fall noch peinlich, können aber auch für Politiker problematisch sein.
Auch ein Beispiel aus ihrer Browser History ist so was, weil was machen wir auch im Netz? Besuchen nach Informationen, vielleicht auch nach Rat. Und hier hat sie mal nach einem Medikament gesucht. Tebonin, das nutzt man so bei Abgeschlagenheit, Konzentrationsschwäche.
Auch darauf habe ich sie dann angesprochen in unserem Interview. Die Reaktion kurz anschauen. Ich weiß gar nicht, in welchem Zusammenhang ich diese Tebonin mir da reingeguckt habe. Ist nicht schön, so was nachträglich zu lesen. Vor allen Dingen verknüpft mit dem eigenen Namen, ne?
Genau. Kommen wir dazu, wenn wir da noch so gefunden haben, mit dem eigenen Namen. Das war nämlich, also zuckt sich im Prinzip durch die ganze Politik und auch durch viele Parteien. Das waren dann oft nicht die Personen selbst, sondern auch deren Büros und deren Mitarbeitern, was bei Politikern fast noch
interessanter ist, weil die Büros oft zu den Themen recherchieren, die die Politiker beschäftigen, weil die Ansprechpartner raussuchen. Hier Martin Häusling von den Grünen im Europaparlament. Den haben wir im Rahmen der Recherche auch getroffen. Da waren zum Beispiel bei ihm war extrem viel Reisedaten dabei und die sein Büro für ihn gemacht hatte.
Und das war sehr unangenehm, weil er sich dort auf diesen Reisen eben auch mit Leuten trifft, um sich um das Thema Lobbying zu unterhalten. Und genau solche Informationen eigentlich sind, die die Gegenseite sucht und wo dann Leute auch in Schwierigkeiten kommen können. Das Ganze zog sich im Prinzip bis hin ins Bundeskanzleramt aus dem Büro von Helge Braun, war auch ein Mitarbeiter betroffen.
Und natürlich die große Frage, woher kommen die Daten? Es gibt viele Unternehmen, die solche und ähnliche Daten sammeln. Die meisten Unternehmen benutzen diese Daten für ihre eigenen Zwecke. Das heißt, erstellen Analysen damit, bieten sowas
schönes an wie Facebook oder wie Google oder sie bereiten sie auf in großen Plattformen. Manche Unternehmen tauschen die Daten auch untereinander und nur sehr wenige verkaufen sie, weil das sind im Prinzip die Kronjuwelen. Das ist eigentlich das Wertvollste, das ist das, was die
Unternehmen auch ausmacht, diese Rohdaten. Dieser Teil dieser Branche hat uns deshalb besonders interessiert. Das sind alles Unternehmen, die im Prinzip versuchen, Daten zu generieren, Daten aufzukaufen. Und hier war meine Hoffnung besonders groß, dass wenn man mit
der richtigen Begründung anfragt, dass man da auch Daten bekommen kann. Die richtige Begründung, ja. Die richtige Begründung hieß Anna Rosenberg. Das war ich dann für ein paar Monate. Hatte sozusagen, arbeitete bei einem hippen Start-up.
Die Webseite war im Prinzip ein paar schöne Stockfotos und ein bisschen Text, so Buzzwords, so dass jeder dachte, diese Firma gibt es wirklich. Und eigentlich hatte die eben nur eine Mitarbeiterin. Das war also Anna Rosenberg, die eben dann einen Großteil dieser Firmen antelefoniert hat, angeschrieben hat und
eine gute Geschichte hatte, warum sie die Daten brauchte. Da hatten wir gesagt, wir machen eine große Analyse für einen großen, sehr zahlungskräftigen Kunden zum Thema, was Verbraucherkonsumenten interessiert. Eine Großdatenanalyse.
Und da bin ich tatsächlich so in engeren Kontakt gekommen mit einer Handvoll von Firmen am Ende dann. Und tatsächlich hat dann eine Firma uns auch die Zeit gegeben, ein kostenloses Probe-Abo zu bekommen, um uns mal anzufüttern und zu zeigen, was sie so im Petto
haben. Und genau, das waren dann drei Millionen deutsche Nutzer. Und das Ganze waren Clickstream-Daten von einem Monat. Ja, wer war noch in den Daten? Ach, wir haben dann mal nach Polizei geschaut. Haben dann da auch was gefunden.
Ja, ich habe da mal ein Video eingeschaltet. Ich kann das Video einmal kurz einstarten. Dann können wir einmal zusammen im Prinzip durchscrollen. Diese X habe ich jetzt eingefügt für den Vortrag. Das ist in Wirklichkeit sozusagen alles erhalten,
sodass man relativ genau weiß, was die Person im Prinzip jeden Tag, jede Sekunde, jede Stunde so tut. Und wenn man da durchgeht, sieht man dann, dass die Person sich anscheinend bei der deutschen Polizeigewerkschaft informiert, beim deutschen Beamtenbund. Also wird schon jemand in der Nähe von der Polizei sein. Dann gibt man mal so ein Suchwort ein wie
Ermittlungsverfahren. Und dann kommt zum Beispiel so was. Das ist eine Google Translate-Abfrage, die die Person anscheinend gemacht hat. Google Translate hebt auch alle Informationen, die ihr dort eingeht, in die URL. Und in dem Moment, wo sie in der URL sind, sind die Informationen, die sie in der URL haben, Und dann hat sie auch in diesem Datentopf gewesen, auf den wir damals Zugriff hatten.
Und so sieht es dann aus. Die X habe ich wieder eingefügt und auch Vornahme, Nachname hatte, die Personen sich gleich mit übersetzen lassen. Und dementsprechend wussten wir auch, wer das dann ist. Ja, wer hat sie ausgespäht? Wir haben dann einen Test gemacht mit einem der betroffenen Personen.
Und zwar relativ schnell klar anhand der Qualität der Daten, der Tiefe der Daten, dass es wahrscheinlich ein Add-on oder ein Browser-Plugin ist. Und wir haben dann einen Test gemacht mit einer Person, die im Prinzip, ich nenne es mal ein Opfer war. Und die hat dann sukzessive Add-ons aus ihrem Browser deinstalliert.
Ist dann irgendwann sozusagen aus diesem Probe-Topf, aus diesem Trial raus verschwunden. Und wir hatten dann eine Vermutung, nach dem quasi das letzte deinstalliert wurde, dass es möglicherweise dieses Plugin sein konnte. Das nennt sich Web of Trust. Ist ganz interessant, was die so legal machen.
Safe Web Search and Browsing war das. Also die gibt's ja auch immer noch. Und wir haben dann damals mit einem Experten zusammen einen Test gemacht. Mit Mike Kuckatz war das, der sich das im Prinzip noch mal in einem sauberen Browser installiert hat, getestet hat. Und wir konnten ihn dann in unserem
Datensatz wiederfinden, so dass wir bei dieser einen Sache eindeutig sicher sein konnten damals, dass es tatsächlich auch dieses Plugin ist, was diese Daten, die wir oben in den Browser eingeben, was diese Daten im Prinzip weitergibt. An der Stelle glaube ich ganz interessant ist natürlich, dann dürfen die das. Die haben ihre Privacy Policy
ein bisschen geupdatet im Dezember dann, also das war nach unserer Berichterstattung. Und die schreiben das da im Prinzip auch rein, steht auch da, also man stimmt dem nicht zu, aber die schreiben das schon rein, dass sie die Webseiten, die man besucht und in Zeitstempel noch ein paar mehr Informationen auch an dritte Parteien weitergeben.
Und dass sie aber sich große Mühe geben würden, diese Informationen auch zu deanonymisieren. Also das heißt, zu anonymisieren. Deanonymisiert haben wir sie dann. Aber was für ein schwieriges Unterfangen das ist und dazu kann Andreas
dann was sagen und wie einfach das ist, dann auch die Daten zu rekonstruieren. Das war dann so Andreas' Job. Genau, man kann sich natürlich jetzt fragen, warum ist es überhaupt möglich solche Daten zu deanonymisieren, also im Prinzip wieder eine Zuordnung zu einer gegebenen Person herzustellen. Das Verfahren, das wir eingesetzt haben, ist relativ simpel.
Ich habe hier mal eine kleine Illustration dazu. Wir hatten also auf der linken Seite einen anonymisierten Datensatz, der enthält verschiedene Attribute. Die kann man sich vorstellen wie Schubladen. Wir schieben Leute ja gerne in bestimmte Schubladen. Wir können sagen, Frau Müller ist zwischen 30 und 35 Jahre alt. Wenn das der Fall wäre bei der Person, wäre dann entsprechend das Attribut hier
gesetzt, ansonsten wäre es nicht gesetzt. Und so hätten wir in unserem Datensatz eine Reihe von anonymisierten Nutzerdaten mit interessanten Eigenschaften, die eine Firma beispielsweise für Marketingzwecke nutzen kann. Jetzt kann ich mir natürlich überlegen, Daten gibt es ja nicht nur von dieser einen Firma hier, sondern es gibt auch ganz viele öffentliche Daten oder andere Datensätze, die ich kaufen kann und wo vielleicht
solche Sachen drin sind wie der Name einer Person, also eine geschützte Eigenschaft, die ich in einem anonymen Datensatz eigentlich nie haben möchte. Deanonymisierung wird möglich, sobald ich in dem Datensatz, der mir hier aus öffentlichen Daten vorliegt, bestimmte Eigenschaften drin habe, die ich auch in meinem linken Datensatz finde. Das heißt, wenn ich jetzt rechts neben dem
Name noch eine Information über die Adresse oder über den Wohnort hätte und die Informationen auch in anonymisierter Form in den linken Datensatz eingeflossen sind, kann ich einfach mal schauen, welche Person oder welche Elemente aus diesem Datensatz stimmen beispielsweise mit diesem einen Eintrag hier auf der rechten Seite überein. Und wenn ich jetzt einen
Eintrag habe, also einen Nutzer, bei dem alle diese Eigenschaften sowohl im rechten als auch im linken Datensatz erfüllt sind, dann kann ich eigentlich mit relativ hoher Wahrscheinlichkeit sagen, dass es schon vielleicht der gleiche Nutzer sein könnte, weil wenn der im gleichen Alter ist, vielleicht an der gleichen Adresse wohnt oder im gleichen Ort, die gleichen Interessen hat und
es sonst niemanden gibt, neben dem Datensatz, der genau diese Kombination hat, ist zumindest die Vermutung naheliegend, dass es ein Match sein könnte. Das heißt, da könnte ich dann hingehen und könnte noch mal schauen, habe ich vielleicht weitere Informationen, die diese Vermutung bestätigen können. Und das ist der Prozess, den man Deanonymisierung nennt, also mit externen Kontextinformationen einen Datensatz, der eigentlich anonym ist, wieder auf eine einzelne
Person zurückzuführen. In unserem Fall mussten wir gar nicht so viel Aufwand betreiben, weil die Daten sehr schlecht anonymisiert waren. Wir konnten in vielen Fällen einfach URLs benutzen, wie beispielsweise die Twitter Analytics Page hier, die nur dem eingelogten Twitter Nutzer zugänglich ist und auch glücklicherweise den
Nutzernamen in der URL enthält und konnten also einfach nach diesen URLs einen Datensatz schauen und wussten dann mit relativ vorher Wahrscheinlichkeit, okay, der Datensatz gehört zu diesem Twitter User und da ist natürlich oft auch der Name dabei, das heißt dann wussten wir auch den echten Namen der Person. Bei LinkedIn ist das ähnlich, da kann man sich beispielsweise die Profilseite anschauen und wenn man auch sein eigenes Profilfoto draufklickt als eingelogter
Nutzer, hängt Xing diesen kleinen Tag hier an die URL an und in dem man nach diesem Tag sucht in unseren Daten kann man also auch eine relativ sichere Zuordnung von dem eingelogten Benutzer auf diese Person vornehmen. Das heißt in dem Fall war es wirklich relativ simpel aufgrund dieser sehr schlecht
anonymisierten Daten die Nutzer wieder zu identifizieren. Man könnte sich aber natürlich auch vorstellen, dass man die Daten ein bisschen besser anonymisiert, dass man zum Beispiel die ganzen Angaben nach der Domain entfernt und also nur die Nutzer und die Domainnamen vielleicht in einem Datensatz speichert, was auch viele Anbieter beispielsweise in den USA jetzt mit
den Daten machen dürfen. Da stellt sich allerdings heraus, dass es auch Möglichkeiten gibt die Daten zu anonymisieren. Hier habe ich eine Publikation aus dem Jahr 2008, die das getan hat mit einem Datensatz, der von Netflix veröffentlicht wurde. Da waren also Filmbewertungen von einzelnen Nutzern drin, das heißt Nutzer A hat beispielsweise Filme A, B, C, D und E geschaut, hat die so und so bewertet und
der Datensatz wurde veröffentlicht mit dem Ziel, bessere Vorhersagen für Filmentfehlungen zu machen. Die Forscher sind jetzt hier hingegangen, haben sich öffentliche Informationen besorgt, in dem Fall von der IMDB, also es ist eine Webseite wo Leute Filme bewerten können und haben sich einfach angeschaut
Nutzer auf IMDB, welche Filme haben die bewertet und finde ich vielleicht in den Netflix-Datensatz auch Nutzer, die die gleichen Filme auf ähnliche Weise bewertet haben und haben dann über dieses Matching, das wir auch vorher schon mal erklärt haben, die Zuordnung hingekriegt von dem IMDB-Nutzer zu diesem angeblich vermeintlich anonymisierten Netflix-Nutzer.
Das heißt, es ist selbst mit guter Absicht nicht immer einfach Daten robust zu anonymisieren und eine Deanonymisierung auszuschließen. In dem Sinne können wir uns auch unseren Datensatz anschauen, da haben wir ca. 3 Milliarden URLs drin gehabt, die stammen von ungefähr 9 Millionen Webseiten und haben insgesamt 3 Millionen
Nutzer repräsentiert und jetzt können wir uns mal angucken, ob wir das gleiche Verfahren anwenden können, um Nutzer, die ihre Domain-Daten in dem Datensatz wieder zu identifizieren. Ich habe hier ein Beispiel, da habe ich einfach einen zufälligen Nutzer rausgezogen und habe mir die Domains angeschaut, die dieser sich
angeguckt hat. Und wir könnten jetzt anschauen, aus dem ursprünglichen kompletten Datensatz haben wir 1 Million Nutzer, die infrage kommen. Wir haben hier 3 Millionen Nutzer schon ein paar ausgeschlossen anhand Kriterien wie Anzahl der URLs, die drin sind im Datensatz beispielsweise. Das heißt, wir hätten hier 1 Million potenzielle Nutzer und wenn wir jetzt die erste Webseite nehmen, das ist GOG, das ist eine Gaming-
Webseite, dann reduziert das die Anzahl der Personen in dem Datensatz, die diese Webseite besucht haben, schon sehr extrem auf 15.000 Nutzer. Eine zweite Seite, die dieser Nutzer besucht hat, ist das Kundencenter von der Telekom. Wenn wir die Seite nehmen, dann gibt es in Kombination nur 360 Nutzer, 367 Nutzer, die beide Seiten besucht haben. Und wenn ich das Spiel jetzt noch zweimal mache,
hier mit der Sparda Bank beispielsweise und dem Handelsblatt, dann habe ich nur noch einen Nutzer in diesem Datensatz, der wirklich alle diese Seiten besucht hat. Das heißt, mit sehr wenigen Informationen, in dem Fall hier vier einzelnen Webseiten oder Domains, bin ich schon in der Lage, von einer Million Nutzer auf einen einzigen Nutzer die Anzahl der möglichen Matches zu
reduzieren. Aber funktioniert das überhaupt, dass man die Daten extrahiert aus öffentlichen Quellen? Da haben wir uns jetzt mal drei Beispiele angeschaut. Das erste ist natürlich Twitter. Ich meine, hier benutzen ja auch sehr viele Leute Twitter, um beispielsweise Links zu shareen oder interessante Mitteilungen zu teilen. Und was wir gemacht haben, ist einfach von der öffentlichen Twitter-Timeline uns URLs runterzuladen
von einem gegebenen User. Und dann anhand dieser URLs zu schauen, finden wir einen User in unserem Datensatz, der die gleichen Domains angesurft hat. Und hier rechts haben wir, wie gesagt, ein Beispiel, wo verschiedene URLs drin sind. Die haben wir extrahiert, haben sie dann verglichen. Und genau hier links ist die Liste von den URLs und rechts ist dann das Ergebnis. Also man sieht einfach,
wie viele Nutzer entsprechend hier keine von diesen Webseiten besucht haben. Eine, zwei, drei, vier, fünf, sechs oder sieben. Und man sieht schon hier rechts oben, es gibt genau einen Nutzer in dem Datensatz, der alle diese sieben Domains besucht hat. Und das ist genau der Nutzer, zu dem das Twitter-Profil gehört. Das heißt, dieses Verfahren funktioniert auch wirklich mit öffentlichen Informationen,
die relativ leicht zugänglich sind. Wir haben das Ganze nochmal gemacht mit YouTube-Videos. Es ist so, dass wenn man bei YouTube-Sachen anschaut, ist per Default auch die Playlist sozusagen öffentlich. Das heißt, man kann sich jetzt die Video-IDs anschauen. Also in dem Fall nicht die Domainnamen, sondern eine spezifische Information aus der URL und kann dann mit diesen Informationen nochmal in unserem Datensatz schauen,
wie viele User haben sich die Videos beispielsweise angeschaut. Also gleich das Spiel. Wir sehen wieder, es gibt eine Menge Matches von 1, 2, 3, 4 Usern und es gibt auch einen Match hier mit einem User, der sich alle diese neuen Videos angeschaut hat und das ist wieder der Nutzer, den wir gesucht haben. Es funktioniert nicht immer, aber die Erfolgsquote bei den Usern, die wir getestet haben, das haben wir ungefähr mit 10, 20 Leuten gemacht,
war relativ gut. Das heißt, es ist eigentlich nicht sehr unwahrscheinlich, dass das Verfahren auch mit wirklichen öffentlichen Daten funktioniert. Der letzte Punkt, den ich noch kurz anbringen möchte, ist die Nutzung von Geodaten. Wir haben ja gestern einen Vortrag gehabt auf Stage 1, wo auch die Aussage gemacht wurde, dass es ja ganz toll ist, dass man sich bei Google
beispielsweise anschauen kann an seinem Deckboard, wo man die letzten 10 Jahre so war. Ja, das ist auch ganz toll, weil da kann man auch ganz toll Leute mit dir anonymisieren. Hier sehen wir jetzt einfach mal beispielsweise die Koordinaten, die sich Leute einfach auf Google Maps angeschaut haben. Also wenn man sich einen bestimmten Kartenausschnitt anschaut, hat man in der URL quasi die Koordinaten drin. Wir haben das extrahiert und haben dann einfach quasi
hier aus dem Bild gemacht. Und man sieht schon relativ deutlich, dass die Nutzer aus Deutschland kommen und sich auch beispielsweise für Corsica und andere Sachen interessieren, also wo man gerne in Urlaub fährt. Und diese Daten können wir jetzt wieder nutzen, um beispielsweise aus öffentlichen Bewertungen von Restaurants, die wir auch auf Google finden oder man könnte sich auch vorstellen von Facebook beispielsweise diese Bewertungen zu extrahieren, wieder
zu versuchen, Benutzerkonten mit entsprechenden Kartenansichten zu kombinieren. Das heißt, es gibt eine Vielzahl von öffentlichen Datensätzen, die eine Beziehung zu einer URL oder zu einem Ort herstellen, die ich dann wiederum nutzen kann, um mit den Daten, die wir in unserem Datensatz drin haben, eine Verknüpfung zu bekommen und entsprechende Deanonymisierung
durchzuführen. Das heißt, wenn man sich jetzt die Frage stellt, kann ich mich in meinen Daten irgendwie sinnvoll verstecken? Da kam auch, ich glaube, gestern oder vorgestern eine Aussage dazu, dass man beispielsweise Plugins nutzen kann, um Rauschen zu erzeugen, wo man also die Daten besuchen würde oder zusätzlich
Informationen in sein eigenes Profil reinbringen würde, um den Algorithmus zu verwirren. Mit dem Verfahren funktioniert das leider nicht, denn es ist stabil gegenüber der additiven Pertubation, wie man das nennt, weil man kann sich das so vorstellen, wenn hier schon ein Match besteht sozusagen, das heißt, ich habe mit einer gegebenen
Zahl von Webseiten oder von Datenpunkten, die ich mir anschaue, bereits einen einzigen User in meinem Datensatz, der damit übereinstimmt, dann ist es auch egal, ob dieser User noch zusätzliche Datenpunkte oder Attribute hat, die wahr sind, weil ich ja schon eine Zuordnung hergestellt habe und alles, was darüber hinausgeht, was es also noch spezifischer machen würde, ist eigentlich für mich nutzlos in dem Sinne.
Das heißt, ich kann mich in meinen Daten zumindest in diesem Fall hier nicht verstecken, indem ich zusätzliche Informationen generiere. Was ist das Fazit, was man daraus mitnehmen kann? Zum einen ist es halt immer schwieriger mit der großen Datenmenge und mit der Vielzahl an verschiedenen Datenpunkten, die wir generieren, überhaupt eine robuste Anonymisierung von
Datensätzen zu machen, selbst wenn wir das wollen. Zum anderen ist es halt mit den öffentlich verfügbaren Datenquellen, die wir haben heute, immer einfacher, auch eine Deanonymisierung über Drittinformation zu machen. Und zum Letzten ist es sehr einfach, bereits mit einer sehr, sehr kleinen Anzahl von Datenpunkten eine robuste Zurückführung auf einen Nutzer
hinzubekommen. Das heißt, das nächste Mal, wenn Sie ein Bekannter fragt, nach den Webseiten, die Sie besucht haben, oder welche Urlaubsorte Sie toll finden, oder Restaurants, seien Sie vielleicht vorsichtig mit der Antwort, weil, wer weiß, ob das nicht auf einen Datensatz hier zurückgeführt werden kann, den Sie irgendwo anders vielleicht unbewusst hinterlassen haben. Kann man sich gegen sowas schützen? Ja, eingeschränkt zumindest.
Das Wichtige ist natürlich, dass man sich einmal auf dem Client gegen Tracking schützt. Das heißt, indem Sie beispielsweise ein Plugin wie uBlock hier nutzen und entsprechend Suchmaschinen, die datenschutzfreundlich sind. Das alleine reicht allerdings nicht aus, weil das IP-Tracking, also das Tracking auf Basis Ihrer IP-Adresse meist schon ausreichend ist
und gut genug, um zumindest eine grobe Zuordnung von Nutzern hinzubekommen. Das heißt, was Sie zusätzlich brauchen, ist einen Proxydienst, beispielsweise im Extremfall das Tor-Netzwerk oder auch einen privaten Proxy-Anbieter, der idealerweise bei jedem Request Ihrer IP-Adresse nochmal anpasst und es damit schwerer macht, eine Zuordnung zu einer Person herzustellen.
Ja, die Recherche ist nicht im luftleeren Raum entstanden. Deshalb an der Stelle ganz viel Dank an Kollegen aus dem NDR und auch noch an viele weitere externe Experten, geheime Quellen, die uns da unterstützt haben. Dankeschön.
Haben wir Zeit für Fragen? Ja, haben wir. Wir haben Zeit für Fragen. So drei mindestens. Ja, wir haben eine Frage. Wenn jemand den Arm hebt, dann kommt er auch dran. Also wer da keine Frage zu hat, ich bitte euch.
Da hat sich jemand. Hast du die Hand geguckt? Nein? Ach, er hat sich nur vor dem Licht geschützt. So hat er gemacht. Das Licht blindet mich. So, ich sehe ganz viele Hände. Wer möchte als erstes? So viele charmante Leute und so viele Hände. Gut, keine Fragen. Dann danke ich euch, dass ihr hier wart.
Jetzt aber, also bitte. Ich habe über Deanonymisierung gelesen, dass in den USA zumindest drei Daten ausreichen. Geburtsdatum, Geschlecht und Postleitzahl. Um mit 89%iger Wahrscheinlichkeit genau auf eine Person schließen zu können. Könnt ihr das für Deutschland auch sagen?
Ja, es kommt natürlich darauf an, wie groß diese Bereiche sind. Also wenn ich in Postleitzahlbereichen 40.000, 50.000 Leute drin habe, das heißt, wenn ich einen Geburtstag nehme, das würde 365 einzelne Merkmale entsprechen, plus das Geschlecht in Kombination. Also meiner Meinung nach glaube ich nicht, dass es komplett ausreichend wäre,
aber vielleicht für bestimmte Fälle schon auf jeden Fall hilfreich. Es kommt wie gesagt immer auf die Kombinatorik an. Wenn man genug Informationen kombinieren kann und dann die Kombination selber selten genug ist, dann kann man die Deanalyse gut machen, aber es ist halt immer ein Zahlenspiel in dem Sinne. Gerne noch mehr Fragen.
Jetzt haben wir die Experten hier, dahinten. Stephanie, hallo, vielen Dank für den hervorragenden Vortrag. Eine ganz banale Frage. Wie viel Geld musstet ihr in die Hand nehmen oder wie wenig, um diese Daten zu erhalten?
Das war ein kostenloses Trial. Also wir haben dafür nichts bezahlt. Das war ein kostenloses Trial. Wisst ihr denn, wenn ihr das Probeabo, genau so war es, wenn das Probeabo in ein reguläres überfüllt wurde? Sechsstellig. Also jetzt keine Portokasse. Hätte der Ende ehrlich bezahlt. Ich glaube, da war noch Verhandlungsspielraum.
Gerne noch mehr Fragen, einfach Hand hoch und dann komme ich gelaufen. Wo war die Hand? Da. Mich würde interessieren, gab es irgendwelche Reaktionen
vielleicht auf politischer Seite nach dieser Dokumentation? Ja. Also gab es sehr viele Reaktionen. Eine deutlichste Reaktion war, dass sehr viele Menschen dieses Plug-in deinstalliert haben. Zumindest ist das, was man so hört aus der Branche. Es gab auch politische Reaktionen. Tatsächlich gab es ein paar Prüfverfahren.
Es gab sogar Ausschüsse. Also gab es auch ein paar juristische Reaktionen. Also ja, doch, da ist schon was passiert. Das Plug-in ist auch aus einem Rosers Store rausgeflogen. Also sowohl Chrome als auch Mozilla haben das Plug-in zumindest zeitweise ausgeschlossen. Ist allerdings wieder da.
Ist aber wieder da. Wir wissen aber nicht genau, wie und ob die weiter sammeln. Das entzieht sich unserer Kenntnis. Also hatten da schon ganz gute Auswirkungen mit der Recherche. Das Problem bei den Datenschutzfragen ist natürlich immer die Strafbarkeit in dem Sinne. Und wenn das Unternehmen sind, die nicht in Europa sind,
ist das auch sehr schwierig, da ranzukommen und juristisch eine Handhabe zu haben. Vielleicht wird das besser mit der EU- Datenschutz-Grundverordnung. Hallo, ich habe eine Frage. Und zwar kann man das gegenrecherchieren? Also kann man recherchieren, wer diese Daten kauft und sammelt und dann halt auch auswerten, wie die benutzt werden? Schwierig.
Weil sozusagen das Unternehmen selbst bewirbt es nicht offen, dass die diese Daten verkaufen, sondern die habe ich im Prinzip auf Nachfrage dann bekommen. Und deswegen gibt es auch keine Kundenreferenzliste, die die auf ihrer Webseite veröffentlichen. Also das ist insgesamt ein sehr verschlossenes Geschäft und ich weiß auch
nicht, ob es mir noch mal gelingen würde, also ob man das Experiment noch mal machen könnte, weil es halt einfach eine sehr verschlossene Gesellschaft ist und auch weil man natürlich irgendwie auch nachweisen muss, dass man genug Geld hat, um das am Ende zu bezahlen. Und als Firma, die solche Daten kaufen, möchte man natürlich auch nicht unbedingt in der Öffentlichkeit landen, weil es
auch in dem Sinn illegal ist, die zu sammeln überhaupt. Da ist noch eine Frage. Da hinten. Erstmal vielen Dank für den Vortrag.
Sie hatten ja gesagt, wenn man additiv weitere Webseiten aufrufen würde, wäre das unkritisch, weil man hätte ja vorher denjenigen schon lokalisiert. Was wäre, wenn ich jetzt meinen Router die Aufgabe geben würde, ruf alle Internetdomains oder alle Domains im Internet eben auf, dann wäre die Aussage auch wieder schwierig, weil dann wäre ich jeden Tag auf alle
Seiten einmal drauf gewesen, oder? Ja, wenn ich natürlich hinkriege, alle diese Attribute, die man hat, auf wahrzusetzen, indem ich alle diese Webseiten besuche, klar, aber dann wäre ich wahrscheinlich auch wieder in dem Sinne identifizierbar, weil es ja auch nicht andere Nutzer gibt, die entsprechend alle von den Seiten besucht haben. Also es würde funktionieren,
wenn man das nicht als einzelner Nutzer macht, sondern wenn man das kollektiv sozusagen macht. Also eigentlich jeder Nutzer genug Rauschen erzeugt, um insgesamt eine Zuordnung nicht möglich zu machen. Wenn es nur einzelne Nutzer sind im Vergleich zu der Gesamtzahl, ist es sehr schwierig. So eine letzte Frage können wir noch annehmen.
Danke, Conor Dritter. Danke für eine sehr gute Präsentation. Ich versuche mir zu überlegen über die individuelle Reaktion. Ich schütze mich jetzt mit Proxys. Wo geht der nächste Schritt hin, wenn wir es
jetzt eher als System uns anschauen? Solange Personen weiterhin Websites besuchen, Google, Web, Maps benutzen, ist das eine Realität und Sie haben wunderbar aufgezeigt, wie die ausgenutzt wird.
Aber wo geht die systemische Antwort hin, wenn wir das Problem jetzt erst einmal erkannt haben? Gute Frage. Auch eine Frage, die uns ganz stark beschäftigt hat danach. Und vor allem auch eine Antwort dazu ist, diese Daten sind schon in den falschen Händen.
Damit meine ich nicht unsere. Das heißt, wir haben schon ganz viele Daten generiert. Dieser Datenschatten ist schon längst da und er ist schon bei den Unternehmen draußen. Das heißt, selbst wenn wir etwas erreichen, selbst wenn wir uns schützen, können wir uns erst ab morgen schützen. Und das, was wir an Daten bereits generiert
haben, das liegt bei den Unternehmen und das ist da. Und am Ende gibt es eigentlich zwei Antworten. Das eine ist, schütze dich selbst und das andere ist tatsächlich eine politische Frage, die auch Politik beantworten muss und soll. Und ich meine, der Browser-Hersteller in dem Falle ist natürlich auch bedingt zumindest, nach unserer Auffassung verantwortlich sicherzustellen, dass kein
Missbrauch einfach stattfinden kann. Das ist natürlich nicht immer einfach zu gewährleisten. Ansonsten geht es mit der EU- Datenschutz-Grundverordnung vielleicht schon in die richtige Richtung, um auch Unternehmen, die solche Datensammlung zu machen, einfacher belangen zu können. Momentan ist es nach unserem Eindruck eher ein Geschäft, das ein sehr geringes Risiko
hat, selbst bei einer Erkennung entsprechend abgemahnt oder strafrechtliche Konsequenzen fürchten zu müssen. Das heißt, es ist eher der wilde Westen aktuell, was User-Daten angeht. Jeder versucht halt so viel zu sammeln und finde die Daten natürlich extrem spannend, weil sie sehr gute Einsichten auch über einzelne Nutzer ermöglichen. Aber es gibt keine effektive Kontrolle, glaube ich,
über die illegale oder legale Sammlung. Ja, dann sagen wir vielen Dank an Nackt im Netz. Vielen Dank für den tollen Beitrag. Danke für die Aufmerksamkeit.