Hin und her ist nicht schwer
PSP Case Study zur DSGVO: Praxisfall 32

DSGVO: Praktischer Fall

Die Huber AG stellt Bett- und Unterwäsche her und vertreibt diese im Wesentlichen über einen Online-Shop. Sie lässt sämtliche Daten über die getätigten Verkäufe an ihre Kunden, unter denen sich auch viele Privatpersonen befinden, in eine intern bei der Huber AG „data lake“ getaufte Datenbank fließen. Dabei werden Name und sonstige personenbezogene Daten des jeweiligen Kunden entfernt und die ursprünglichen Daten über die Verkäufe in den Produktivsystemen der Huber AG nach Ablauf der Gewährleistungsfrist gelöscht. Im „data lake“ werden nur Daten wie PLZ des Kunden, bestellte Artikel, Datum und Uhrzeit der Bestellung, Zahlungsmittel, Reklamationshäufigkeit etc. gespeichert, ohne dass die Huber AG zurückverfolgen könnte, wer der Kunde ist. Die Huber AG lässt immer wieder von ihr so bezeichnete „big data“-Analysen erstellen, um das Verhalten ihrer Kunden besser vorhersagen zu können, und veräußert die Daten hin und wieder auch für einen kleinen Obolus an interessierte Dritte. Irgendwann erwirbt die Huber AG sämtliches Vermögen der Maier GmbH („Asset Deal“), die ähnliche Waren herstellt und in einer Datenbank über sämtliche Daten zu den von ihr jemals getätigten Verkäufern an ihre Kunden verfügt.

In den bisherigen Fällen war hin und wieder von pseudonymen Daten die Rede. Pseudonym bedeutet, dass die Zuordnung eines Datums (z. B. Schuhgröße 43) zur Identität einer konkreten Person (z. B. Herr Rolf Maier) über eine Zuordnungsinformation (z. B. „1234“) erfolgt. Die Schuhgrößen verschiedener Personen können nun in einer Datei (man könnte diese als „Primär-Datenbank“ bezeichnen) nur mit der jeweiligen Zuordnungsinformation verknüpft werden (also „1234 trägt Schuhgröße 43“). In einer anderen Datei (man könnte diese als „Zuordnungs-Datenbank“ bezeichnen) werden dann die Zuordnungsinformationen mit der Identität einer natürlichen Person verknüpft (also „1234 ist Herr Rolf Maier“). Wenn diese Datenbanken ausreichend getrennt voneinander vorgehalten werden, sind die Daten der Primär-Datenbank „nur noch“ pseudonym. Dabei gibt es zwei Arten von Pseudonymisierung: Die beiden Datenbanken können beim Verantwortlichen selbst getrennt sein – dann erschwert die Pseudonymisierung das Zusammenführen und schützt die Betroffenen etwas besser gegen die unberechtigte Verwendung ihrer Daten – oder die beiden Datenbanken liegen bei verschiedenen Verantwortlichen. Im letzteren Fall sollte man meinen, dass die Primär-Datenbank für deren Besitzer „anonym“ (die Datenschutzbehörden sprechen hier aber auch von „verschleiernder Pseudonymisierung“) sind: Er weiß nicht, wer „1234“ ist, weil er nicht im Besitz der Zuordnungs-Datenbank ist.

Anonyme Daten

Datenschutzrechtlich sind anonyme Daten solche, die keinen Personenbezug (mehr) aufweisen, und zwar weder aktuellen noch potentiellen Personenbezug. Solche Daten sind datenschutzrechtlich nicht (mehr) geschützt. Man kann (datenschutzrechtlich) mit ihnen machen, was man will. Dies ergibt sich zwar nicht aus dem Text der DSGVO, aber aus der Definition des Begriffs der „personenbezogenen Daten“ sowie aus Erwägungsgrund 26.

Allerdings ist eine wirklich erfolgreiche Anonymisierung nicht einfach zu erreichen. Die Crux ist mit dem Wörtchen „potentiell“ verbunden. Jede Rekonstruierbarkeit des Personenbezuges muss sicher ausgeschlossen sein. Schon die typische „Verstümmelung“ von IP-Adressen, die manche Anbieter von Cookie-Systemen anbieten, ist meist nicht mehr ausreichend für eine erfolgreiche Anonymisierung, da dem Verantwortlichen weitere Daten vorliegen, die in Kombination eine Identifikation des Benutzers erlauben. Das müssen keine „browser fingerprints“ sein, die eine sehr individuelle Wiedererkennung ermöglichen. So führt die „Orientierungshilfe der Aufsichtsbehörden für Anbieter von Telemedien“ der Datenschutzkonferenz vom März 2019 aus:

Darüber hinaus ist zu berücksichtigen, dass sich Nutzer in den allermeisten Fällen früher oder später an irgendeiner Stelle im Web registrieren und in diesen Fällen auch eine Verknüpfung mit E-Mail-Adressen, Klarnamen oder Offline-Adressen möglich ist. Auf die Kenntnis des bürgerlichen Namens zur Identifikation von betroffenen Personen kommt es aber beim Personenbezug nicht an. Wenn die Nutzung des Webs, wie bei vielen Menschen, einen großen Teil der Lebenswirklichkeit widerspiegelt, dann ist es relevant, ob die Nutzer über ihre Online-Kennungen bestimmbar oder adressierbar sind.

Attribute-Muster und Identifizierbarkeit

Diese Schlussfolgerung dürfte nicht ganz richtig sein, denn ein „personenbezogenes Datum“ liegt nicht vor, wenn es sich bloß auf „irgendeine lebende Person“ bezieht, sondern nur dann, wenn die Person – mit ihrem bürgerlichen Namen – identifizierbar ist. Sonst gäbe es schließlich gar keine anonymen Daten mehr, die vom Erwägungsgrund 26 wie folgt charakterisiert werden:

Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten, d. h. für Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann. Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymer Daten [...].

Ist die Person allerdings identifizierbar, dann kommt es richtigerweise nicht mehr darauf an, ob der bürgerliche Name tatsächlich nun identifiziert wurde oder nicht.

Um dem etwas auf den Grund zu gehen, sollte man sich eine in „Nature Communications“ veröffentlichte Studie („Estimating the success of re-identifications in incomplete datasets using generative models“) vor Augen halten, die einen statistischen Effekt im Zusammenhang mit der Identifizierbarkeit von Personen herausgearbeitet hat. Die Kernaussage der Studie bestand darin, dass in einer – vermeintlich – anonymisierten Datenbank mit den drei Attributen Postleitzahl, Geschlecht und Geburtsdatum eine 81 %-Wahrscheinlichkeit der Re-Identifikation besteht, die sich bei 15 demografischen Merkmalen auf 99,98 % erhöht. Dies führt zum Begriff der k-Anonymität, den Wikipedia wie folgt definiert:

Eine Veröffentlichung von Daten bietet k-Anonymität, falls die identifizierenden Informationen jedes einzelnen Individuums von mindestens k-1 anderen Individuen ununterscheidbar sind und somit eine korrekte Verknüpfung mit den zugehörigen sensiblen Attributen erschwert wird. Der Buchstabe k stellt somit einen Parameter dar, der im konkreten Fall durch eine natürliche Zahl ersetzt wird. Ein größeres k repräsentiert in diesem Kontext eine größere Anonymität.

Die Re-Identifizierung von Personen anhand ihrer Attribute ist zunächst nicht sehr verwunderlich. Wenn zu einer Person 15 Attribute gespeichert werden, ergeben die Attribute auch dann ein personenspezifisches „Muster“, wenn der Name der Person entfernt wird. Je mehr Attribute den „Fingerabdruck“ ausmachen, desto feingranularer und damit individueller wird der „Attribute-Fingerabdruck“. Dasselbe gilt für IP-Adressen oder sonstige „Identifier“, d. h. das Attribute-Muster stellt letztlich als solches ein Pseudonym dar. Es bleibt aber das Problem, dass jemand, der eine Person anhand ihres Attribute-Musters in einer Datenbank „wiedererkennt“, aber nicht weiß, wer derjenige ist, nur weiß, dass er es mit derselben Person zu tun hat, aber nicht, wie die Person heißt. Dasselbe gilt ja auch für (statische) IP-Adressen beim Tracking: Der Webseiten-Betreiber erkennt die IP-Adresse wieder („der hat hier schon einmal gesurft“), weiß aber nicht, wer das ist. Wenn nun ein Attribut die Adresse und ein weiteres Attribut die Nummer der Wohnung im Mehrfamilienhaus ist, lässt sich diese Unkenntnis natürlich leicht beseitigen: Man fährt hin und sieht nach, wer da auf dem Klingelschild steht. Bei IP-Adressen, demografischen oder medizinischen Attribute-Mustern kann das aber für den einzelnen Verantwortlichen durchaus schwer bis unmöglich sein, die Identität (Name) herauszufinden, schon gar bei einer größeren Personenanzahl.

Für die Re-Identifizierung durch ein „Mapping“ der Attribute-Muster sind also drei Informations-Sets notwendig: Ein „namenloses“ Attribute-Muster in einer Zieldatenbank („Eine Person wohnt im PLZ-Bezirk 12345, ist männlich, ist am 01.01.1950 geboren und hat Schuhgröße 43“) mit einer Zusatzinformation („Diese Person hat graue Haare“), ein entsprechendes Such-Muster („Ich kenne eine Person, die im PLZ-Bezirk 12345 wohnt, männlich ist, am 01.01.1950 geboren ist und Schuhgröße 43 hat“) und die Verknüpfung mit einem Namen („Die Person, die ich kenne, ist Herr Ferdinand Müller“). Würde die Zieldatenbank keine weiteren Attribute aufweisen, so würde sich der Erfolg nur in der Kenntnis ausdrücken, nun zu wissen, dass ein Datensatz der Zieldatenbank Ferdinand Müller abbildet – für sich genommen keine besondere Erkenntnis, wenn sämtliche drei Informationssets schon vorlagen. Wüsste man zum Suchmuster nicht den Namen, so könnte man nur die Erkenntnis gewinnen, dass die Person, deren Identität (Namen) man nicht kennt (sondern nur ihr Attribute-Muster), graue Haare hat (vermutlich vom Datenschutz). Man würde also einer unbekannten Person weitere Attribute hinzufügen können und deren Identität weiterhin nicht kennen. Nur dann, wenn der Suchende sein Suchmuster mit einer Identität (Namen) verknüpfen kann, kann er aus der Zieldatenbank relevante auf die benannte Person bezogene Informationen herauslesen. Ansonsten ist (und bleibt) es eine „namenlose“ Information. Ob diese im datenschutzrechtlichen Sinn „anonym“ ist, ist aber eine andere Frage.

Die genannten Attribute bzw. deren Kombination zu Mustern können sehr vielfältig und unterschiedlich aussagekräftig sein. Dazu zählen Bewegungsprofile und (Kreditkarten-)Zahlungshistorien. Wenige solcher Daten genügen, um eine Person, deren Namen man kennt, in einer anderen Datenbank relativ zuverlässig re-identifizieren zu können, die über die gleichen Datenmuster (und zusätzliche Informationen) verfügt. „Relativ“ deswegen, weil ein hundertprozentiges „Mapping“ der Attribut-Muster, wie oben für einen „Bilderbuchfall“ beschrieben, in der Praxis nicht immer (oder sogar eher selten) vorliegt. Wie (statistisch) „zuverlässig“ das „Mapping“ im Einzelfall genau sein muss, damit der eigentlich namenlose Datenbestand einer identifizierbaren Person zugeordnet werden kann und damit datenschutzrechtlich personenbezogen wird, ist unklar.

Identifizierbare Person im Sinne der DSGVO

Die DSGVO nähert sich der Frage der Identifizierbarkeit nicht aus der Richtung der „Mapping-Genauigkeit“ zwischen zwei Attribut-Mustern, sondern aus der Richtung, wann ein Bezug zwischen Daten und Person hergestellt werden kann, d. h. wann eine „identifizierbare Person“ vorliegt. Im „Mapping“-Beispiel oben stünde also die Frage im Vordergrund, wie der Inhaber eines zunächst namenlosen Datensatzes an einen „mapping-fähigen“ Datensatz gelangen kann, der auch den Klarnamen enthält. Zur Veranschaulichung sei an die in der Einleitung zitierten Urteile des Europäischen Gerichtshofes und des Bundesgerichtshofes zum Thema dynamische IP-Adresse erinnert. Der Webseiten-Betreiber verfügte über ein namenloses Attribute-Muster in Form der (dynamischen) IP-Adresse (123.123.123.123) und eines Zeitstempels (01.01.2019, 12:00 Uhr) sowie über die – hier nicht so wichtige – Zusatzinformation, dass zu diesem Zeitpunkt von dieser IP-Adresse auf die Seite des Webseiten-Betreibers zugriffen wurde. Der Internet-Provider verfügt über dasselbe Attribute-Muster sowie die Verknüpfung mit dem Namen, sprich: „Ferdinand Müller war am 01.01.2019 um 12:00 Uhr die IP-Adresse 123.123.123.123 zugewiesen“. Hier lag die „Mapping-Genauigkeit“ bei 100 %. Auf die Frage, inwieweit hierbei dem Webseiten-Betreiber das Wissen des Internet-Providers „zugerechnet“ werden kann, kommen wir noch zurück. Wichtig ist, dass die „Mapping-Genauigkeit“ auch weniger sein kann. Im Beispiel könnte der Webseiten-Betreiber nur die ersten drei Bytes der IP-Adresse gespeichert haben, also 123.123.123.xxx – er kennt das letzte Byte nicht (mehr). Möglicherweise hat der Internet-Provider zum maßgeblichen Zeitpunkt 24 Adressen im Adressraum 123.123.123.0 bis 123.123.123.254 zugewiesen. Er kann also nur sagen, dass es „einer von 24 gewesen sein muss“. Welche „Mapping-Genauigkeit“ erreicht werden muss, sagt weder die DSGVO noch bislang ein Gericht.

Welche Anstrengungen können also dem Verantwortlichen unterstellt werden, um einen Bezug zwischen Datum und Person herzustellen, mit anderen Worten, um aus einer identifizierbaren Person eine identifizierte Person zu machen (auch wenn die Identifizierung dann tatsächlich gar nicht stattfindet)? Hierzu erläutert Erwägungsgrund 26:

Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, wie beispielsweise das Aussondern. Bei der Feststellung, ob Mittel nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person genutzt werden, sollten alle objektiven Faktoren, wie die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, herangezogen werden, wobei die zum Zeitpunkt der Verarbeitung verfügbare Technologie und technologische Entwicklungen zu berücksichtigen sind.

Diese „Definition“, die nicht Teil des DSGVO-Texts selbst ist, strotzt vor unbestimmten Rechtsbegriffen. Auch ist die Bedeutung des Wortes „Aussondern“ als (einziger) Beispielsfall zunächst nicht klar. „Aussondern“ ist im Kontext des Lebenszyklus‘ von Akten wahlweise die Archivierung oder Vernichtung der Akte. Mit der Identifizierung einer Person hat das aber wenig zu tun. Eher verständlich ist die englische Fassung („singling out“), die auch mit „auswählen“ bzw. „herausgreifen“ übersetzt werden kann. Gemeint ist demnach ein Auswählen oder Herausgreifen aus einer Masse von Daten anhand von definierten (Filter-)Kriterien bzw. Attributen, also sinngemäß mit dem oben beschriebenen „Mapping“-Prozess. Mit bestimmten Kosten und einem bestimmten Zeitaufwand könnte beispielsweise ein Unternehmen, das über viele Datensätze wie „Krankengeschichten“ von Patienten verfügt, aber die Namen der Patienten nicht kennt und auch zu keinem Patienten in irgendeiner Beziehung steht, versuchen, weitere Datenbanken – auch kostenpflichtige – mit Klarnamen zu beziehen, um irgendein (statistisch mehr oder weniger gutes) „Mapping“ zu betreiben und so den Namen des jeweiligen Patienten herauszufinden.

Dies wirft allerdings eine weitere Frage auf: Ist die Bewertung nur für einen Datensatz eines Betroffenen oder für die Gesamtheit der beim Verantwortlichen vorliegenden Datensätze zu bestimmen? Wenn der Aufwand für einen Datensatz verhältnismäßig groß ist, wird er für eine Masse von Datensätzen unverhältnismäßig sein und dann nicht mehr als taugliches Identifizierungsmittel in Betracht kommen. In den Entscheidungen des Europäischen Gerichtshofes und des Bundesgerichtshofes wurde diese Frage dahingehend beantwortet, dass der Aufwand für den einzelnen Datensatz zu bestimmen ist. Selbst wenn für sämtliche gleichartigen Datensätze der (Gesamt-)Aufwand, an die Identität sämtlicher Betroffenen zu gelangen, unverhältnismäßig groß bzw. das „Mapping“ sogar praktisch unmöglich wäre, ist dies also demnach irrelevant. Entscheidend ist, dass es isoliert für den einzelnen Datensatz einen irgendwie noch plausiblen Weg zur Identifizierung – im Sinne einer „Namensgebung“ – gibt, selbst wenn (im Beispiel der genannten Gerichtsentscheidungen) bei einem Server-Log einer vielfrequentierten Website die Kosten und der Zeitaufwand der Identifizierung von Millionen von Einträgen eben diese Identifizierung praktisch unmöglich machen. Dass bei diesem Gedankenexperiment auch Dritte als „Steigbügelhalter“ instrumentalisiert werden dürfen, ist dabei nur der nächste konsequente Schritt.

Strafanzeige gegen Unbekannt

Für den Verantwortlichen ist auch dann eine namenlose Person identifizierbar, wenn die Zusammenführung von Datum und Person bei einem Dritten stattfinden bzw. die Zuordnungsinformation dort erzeugt werden kann. Es geht dementsprechend nicht nur um die „Mittel“ des Verantwortlichen selbst – etwa die Zusammenführung verschiedener Datenbestände des Verantwortlichen –, sondern auch um den Einsatz eines Dritten als „Mittel“. Dies kann die Menge der hypothetischen Szenarien der Zusammenführung von Daten und Person erheblich vergrößern, auch wenn in der Praxis – eng an den Gerichtsentscheidungen – in erster Linie die Frage erörtert wird, ob dem (nicht namentlich bekannten) Betroffenen die Verübung einer Straftat gegen den Verantwortlichen vorgeworfen werden könnte. Ein Blick in die verschiedenen möglichen Straftaten des Haupt- und Nebenstrafrechts kann sich also auch datenschutzrechtlich lohnen, um die Staatsanwaltschaft als (fiktiven) „Identitätsbeschaffer“ einsetzen zu können. Dass bei einer Strafanzeige, um an die Zusammenführung von Daten und Person zu gelangen, selbstverständlich das Risiko einer falschen Verdächtigung besteht, die ihrerseits strafbar ist (was wohl das „wahrscheinlich genutzte Mittel“ auch illegal werden lässt), scheint dem Bundesgerichtshof nicht so wichtig gewesen zu sein. Er hat sich auf die kleine Teilmenge möglicher Fälle fokussiert, in denen tatsächlich der Verdacht besteht, dass von der IP-Adresse aus eine Straftat begangen wurde, nicht auf die Fälle, in denen die Strafanzeige nur erhoben wird, um an die Daten zu gelangen. Dann wäre aber konsequenterweise in allen anderen Fällen von anonymen Daten auszugehen und damit auch in dem konkret vom EuGH/BGH entschiedenen Fall zur dynamischen IP-Adresse, denn der Kläger – ein schleswig-holsteinischer Abgeordneter der Piraten-Partei – hatte selbst gar keinen „Anschlag“ auf die Webseite verübt.

Wenn man dies weiterdenkt, kann das auch bedeuten, dass der Täter eines Diebstahls für das Opfer eine „identifizierbare Person“ ist, selbst wenn das Opfer überhaupt nicht weiß, wer die Tat verübt hat. Die Schuhgröße des Täters, anhand eines am Tatort hinterlassenen Fußabdrucks für das Opfer ersichtlich, ist (in einer strukturierten Datensammlung) ein personenbezogenes Datum, wenn die Staatsanwaltschaft den Täter ermitteln und so dessen Person und Schuhgröße zusammenführen könnte, und zwar unabhängig davon, ob sie es auch tut.

Ungeachtet dessen kommen in der Theorie auch zivilrechtliche Auskunftsansprüche gegen einen Dritten, der über die Zuordnungsinformation verfügt, in Betracht – auch in Form vertraglicher Nebenansprüche. Überhaupt ist eine vertragliche Verbindung zwischen dem Verantwortlichen und dem Besitzer oder Beschaffer der Zuordnungsinformation kritisch, denn anhand dieser schuldrechtlichen Verbindung können ebenfalls Szenarien herbeikonstruiert werden. Der Phantasie zu den „wahrscheinlich genutzten Mitteln“ sind kaum Grenzen gesetzt.

Ob dies alles zusammengenommen bedeutet, dass – wie manche Experten meinen und ähnlich wie dies die Datenschutzkonferenz ausführt (s. o.) – die Anonymisierung personenbezogener Daten heutzutage weitgehend eine Illusion ist, ist in diesem Kontext nicht entscheidend. Wichtig ist vielmehr: Wenn die Zuordnung zwischen Datum und Person tatsächlich hergestellt (und moniert) wird, wird die Frage, ob dies zeitlich davor wahrscheinlich war, in der Praxis keine Rolle mehr spielen. Denn nachher ist man immer schlauer. Deshalb wird das Ergebnis solcher Gedankenexperimente zu den „wahrscheinlich genutzten Mitteln“ aus Vorsichtsgründen häufig lauten, dass man auch dann, wenn man „nur“ im Besitz von IDs ist, trotzdem stets davon ausgehen muss, personenbezogene Daten in der Hand zu halten, obwohl man gar nicht weiß, wessen Daten das sind, und mit dem Betroffenen z. B. gar nicht in Kontakt treten kann.

Gehashte Daten und MAC-Tracking

Vor diesem Hintergrund ein kleiner Exkurs zum Thema Hash-Werte und zur „Facebook-Customs-Audience“-Entscheidung des Verwaltungsgerichts Bayreuth vom Mai 2018, die vom Bayerischen Verwaltungsgerichtshof bestätigt wurde. Hash-Algorithmen bilden eine Art „lange Quersumme“ aus beliebigen Daten. Während die Quersumme leicht zu bilden ist, ist die Wiederherstellung der ursprünglichen Zahl bzw. Daten praktisch unmöglich. Beispielsweise ist sowohl die Quersumme von 14 als auch von 23 jeweils 5, sodass aus der Zahl 5 nicht gefolgert werden kann, ob ursprünglich die Zahl 14 oder 23 vorlag. Man kann „Hashing“ daher auch als eine Art Fingerabdruck eines Datensatzes beschreiben oder sogar als „Verschlüsselung ohne Entschlüsselungsmöglichkeit“. Wenn jemand einen Hash-Wert erhält und über die mutmaßlichen Ausgangsdaten verfügt, kann er feststellen, ob die Ausgangsdaten dem Absender des Hash-Wertes ebenfalls vorlagen oder nicht.

In der genannten Entscheidung ging es um den Abgleich von „gehashten“ E-Mail-Adressen. Ein Unternehmen hatte die Hash-Werte von E-Mail-Adressen von Werbekunden an Facebook gesandt und Facebook darum gebeten, gegenüber denjenigen Werbekunden, die Facebook ebenfalls „kennt“, zielgerichtet entsprechende Werbung zu schalten. Facebook glich also die übermittelten Hash-Werte mit den Hash-Werten ab, die aus den Facebook bekannten E-Mail-Adressen generiert worden waren, um Übereinstimmungen festzustellen. Waren die Hash-Werte identisch, wusste Facebook, dass es sich bei den E-Mail-Adressen, die dem Unternehmen vorlagen, um dieselben E-Mail-Adressen handelte, die auch Facebook vorlagen. Die nicht zuordenbaren E-Mail-Adressen kannte Facebook sowohl vor als auch nach dem Abgleich nicht, da Facebook aus deren Hash-Werten die ursprünglichen E-Mail-Adressen nicht „zurückrechnen“ konnte. Datenschutzrechtlich liegt in Bezug auf die übereinstimmenden Hash-Werte eine Übermittlung der personenbezogenen Daten des Betroffenen vor (da Facebook die Identität der Betroffenen kennt), während die übrigen Hash-Werte für Facebook anonyme Daten darstellen – was Facebook aber erst nach dem Abgleich weiß. Mit anderen Worten: Ein Teil der Hash-Werte weist für Facebook Personenbezug auf, ein anderer Teil nicht. Dementsprechend wurden zumindest auch personenbezogene Daten übermittelt, was aber – so die Gerichte, hier aber nicht weiter relevant – datenschutzrechtlich nicht zulässig war.

Auf dieser Basis beschäftigt sich nun das Bayerische Landesamt für Datenschutzaufsicht, das diese Entscheidungen erwirkt hat, in seinem Tätigkeitsbericht 2017/2018 mit dem sog. „Offline-Tracking“, d. h. der Identifikation physischer Kunden in physischen Geschäften etwa anhand der MAC-Adressen der von ihnen mitgeführten Geräte:

Zahlreiche Dienste zum Offline-Tracking sind derart ausgestaltet, dass die gehashten MAC-Adressen auf unbestimmte Zeit gespeichert und evtl. mit weiteren Daten zusammengeführt werden. Dies geschieht deshalb, weil Betreiber des Offline-Tracking meist davon ausgehen, es handle sich bei den gehashten Daten um anonymisierte Daten. Wir vertreten hierzu jedoch eine andere Auffassung: Bei der MAC-Adresse handelt es sich um ein personenbezogenes Datum, da hier die MAC-Adresse einem bestimmten Gerät zugeordnet ist und der Nutzer des Geräts mittelbar bestimmt werden kann. Zwar wird in der Regel die MAC-Adresse unter Verwendung eines Hash-Verfahrens verändert – das Hash-Verfahren führt jedoch nicht zu einer Anonymisierung der Daten. Diese Auffassung wurde durch einen Beschluss des Bayerischen Verwaltungsgerichtshofs vom 26. September 2018 bestätigt.

Diese „Extrapolation“ der Gerichtsentscheidungen ist aus zweierlei Gründen fragwürdig. Zunächst ist zwar eine MAC-Adresse – im Gegensatz zu einer dynamisch durch einen Internet-Provider immer wieder neu vergebenen IP-Adresse – eine statische Adresse. Wer also weiß, wer das Gerät mit einer bestimmten MAC-Adresse verwendet, kann die MAC-Adresse – und die Daten, die von dieser oder an diese gesendet werden – der Person zuordnen. Für denjenigen aber, der nicht weiß, welcher Person die MAC-Adresse zuzuordnen ist, stellt sich gerade die Frage, ob es sich um eine für ihn identifizierbare Person handelt. Dafür muss – wenn einem nichts Besseres einfällt – das Beispiel der Staatsanwaltschaft bemüht werden: Dem Inhaber des Geräts mit der MAC-Adresse muss (aufgrund eines tatsächlichen Verdachts) eine Straftat vorgeworfen werden (s. o.). Schon dies schränkt die Fälle, in denen tatsächlich eine identifizierbare Person vorliegt, erheblich ein. Wie dann die Staatsanwaltschaft an die Zuordnung gelangt, erklärt das Bayerische Landesamt für Datenschutzaufsicht nicht. Einen Provider kann die Staatsanwaltschaft nicht fragen – MAC-Adressen werden nicht von einer zentralen Instanz „zugewiesen“, sondern (unveränderlich) von den Herstellern der jeweiligen Hardware erzeugt –, d. h. die (forensische) Untersuchung wäre wesentlich aufwendiger.

Wird – unabhängig davon – ein Hash-Wert einer erhobenen MAC-Adresse ermittelt und die ursprüngliche MAC-Adresse gelöscht, kann die ursprüngliche MAC-Adresse nicht mehr „zurückgerechnet“ werden. Man kann zwar sagen, dass für einen sehr kurzen Zeitraum die vollständige MAC-Adresse „verarbeitet“ wurde, aber nach dem Löschen der ursprünglichen MAC-Adresse ist diese Verarbeitung abgeschlossen. Das gilt nicht spezifisch für MAC-Adressen: Auch wer eine IP-Adresse erhebt und die letzten beiden Bytes kürzt (wie dies einige verfügbare Tracking-Verfahren vorsehen), hat für einen sehr kurzen Zeitraum – vor der Kürzung – die vollständige IP-Adresse „verarbeitet“. Möglicherweise kann nach der Löschung der ursprünglichen MAC-Adresse der Inhaber des Geräts noch anderweitig ermittelt werden, aber die MAC-Adresse ist nicht mehr „bekannt“.

Der Bayerische Verwaltungsgerichtshof hat auch nicht – wie vom Bayerischen Landesamt für Datenschutz behauptet – bestätigt, dass die Ermittlung eines Hash-Wertes nicht zu einer Anonymisierung von Daten führt, sondern, dass die Übermittlung von Hash-Werten (einer E-Mail-Adresse) an jemanden (Facebook), dem dieselbe E-Mail-Adresse schon vorlag (weil derjenige Inhaber eines Facebook-Accounts ist), eine Übermittlung von personenbezogenen Daten ist. Denn der Empfänger (Facebook) kann durch Bildung eines (eigenen) Hash-Wertes der ihm vorliegenden personenbezogenen Daten und Abgleich mit dem empfangenen Hash-Wert feststellen, dass es sich um dieselbe Person handelt, die der Absender bewerben will. Es liegt auf der Hand, dass dies nicht dasselbe ist wie die Generierung eines Hash-Wertes aus einer MAC-Adresse, die danach gelöscht wird.

Der Teufel liegt also, wie immer, im Detail.

Anonymisierung

Unabhängig von all dem kann ein Verantwortlicher, der personenbezogene Daten verarbeitet und einer Löschpflicht unterliegt, ein Interesse daran haben, die Daten vom Personenbezug zu befreien, um sie weiter speichern zu können, weil sie dann nicht mehr dem Datenschutzrecht unterliegen. Letztlich stellt sich diese Frage auch jedem Arbeitgeber, wenn die Arbeitnehmer ausscheiden (s. Fall 33).

In einem von der österreichischen Datenschutzbehörde im Dezember 2018 entschiedenen Fall hatte das verantwortliche Unternehmen die Daten eines Betroffenen dadurch anonymisiert, dass sie dessen Stammdaten mit einem „Max Mustermann“-Datensatz überschrieben hatte. Damit waren zwar die verschiedenen mit der Person verknüpften Vorgangsdaten noch vorhanden, konnten aber keiner betroffenen Person mehr zugeordnet werden, sondern nur noch einem „Dummy“. Die österreichische Datenschutzbehörde hielt die „endgültige“ Anonymisierung durch Überschreiben mit den Dummy-Daten für eine „Löschung“ im Sinne der DSGVO. Eine Löschung müsse nicht unbedingt bedeuten, dass die Daten für alle Zeiten irreversibel keiner Person mehr zugeordnet werden können. Eine mögliche künftige Rekonstruierbarkeit anhand neuer technischer Mittel (oder neuer Datenbestände) mache die „Löschung durch Unkenntlichmachung“ nicht unzureichend. Damit würde die Anonymisierung eine veritable Alternative zur Löschung, wenn man den Informationsgehalt der Daten (mit Ausnahme des Personenbezugs) noch irgendwie weiterhin konservieren möchte (Stichwort „big data“).

Ebenso sieht dies auch der Europäische Datenschutzausschuss in seinen Empfehlungen vom November 2019 zum Thema „privacy by design/by default“:

Anonymization of personal data is an alternative to deletion, provided that all the relevant contextual elements are taken into account and the likelihood and severity of the risk, including the risk of re-identification, is regularly assessed.

Nun könnte man aber gleichwohl wieder die Entscheidungen zur dynamischen IP-Adresse heranziehen. Das verantwortliche Unternehmen könnte nach der vermeintlichen Anonymisierung feststellen, dass der Betroffene eine Straftat gegen das Unternehmen begangen hat, kann aber den Täter nicht mehr namentlich benennen. Vielleicht kann die Staatsanwaltschaft mit ihren Mitteln die Identität aufklären? Wenn dies möglich erscheint, würde es sich weiterhin um personenbezogene Daten handeln – egal, wie viele Betroffene das betrifft, egal, ob der Betroffene tatsächlich eine Straftat begangen hat oder nicht (s. o.).

Diese Erkenntnis kann dazu führen, dass eine sichere Anonymisierung – also jedweder Ausschluss eines Personenbezuges – nur durch zwei Wege erreicht werden kann: Entweder die Daten werden (endgültig) aggregiert, sprich „verstümmelt“. Wenn eine Datenbank nur noch die Information enthält, dass 47 Personen in der Datenbank Schuhgröße 43 haben, kann weder die Zuordnungsinformation für die einzelne Person ermittelt werden noch – in der Folge – deren Identität. In diesem Zusammenhang hat der Datenschutzbeauftragte für Baden-Württemberg in seinem Ratgeber für Beschäftigtendatenschutz empfohlen, bei anonymen Mitarbeiterbefragungen auf eine Auswertung zu verzichten, wenn die (vermeintlich) anonymen Daten auf weniger als sieben Personen zurückzuführen sind. Denn bei einer geringeren Anzahl von Betroffenen könne eine Zuordnung grundsätzlich möglich sein, auch wenn vermeintlich anonyme Daten verarbeitet werden.

Oder die Einträge werden verwürfelt, also zufällig neu zusammengesetzt. Dies hat den Vorteil, dass die Daten unter Umständen „statistisch korrekt“ bleiben, aber Einzelfälle nicht mehr rekonstruierbar sind. Dies führt zur sogenannten „differential privacy“, die von Wikipedia wie folgt definiert wird:

Differential Privacy (engl. für ‚differentielle Privatsphäre‘) hat das Ziel, die Genauigkeit von Antworten zu Anfragen an Datenbanken zu maximieren, unter Minimierung der Wahrscheinlichkeit, die zur Beantwortung verwendeten Datensätze identifizieren zu können. Der Begriff fällt in den Bereich des sicheren, Privatsphären erhaltenden Veröffentlichens von sensiblen Informationen. Mechanismen, die Differential Privacy erfüllen, verhindern, dass Angreifer unterscheiden können, ob eine bestimmte Person in einer Datenbank enthalten ist oder nicht.

Was demgegenüber nicht so einfach funktioniert, ist, einfach eine Zuordnungsinformation zu löschen, sodass nicht mehr nachvollzogen werden kann, wer „1234“ ist. Schon mit internen Mitteln des Verantwortlichen ist die Identität manchmal bestimmbar, mit den Mitteln eines „instrumentalisierten“ Dritten häufiger.

Identifizierbarkeit als „on/off“-Problematik

Der – an dieser Stelle fast schon vergessene – Ausgangsfall enthält in diesem Kontext eine weitere Wendung im Dickicht der Anonymisierung, die in der datenintensiven Praxis bedacht werden muss. Erhält der Verantwortliche, selbst wenn er die Zuordnungsinformation gelöscht hat, zu einem späteren Zeitpunkt neue Daten, die in der Gesamtschau den Personenbezug wieder herstellen lassen, so führt dies dazu, dass auch der Schutz des Datenschutzrechts wieder auflebt. Die Daten können im Zeitraum bis dahin durchaus anonym gewesen sein. Aber häufig wird der Verantwortliche das Hinzutreten neuer Zuordnungsinformationen gar nicht bemerken, zumal in komplexeren Organisationen. Es genügt, dass er zu einem späteren Zeitpunkt (wieder) in die Lage versetzt wird, durch das Zusammenführen von Datenbeständen – die Aufsichtsbehörden sprechen von „Verkettung“ – den Personenbezug wieder herzustellen, und dass die dafür erforderlichen Mittel „nach allgemeinem Ermessen wahrscheinlich genutzt werden“. Dabei sind – nach Erwägungsgrund 26 – die Kosten, der Zeitaufwand, die verfügbare Technologie und die technologischen Entwicklungen zu berücksichtigen.

Im Ausgangsfall könnten die Daten im „data lake“ der Huber AG mit den Kundendaten der Maier GmbH verknüpft werden und mit großer Wahrscheinlichkeit verschiedene Kunden der Huber AG re-identifiziert werden. Hat beispielsweise ein Kaufmann, der ein Ladengeschäft für Bett- und Unterwäsche betreibt, sowohl bei der Huber AG als auch bei der Maier GmbH Ware in bestimmtem Umfang geordert, wird sein Gesamt-„Profil“ in beiden Datenmengen sehr ähnlich sein. Die Zuordnung seiner Identität, die mit den Daten der Maier GmbH möglich ist, kann dann auch auf die entsprechenden Daten der Huber AG übertragen werden. Die dafür notwendigen Mittel sind heutzutage für jedes Unternehmen, das einen „data lake“ betreibt, „in Reichweite“.

Zwar greift die DSGVO insgesamt nur dann ein, wenn personenbezogene Daten irgendwie tatsächlich als solche „verarbeitet“ werden, aber auf eine explizite Kenntnis des bestehenden Personenbezugs aufseiten des Verantwortlichen kommt es nicht an. Jeder Zugriff bzw. jede „Umspeicherung“ der entsprechenden Daten der Huber AG und/oder der Maier GmbH stellt eine datenschutzrechtlich relevante Verarbeitungshandlung dar, und zwar unabhängig davon, ob der Huber AG (bzw. ihren Mitarbeitern) dies „bewusst“ ist, und unabhängig davon, ob sie von den verfügbaren Mitteln zur Re-Identifizierung Gebrauch macht. Die Identifizierbarkeit der natürlichen Person ist ein „on/off“-Kriterium, auf dessen Vorliegen die Anwendbarkeit des gesamten Datenschutzrechts beruht, und kein „Graukeil“ im Sinne eines gleitenden Maßstabes.

Wenn man den Fall abstrahiert, müssten Verantwortliche beständig Datenmengen, deren Anonymität sie unterstellen, anhand sämtlicher ihnen sonst zur Verfügung stehender Daten daraufhin überprüfen, ob ihnen nicht eine De-Anonymisierung der für anonym gehaltenen Daten möglich ist und damit die Schwelle zur Identifizierbarkeit „gerade so“ überschritten wurde. In diesem Fall muss der Verantwortliche die „nicht mehr anonymen“, also nun (wieder) personenbezogenen Daten entsprechend behandeln – mit allen datenschutzrechtlichen Konsequenzen wie Pflichtinformationen nach der Re-Identifizierung, Bestimmung der Legitimationsgrundlage, Anwendung risikoangemessener technischer und organisatorischer Maßnahmen, Einhaltung der „privacy by design“-Vorgaben, ggf. Durchführung einer Datenschutz-Folgenabschätzung, ggf. Abschluss einer Auftragsverarbeitungsvereinbarung mit Dritten und dergleichen mehr. Es ist auch offen, welche Anstrengungen in diesem Fall unternommen werden müssen, um den Betroffenen „zu Ende zu identifizieren“, etwa um diesen informieren oder seine Einwilligung einholen zu können. Eigentlich ergibt sich aus Art. 11 DSGVO, dass der Verantwortliche nicht zu einer „Zu-Ende-Identifizierung“, nur um Betroffenenrechte wahren zu können, verpflichtet ist. Denn diese würde nur zur Erhebung von noch mehr personenbezogenen Daten einzig zum Zweck der Einhaltung der DSGVO führen, was der Gesetzgeber nicht gutheißen wollte (s. auch Fall 39). Die entscheidende Frage hierbei wird aber sein, ob nicht der Verantwortliche schon alle relevanten Informationen hat, also nur „richtig danach suchen“ muss, oder ob er zusätzliche Informationen von Dritten einholen muss („Identitätsrecherche“). Nur letzteres wollte der Gesetzgeber dem Verantwortlichen erlassen.

Insbesondere in größeren Unternehmen dürfte diese Aufgabe des permanenten Abgleichs und der Folgen bei der „Entdeckung neuer personenbezogener Daten“ kaum mit überschaubaren Mitteln und in praktikablen (zu dokumentierenden!) Prozessen zu bewältigen sein. Hinzu kommt auch noch die laufende Überwachung der Frage, welche neuen Technologien sich etabliert haben, deren Anwendung „wahrscheinlich“ geworden ist. Nur am Rande sei in diesem Zusammenhang darauf hingewiesen, dass der Europäische Datenschutzausschuss in Empfehlungen vom November 2019 zum Thema „privacy by design/by default“ das ständige Monitoring der Weiterentwicklung des „state of the art“ sowohl bei technischen als auch bei organisatorischen Maßnahmen hervorgehoben hat:

the reference to “state of the art” imposes an obligation on controllers, when determining the appropriate technical and organisational measures, to take account of the current progress in technology that is available in the market. This means that controllers must have knowledge of and stay up to date on technological advances, how technology can present data protection risks to the processing operation, and how to implement the measures and safeguards that secure effective implementation of the principles and rights of data subjects in face of the technological landscape. [...] The “state of the art” criterion does not only apply to technological measures, but also to organisational ones. Lack of adequate organisational measures can lower or even completely undermine the effectiveness of a chosen technology.

Ob ungeachtet dessen eine (öffentliche?) „Selbstverpflichtung“ des Verantwortlichen, keine Re-Identifizierung zu betreiben, selbst wenn er das könnte, hilft, ist offen. Dem Verantwortlichen bliebe damit nur der („sichere“) Ausweg, selbst für anonym gehaltene Daten „wie“ personenbezogene Daten zu behandeln. Dass dadurch der begriffliche Anspruch der DSGVO, „nur“ personenbezogene Daten zu regulieren, in sein Gegenteil verkehrt wird, und der Anwendungsbereich der komplementären EU-Verordnung „über einen Rahmen für den freien Verkehr nicht-personenbezogener Daten in der Europäischen Union“ noch weiter schrumpft, ist da nur eine Petitesse.

Einen hab‘ ich noch!

Wer an dieser Stelle von der Komplexität des Themas noch nicht genug hat, der kann sich mit einer weiteren Windung auseinandersetzen: Nach Ansicht der Art.-29-Datenschutzgruppe in ihrem Working Paper 216 (2014) ist die Anonymisierung personenbezogener Daten als solche – als „Schritt aus dem Datenschutzrecht“ – eine Verarbeitungshandlung, die datenschutzrechtlich legitimiert sein muss. Da die Anonymisierung unter diesem Blickwinkel meist eine Zweckänderung darstellen wird, muss also der Betroffene von der bevorstehenden Anonymisierung durch eine Zweckänderungsmitteilung in Kenntnis gesetzt werden. Ist die Anonymisierung als Verarbeitungshandlung nicht mit dem ursprünglichen Zweck kompatibel, muss eine Legitimationsgrundlage für die Anonymisierung geschaffen werden. Bei Anonymisierung von Daten mit hohem Risiko muss eine Datenschutz-Folgenabschätzung durchgeführt werden. Von der österreichischen Datenschutzbehörde wurde diese – von Juristen als „absurd“ und praxisfern bezeichnete – Theorie im oben aufgeführten Fall nicht thematisiert.

Nach der sog. „DSFA-Muss-Liste“ („blacklist“), die Fälle auflistet, in denen in jedem Fall eine Datenschutz-Folgenabschätzung durchzuführen ist (Art. 35 Abs. 4 DSGVO), findet sich unter Ziff. 15 der Eintrag:

Anonymisierung von besonderen personenbezogenen Daten nach Artikel 9 DS-GVO nicht nur in Einzelfällen (in Bezug auf die Zahl der betroffenen Personen und die Angaben je betroffener Person) zum Zweck der Übermittlung an Dritte“.

Als Beispiel wird angegeben:

Umfangreiche besondere personenbezogene Daten werden durch ein Apothekenrechenzentrum oder eine Versicherung anonymisiert und zu anderen Zwecken selbst verarbeitet oder an Dritte weitergegeben.

Hier ist sogar beim „Schritt aus dem Datenschutzrecht“ erhöhter Aufwand im Vorfeld in Gestalt einer Datenschutz-Folgenabschätzung – obwohl die Daten danach gar nicht mehr dem Datenschutzrecht unterliegen – zu betreiben. Es kann nur vermutet werden, dass die Motivation der Datenschutzbehörden hier darin lag, dem Verantwortlichen eine besondere Prüfpflicht als Warnung aufzuerlegen, damit dieser sich vertieft mit der Frage beschäftigt, ob die Anonymisierung auch wirklich zu anonymen Daten führt.

Es wird also spannend, wenn erstmals ein Betroffener gegen eine Anonymisierung seiner Daten mit der Begründung vorgeht, man habe ihn davon nicht in Kenntnis gesetzt und es mangele an einer Legitimationsgrundlage. Oder eine Behörde die Anonymisierung aus diesen Gründen kritisiert und ein Bußgeld verhängt. Beides nicht sehr wahrscheinlich? Man wird sehen.

Diese News könnten Sie auch interessieren
Alle News
Mehr laden
Diese Vorträge & Veröffentlichungen könnten Sie interessieren
Alle Vorträge & Veröffentlichungen
Mehr laden