Verstehen von aggregierten, nicht identifizierten und anonymen Daten

Verstehen von aggregierten, nicht identifizierten und anonymen Daten


"Wir können aggregierte Daten mit unseren Partnern teilen."

"Wir können Daten teilen, die aggregiert oder nicht identifiziert sind."

"Unser Produkt sammelt anonyme Daten für Analysezwecke."

Viele Organisationen argumentieren, dass sie die Privatsphäre durch die Verwendung aggregierter, nicht identifizierter oder anonymer Daten schützen. Verstehen ihre Benutzer jedoch, was die Begriffe bedeuten? Was sind aggregierte Daten?? Gibt es einen Unterschied zwischen nicht identifizierten und anonymen Daten?? Für Forscher, welche Datensätze mehr Wert haben: aggregiert oder anonym? 

Benutzer erklären sich häufig damit einverstanden, personenbezogene Daten mit der Deaktivierung zu teilen, ohne die Details zu erfassen.

Wenn Sie sich jemals gefragt haben, was los ist, fragen Sie sich nicht mehr. Hier ist Ihr Leitfaden zur Datenidentifizierung, -aggregation und zu den verschiedenen Anonymitätsebenen.

Aggregierte Daten: kombinieren und zusammenfassen

Was sind also aggregierte Daten? Aggregation bezieht sich auf einen in der Statistik beliebten Data Mining-Prozess. Informationen können nur in Gruppen und als Teil einer Zusammenfassung angezeigt werden, nicht für den Einzelnen. Wenn sich Data Scientists auf aggregierte Daten verlassen, können sie nicht auf die Rohdaten zugreifen. Stattdessen, aggregierte Daten sammeln, kombinieren und kommunizieren Details in Form von Summen oder Zusammenfassungen. Viele beliebte Statistik- und Datenbanksprachen ermöglichen Aggregatfunktionen, wobei Lernprogramme für R, SQL und Python verfügbar sind.

Beachten Sie Folgendes: Ein Marketingunternehmen führt eine Umfrage durch, um festzustellen, ob die Kunden die Marke ihres Unternehmens oder die der Konkurrenz bevorzugen. Wenn sie die Daten dem Management präsentieren, werden sie in aggregierter Form angezeigt: Es wird angezeigt, welche Marke am beliebtesten ist. Sie können zusätzliche Informationen zu den Gruppen enthalten, mit denen sie gesprochen haben, z. B. die Wahlpräferenz nach Alter oder Ort. Mit aggregierten Informationen können wir Details darüber erhalten, welche Marken nach Alter oder in bestimmten Regionen beliebt sind, aber die genauen Details darüber, wie Einzelpersonen abgestimmt haben, werden nie preisgegeben.

Kann Aggregation die Privatsphäre schützen?

Da bei der Datenaggregation Informationen nur in Gruppen angezeigt werden, wird sie von vielen als Schutzmaßnahme für persönliche Informationen angesehen. Schließlich können Sie die Privatsphäre nicht gefährden, wenn die Daten nur die Ergebnisse für Gruppen von Personen anzeigen, richtig?

Leider ist es nicht so einfach.  Mit der richtigen Analyse können aggregierte Informationen wichtige persönliche Details preisgeben. Was passiert, wenn Sie die gesammelten Blogdaten abfragen: Wie viele Besucher kommen aus Irland, die den Blog auf einem Smartphone anzeigen? Was ist, wenn Sie an einem Tag nach der Anzahl der Besucher aus Irland fragen, die ein Smartphone benutzen? Oder Besucher aus Irland, die ein Smartphone verwenden und an einem Tag eine Amazon-Anzeige für Herrenbekleidung angeklickt haben? Durch die Anwendung mehrerer spezifischer Filter kann möglicherweise eine einzelne Person herausgegriffen werden, ob beabsichtigt oder nicht. Aggregation kann die Privatsphäre schützen, es gibt jedoch keine Garantie dafür, dass dies immer der Fall ist.

Für Unternehmen, die Datenaggregation verwenden, gibt es bei Ed Felton mit der FTC eine Warnung: Aggregierte Daten können nützlich sein, garantieren jedoch keinen Datenschutz.

"Das einfache Argument, dass es sich um aggregierte Daten handelt, die sicher freigegeben werden können, reicht für sich allein nicht aus."

Entidentifizierung: Entfernen persönlicher Daten

Die Deaktivierung ist ein Vorgang, bei dem persönliche Daten aus einem Datensatz entfernt werden. Dieser Ansatz zielt darauf ab, die Privatsphäre zu schützen und gleichzeitig umfassende Daten für die Analyse bereitzustellen. Einige Daten können Personen besser identifizieren als andere. Wir sind leicht zu identifizieren, wenn die Daten unseren Namen, Adresse, E-Mail, Geburtsdatum oder andere eindeutige Faktoren enthalten. Mit der Deaktivierung entfernen wir diese eindeutigen Bezeichner aus den Rohdaten. 

Ein Einzelhandelsgeschäft, in dem die Identifizierung aufgehoben wird, kann einzelne Käufe, Daten und Geschäftsstandorte nachverfolgen, jedoch die Namen und Adressen entfernen. Während „Susan Smith vom 75 Clark Drive in Great Falls, Montana, nach technischen Büchern kauft“, wird sie in der Datenbank des Geschäfts als „Benutzerin des Standorts Montana, die technische Bücher kauft“ erfasst. Bei der Deaktivierung werden Susans Name und die zugehörigen Kennungen entfernt, damit sie von jedem gekauft werden kann.

Bei Kliniken und Organisationen, die Gesundheitsinformationen verarbeiten, ist die Deaktivierung ein besonders beliebter Schutz der Privatsphäre. Das Gesetz über die Portabilität und Rechenschaftspflicht von Krankenversicherungen (HIPAA) regelt die Entidentifizierung gemäß Abschnitt 164.514. Laut HIPAA sind Informationen nicht identifizierbar, wenn

„Es gibt keine vernünftige Grundlage, auf deren Grundlage die Informationen zur Identifizierung einer Person verwendet werden können.“.

Die HIPAA erlaubt einige Zulassungen für nicht identifizierte Daten, z. B. Offenlegungen für Forschungszwecke oder für Beamte.

Von deidentifiziert zu reidentifiziert: Es braucht vielleicht nicht viel.

Unglücklicherweise sehen viele Organisationen, die hoffen, die Ausweiskontrolle als Schutzmaßnahme einsetzen zu können, diese nun als unzureichenden Schutz an. Dank detaillierter Datensätze können Personen anhand von mehr als Namen und Nummern identifiziert werden. Wenn die Aufgabe einer betroffenen Person "Bürgermeister" ist und die Rohdaten "Stadt" enthalten, ist nicht viel erforderlich, um herauszufinden, wer wer ist.  

Ein äußerst beliebter Fall, bei dem der Fehler der Deidentifizierung hervorgehoben wurde, kam 2006 mit Netflix. Laut Robert Lemos von SecurityFocus hat Netflix im Rahmen eines Wettbewerbs zur Verbesserung des Algorithmus des Unternehmens einen Satz von 2 Millionen Abonnenten veröffentlicht. Das Unternehmen hat den Datensatz durch Entfernen von Benutzernamen deidentifiziert. Zu ihrer Überraschung konnten Forscher aus Austin Nutzer identifizieren. Dabei wurden die verfügbaren Daten verwendet und die Lücken aus anderen Quellen ausgefüllt: Benutzerbewertungen wurden mit einer öffentlichen Datenbank mit Filmmusikpartituren kombiniert. Es erübrigt sich zu erwähnen, dass Netflix den Wettbewerb laut Epic.org abgesagt hat.

Die Deaktivierung ist auch fehlerhaft, da es keine allgemeine Vereinbarung darüber gibt, welche Informationen persönlich identifizierbar sind. Werden die Daten nicht identifiziert, wenn IP-Adressen verbleiben? Was ist mit Geburtsdaten? Es gibt Standards, einschließlich Safe Harbor der HIPAA, aber sind sie ausreichend? Laut Privacy Analytics, einem Teil der IQVIA-Unternehmensgruppe, stellt Safe Harbor „nicht wirklich sicher, dass das Risiko einer Neuidentifizierung gering ist, außer unter sehr begrenzten Umständen“ Abschnitt § 164.514.2.ii, Zulagen für nicht identifizierte Daten sind nur zulässig, wenn es keine Beweise dafür gibt, dass die Daten erneut identifiziert werden können. Aktuelle Studien in den letzten zehn Jahren, darunter Risiken für die Privatsphäre der Patienten: Eine Neuidentifizierung der Patienten in den landesweiten Krankenhausdaten von Maine und Vermont Jetzt sind neue Standards gefragt.  

Was ist mit codierten Daten? Tokenisierung?

Codierte Daten und Tokenisierung sind zuverlässige Methoden zum Schutz vertraulicher Daten. Bei codierten Daten werden alle vertraulichen Informationen entfernt und durch Codewörter, Zahlen oder eindeutige Kennungen ersetzt. Die Codes werden einer anderen Datenbank oder einem anderen Dokument zugeordnet, das als Schlüssel fungiert. Informationen werden neu identifiziert, indem der Code mit den entsprechenden vertraulichen Daten abgeglichen wird.  

Bei der Tokenisierung automatisieren wir den Prozess und ersetzen vertrauliche Daten durch eine Referenzvariable. Das Token wird einer sichereren Datenbank zugeordnet, in der die vertraulichen Informationen gespeichert sind. Bei der Verarbeitung von Informationen analysiert das System Token anhand von Datensätzen in der sicheren Datenbank. Wenn es die entsprechende Übereinstimmung des Tokens findet, wird die Verarbeitung mit den vertraulichen Daten fortgesetzt. 

Codierte Daten und Token schützen die Informationssicherheit. Sie sind effizient, weil sie nur sensible Daten verbergen. Wenn ein Analyst die Daten ohne Bezugnahme auf personenbezogene Daten verarbeiten möchte, kann er dies. Ebenso sind Datensätze, die Code-IDs oder Token verwenden, diebstahlsicherer. Wenn die Daten kompromittiert werden, bleiben sensible Daten verborgen. Beispielsweise kann ein Angreifer, der Daten über Kreditkartenverkäufe stiehlt, die Kartennummern nicht sehen, wenn Token verwendet werden. 

Beachten Sie jedoch, dass Token, codierte Daten und eindeutige Kennungen zwar eine bessere Sicherheit bieten, die Daten jedoch nicht anonymisieren. Daten, die Token oder Code-IDs verwenden, unterliegen weiterhin den Datenschutzbestimmungen. Datenschutzgesetze befassen sich nicht nur mit Datenschutzverletzungen und dem Zugriff. Datenschutzgesetze arbeiten daran, den potenziellen Missbrauch personenbezogener Daten zu minimieren. Solange die Daten mit Genehmigung erneut identifiziert werden können, müssen Datenschutzvereinbarungen getroffen werden. 

Anonyme Daten: Wir können nicht sagen, wer Sie sind ... oder können wir?

Anonyme Daten beziehen sich auf Informationen, bei denen eine Identifizierung von Personen nicht möglich ist.  Wirklich anonyme Datensätze sind ein Traum für Datenschutzbegeisterte. Die Möglichkeit, Daten zu sammeln, zu speichern und zu analysieren, ohne dass Personen erkannt werden können, ist ein idealer Schutz. Für Unternehmen, die es schaffen, ihre Daten anonym zu halten, sind die Vorteile enorm. Anonyme Daten sind einfacher zu verkaufen, zu verarbeiten, zu analysieren und zu speichern, da weniger Schutzmaßnahmen erforderlich sind. 

Es gelten weniger Regeln: Anonyme Daten sind häufig von Datenschutzgesetzen ausgenommen, einschließlich der Allgemeinen Datenschutzverordnung der EU. Gemäß der DSGVO unterliegen Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person oder auf personenbezogene Daten beziehen, die anonymisiert wurden, so dass die betroffene Person nicht oder nicht mehr identifizierbar ist, keinen Datenschutzanforderungen.

Wie anonymisieren Sie Daten? Die meisten Techniken fallen in eine von drei Kategorien: Kryptografie, Generalisierung (auch als Rekodierung bezeichnet) und Randomisierung. 

Kryptographische Methoden verschlüsseln Sie die gespeicherten Informationen und machen Sie die Daten anonym, bis sie zur Verwendung entschlüsselt werden. Dies schützt die Daten, bedeutet jedoch, dass eine erneute Identifizierung erfolgen kann, wenn die Daten zur Verarbeitung entschlüsselt werden. 

Generalisierungstechniken aus der Datenaggregation und -identifikation leihen, um Identifikatoren absichtlich zu entfernen und präzise Daten zu reduzieren. In der Verallgemeinerung wird beispielsweise die Größe oder das Gewicht einer Person zu einem Bereich anstelle der exakten Zahl. 

Randomisierung Die Ergebnisse werden verzerrt, indem Daten hinzugefügt und Elemente verschoben werden, sodass die Ergebnisse der Neuidentifizierung voller Fehler sind. Die Richtlinien zum Datenmanagement des finnischen Sozialwissenschaftlichen Datenarchivs enthalten ausführliche Erläuterungen zu Techniken zur Anonymisierung qualitativer und quantitativer Daten.

Warum müssen wir die Idee der anonymen Daten möglicherweise ganz aufgeben

Leider ist die Möglichkeit der Anonymisierung personenbezogener Daten möglicherweise nicht mehr gegeben. Der Einfallsreichtum, mit dem Personen neu identifiziert werden können, ist äußerst erstaunlich. Olivia Solon schreibt für The Guardian und nennt Beispiele für die Verwendung von Paparazzi-Aufnahmen und namenlosen Taxi-Protokollen, um prominente schlechte Trinkgelder zu ermitteln. Cory Doctorow schreibt für BoingBoing.net, dass die Journalistin Svea Eckert und der Datenwissenschaftler Andreas Dewes das Medikationsregime eines deutschen Parlamentsmitglieds anhand von Daten identifizierten, die von Browser-Plug-Ins gesammelt wurden. Im Juli 2019 veröffentlichte die New York Times-Journalistin Gina Kolata Beweise dafür, dass Wissenschaftler anonymisierte US-Volkszählungsdaten neu identifizieren können. Zwischen den Fortschritten in der Datenwissenschaft und einer zunehmenden Menge von Daten, um die Lücken zu füllen, kann das Konzept der anonymen Daten bedeutungslos werden.

Was tun wir also, wenn keine dieser Techniken die Privatsphäre vollständig schützt??

Beachten Sie zunächst, dass aggregierte, nicht identifizierte und anonymisierte Datensätze die Privatsphäre nicht vollständig schützen, aber dennoch ein gewisses Maß an Schutz bieten. Wenn Ihre Daten aggregiert, anonymisiert oder anonymisiert sind, besteht eine geringere Wahrscheinlichkeit, dass sie von täglichen Verarbeitern gelesen werden. Glücklicherweise erfordert das Abrufen persönlicher Informationen aus diesen stark verarbeiteten Daten Tools und Fähigkeiten, die nicht jedem Einzelnen zur Verfügung stehen.  

Wenn Sie diese Ausdrücke in Datenschutzrichtlinien oder Nutzungsbedingungen sehen, müssen Sie sich zweitens darüber im Klaren sein, dass auf Ihre persönlichen Daten weiterhin zugegriffen werden kann. Ein Dienst, der anonyme Daten sammelt, kann immer noch persönliche Informationen sammeln. Unternehmen, die aggregierte oder nicht identifizierte Informationen weitergeben, geben immer noch personenbezogene Daten weiter. Wie stehen Sie dazu?? 

Wenn Sie ein Unternehmen betreiben, das Aggregation, Deidentifizierung oder Anonymisierung verwendet, müssen Sie berücksichtigen, dass dies nicht Ihre einzige Sicherheitsmaßnahme sein kann. Sie sollten weiterhin andere physische, technische und administrative Schutzmaßnahmen ergreifen. Ein Verstoß gegen nicht identifizierte Daten kann Sie immer noch kosten, insbesondere wenn Beweise dafür vorliegen, dass personenbezogene Daten gesammelt werden können. Verwenden Sie diese Techniken als Werkzeug, jedoch nicht als Endergebnis für Datenschutz- und Sicherheitsprogramme.

Siehe auch: Trends bei Datenverletzungen 

Brayan Jackson Administrator
Candidate of Science in Informatics. VPN Configuration Wizard. Has been using the VPN for 5 years. Works as a specialist in a company setting up the Internet.
follow me
Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

66 − = 59

map