“قد نشارك البيانات المجمعة مع شركائنا.”
“قد نشارك البيانات التي يتم تجميعها أو إلغاء تحديدها.”
“يقوم منتجنا بجمع بيانات مجهولة المصدر لأغراض التحليل.”
تجادل العديد من المؤسسات بأنها تحمي الخصوصية من خلال استخدام بيانات مجمعة أو غير محددة الهوية أو مجهولة. ومع ذلك ، هل يفهم مستخدموها معنى المصطلحات؟ ما هي البيانات الإجمالية? هل هناك فرق بين البيانات المجهولة الهوية والمجهولة? للباحثين ، أي مجموعات البيانات لها قيمة أكبر: مجمعة أو مجهولة المصدر?
يوافق المستخدمون غالبًا على مشاركة البيانات الشخصية مع إلغاء تحديد الهوية ، دون استيعاب التفاصيل.
إذا كنت قد تساءلت يومًا عما يحدث ، فلا عجب بعد الآن. إليك دليلك الخاص بفك تعريف البيانات وتجميعها ومستويات عدم الكشف عن هويتها.
تجميع البيانات: للجمع والتلخيص
إذن ، ما هي البيانات الإجمالية؟ يشير التجميع إلى عملية استخراج البيانات الشائعة في الإحصائيات. المعلومات قابلة للعرض فقط في مجموعات وكجزء من الملخص ، وليس لكل فرد. عندما يعتمد علماء البيانات على البيانات الإجمالية ، لا يمكنهم الوصول إلى المعلومات الأولية. في حين أن, تجمع البيانات المجمّعة التفاصيل وتجمعها وتنقلها من حيث الإجماليات أو الملخص. تسمح العديد من الإحصاءات الشائعة ولغات قواعد البيانات بالوظائف التجميعية ، مع توفير برامج تعليمية لكل من R و SQL و Python.
ضع في اعتبارك ما يلي: تقوم إحدى شركات التسويق بإجراء استطلاع لمعرفة ما إذا كان الناس يفضلون العلامة التجارية لشركتهم أو منافسيهم. عندما يقدمون البيانات إلى الإدارة ، يكون ذلك بشكل إجمالي: إظهار العلامة التجارية الأكثر شهرة. قد تتضمن معلومات إضافية عن المجموعات التي تحدثوا إليها ، مثل تفضيل التصويت حسب العمر أو الموقع. من خلال المعلومات الإجمالية ، يمكننا الحصول على تفاصيل حول العلامات التجارية الشائعة حسب العمر أو في مناطق معينة ، ولكن التفاصيل الدقيقة عن كيفية تصويت الأفراد لم يتم الكشف عنها أبدًا.
يمكن تجميع حماية الخصوصية?
نظرًا لأن تجميع البيانات يعرض المعلومات في مجموعات فقط ، يعتبر الكثيرون أنها حماية لحماية المعلومات الشخصية. بعد كل شيء ، لا يمكنك المساومة على الخصوصية إذا كانت البيانات تظهر فقط نتائج مجموعات الأفراد ، أليس كذلك?
للأسف ، ليست بهذه السهولة. مع التحليل الصحيح ، يمكن أن تكشف المعلومات الإجمالية تفاصيل شخصية بشكل كبير. ماذا لو سألت بيانات المدونة الإجمالية: كم عدد الزوار الذين تحصل عليهم من أيرلندا ، والذين يشاهدون المدونة على الهاتف الذكي؟ ماذا لو طلبت عدد الزوار من أيرلندا ، الذين يستخدمون الهاتف الذكي ، في يوم واحد؟ أو الزوار من أيرلندا الذين يستخدمون الهاتف الذكي ، والنقر على إعلان أمازون للملابس الرجالية في يوم واحد؟ من خلال تطبيق عدة مرشحات محددة ، قد يكون من الممكن تمييز فرد ، مقصود أم لا. يمكن للتجميع حماية الخصوصية ، ولكن ليس هناك ما يضمن أن ذلك دائمًا ما يفعل.
بالنسبة للمؤسسات التي تستخدم تجميع البيانات ، لدى Ed Felton مع FTC تحذير: يمكن أن تكون البيانات المجمعة مفيدة ، لكنها لا تضمن الخصوصية.
“إن الحجة البسيطة المتمثلة في أنها بيانات مجمعة ، وبالتالي آمنة لإصدارها ، ليست كافية بحد ذاتها.”
عدم تحديد الهوية: إزالة التفاصيل الشخصية
إزالة الهوية هي عملية تزيل التفاصيل الشخصية من مجموعة بيانات. يهدف هذا النهج إلى حماية الخصوصية مع توفير بيانات شاملة للتحليلات. بعض البيانات أفضل في تحديد الأفراد أكثر من غيرها. يسهل علينا تحديد متى تتضمن البيانات الاسم والعنوان والبريد الإلكتروني وتاريخ الميلاد أو عوامل فريدة أخرى. مع إلغاء تحديد الهوية ، نزيل تلك المعرفات الفريدة من البيانات الأولية.
يجوز لمتجر البيع بالتجزئة الذي يستخدم إلغاء تحديد الهوية تتبع عمليات الشراء الفردية والتواريخ ومواقع المتجر ، ولكن إزالة الأسماء والعناوين. بينما “سوزان سميث من 75 كلارك درايف في غريت فولز ، مونتانا تتاجر بالكتب الهندسية” ، تسجلها قاعدة بيانات المتجر بأنها “مستخدم لموقع مونتانا الذي يشتري الكتب الهندسية”. تنزع الهوية عن اسم سوزان ومعرفاتها حتى يمكن أن يأتي شرائها من أي شخص.
إلغاء الهوية هو حماية خصوصية شائعة بشكل خاص مع العيادات والمؤسسات التي تعالج المعلومات الصحية. يتناول قانون قابلية التأمين الصحي والمساءلة (HIPAA) إلغاء تحديد الهوية بموجب القسم 164.514. وفقًا لـ HIPAA ، تكون المعلومات غير قابلة للتحديد متى
“لا يوجد أي أساس معقول يمكن استخدام المعلومات لتحديد هوية الفرد”.
يسمح HIPAA ببعض البدلات للبيانات غير المحددة ، مثل الكشف عن الأبحاث أو للموظفين العموميين.
من إلغاء التعرّف إلى إعادة التعرّف: قد لا يستغرق الأمر الكثير.
لسوء الحظ بالنسبة للمنظمات التي قد تأمل في إلغاء تحديد الهوية كضمان ، يرى الكثيرون الآن أنها حماية سيئة. يمكن تعريف الأشخاص بأكثر من الأسماء والأرقام ، وذلك بفضل مجموعات البيانات التفصيلية. إذا كانت وظيفة موضوع البيانات هي “عمدة” وكانت البيانات الأولية تتضمن المدينة ، فلن يستغرق الأمر كثيرًا لمعرفة من الذي.
ظهرت قضية Netflix في عام 2006 وهي قضية شائعة للغاية تتمثل في تسليط الضوء على عيب إلغاء الهوية. لكل Robert Lemos من SecurityFocus ، في مسابقة لتحسين خوارزمية الشركة ، أصدرت Netflix مجموعة من مليوني مشترك. قامت الشركة بإلغاء تحديد مجموعة البيانات عن طريق إزالة أسماء المستخدمين. ولكن لمفاجأتهم ، تمكن الباحثون من أوستن من تحديد المستخدمين. لقد فعلوا ذلك عن طريق استخدام البيانات المتاحة وملء الفراغات من مصادر أخرى: الجمع بين تقييمات المستخدمين وقاعدة بيانات عامة لعشرات الأفلام. وغني عن القول ، وفقًا لموقع Epic.org ، ألغت Netflix المسابقة.
كما أن إزالة الهوية معيبة نظرًا لعدم وجود اتفاق عالمي على المعلومات التي يمكن تحديدها شخصيًا. هل يتم إلغاء تحديد البيانات في حالة بقاء عناوين IP؟ ماذا عن تواريخ الميلاد؟ المعايير موجودة ، بما في ذلك HIPAA’s Safe Harbor ، ولكن هل هذه كافية؟ وفقًا لـ Privacy Analytics ، وهي جزء من مجموعة شركات IQVIA ، لا تضمن Safe Harbour في الواقع أن يكون خطر إعادة التعريف منخفضًا إلا في ظروف محدودة للغاية. “وهذا خبر سيء بالنسبة للمؤسسات الصحية التي تعتمد عليها ، نظرًا لكل HIPAA القسم § 164.514.2.ii ، تكون البدلات الخاصة بالبيانات غير المحددة مقبولة فقط إذا لم يكن هناك دليل على أنه يمكن إعادة تحديد البيانات. الدراسات الحديثة على مدى السنوات العشر الماضية ، بما في ذلك المخاطر على خصوصية المريض: إعادة تحديد هوية المرضى في بيانات مستشفى ولاية مين وفيرمونت على مستوى الولاية الآن يعني الحاجة إلى معايير جديدة.
ماذا عن البيانات المشفرة؟ Tokenization?
تعتبر البيانات المشفرة والرموز الرمزية طرقًا قوية لحماية البيانات الحساسة. بالنسبة للبيانات المشفرة ، يتم تجريد كل المعلومات الحساسة واستبدالها بكلمات أو أرقام أكواد أو معرفات فريدة. يتم تعيين الرموز إلى قاعدة بيانات أخرى أو مستند يعمل كمفتاح. يتم إعادة تعريف المعلومات عن طريق مطابقة الكود مع بياناته الحساسة المقابلة.
في رمزية ، نحن أتمتة العملية ، واستبدال البيانات الحساسة مع متغير مرجعي. يتم تعيين الرمز المميز مع قاعدة بيانات أكثر أمانًا تحتوي على المعلومات الحساسة. عند معالجة المعلومات ، يقوم النظام بتحليل الرموز المميزة مقابل السجلات في قاعدة البيانات الآمنة. إذا عثر على تطابق الرمز المميز ، تستمر المعالجة في استخدام البيانات الحساسة.
البيانات المشفرة والرموز تحمي أمن المعلومات. إنها فعالة لأنها تخفي فقط البيانات الحساسة. إذا أراد أحد المحللين معالجة البيانات دون الرجوع إلى التفاصيل الشخصية ، فيمكنهم ذلك. وبالمثل ، فإن مجموعات البيانات التي تستخدم معرفات الرمز أو الرموز المميزة تكون أكثر أمانًا ضد السرقة. إذا تم اختراق البيانات ، تظل البيانات الحساسة مخفية. على سبيل المثال ، لا يمكن للمهاجم الذي يسرق البيانات على مبيعات بطاقات الائتمان رؤية أرقام البطاقات إذا كانت الرموز المميزة قيد الاستخدام.
ومع ذلك ، عليك أن تدرك أنه على الرغم من أن الرموز المميزة والبيانات المشفرة والمعرفات الفريدة تقدم أمانًا أفضل ، إلا أنها لا تجعل البيانات مجهولة. لا تزال البيانات التي تستخدم الرموز المميزة أو معرفات الرموز خاضعة لقوانين الخصوصية. قوانين الخصوصية ليست معنية فقط بخرق البيانات والوصول إليها. تعمل تشريعات الخصوصية على تقليل سوء الاستخدام المحتمل للبيانات الشخصية. طالما أنه يمكن إعادة تعريف البيانات ، بترخيص ، يجب أن تكون اتفاقيات الخصوصية سارية.
بيانات مجهولة المصدر: لا يمكننا معرفة من أنت … أو يمكننا ذلك?
تشير البيانات مجهولة المصدر إلى المعلومات عندما يكون من المستحيل تحديد الأفراد. مجموعات البيانات مجهولة المصدر حقًا هي حلم متحمس للخصوصية. تعد القدرة على جمع البيانات وتخزينها وتحليلها دون القدرة على التعرف على الأفراد بمثابة حماية مثالية. بالنسبة للمؤسسات التي تمكنت من الحفاظ على سرية بياناتها ، فإن الفوائد هائلة. من السهل بيع البيانات المجهولة ومعالجتها وتحليلها والاحتفاظ بها ، حيث تتطلب حماية أقل من الحماية.
يتم تطبيق قواعد أقل: تُعفى البيانات المجهولة غالبًا من تشريعات الخصوصية ، بما في ذلك اللائحة العامة لحماية البيانات في الاتحاد الأوروبي. وفقًا لمعلومات الناتج المحلي الإجمالي ، لا تخضع المعلومات “التي لا تتعلق بشخص طبيعي محدد أو يمكن التعرف عليه أو إلى بيانات شخصية مجهولة المصدر بطريقة لا يمكن تعريف موضوع البيانات أو لم تعد قابلة للتعريف” لشروط الخصوصية.
كيف تجعل البيانات مجهولة؟ تنقسم معظم التقنيات إلى واحدة من ثلاث فئات: التشفير ، والتعميم (المعروف أيضًا باسم إعادة الترميز) ، والعشوائية.
طرق التشفير تشفير المعلومات في التخزين ، مما يجعل البيانات مجهولة المصدر حتى يتم فك تشفيرها للاستخدام. هذا يحمي البيانات ولكن يعني إعادة تحديد الهوية يمكن أن يحدث عندما يتم فك تشفير البيانات للمعالجة.
تقنيات التعميم الاقتراض من تجميع البيانات وإلغاء تحديد الهوية ، لإزالة المعرفات عمداً وتقليل البيانات الدقيقة. تحت التعميم ، على سبيل المثال ، يصبح ارتفاع الشخص أو وزنه نطاقًا ، بدلاً من الرقم الدقيق.
العشوائية يشوه النتائج عن طريق إضافة البيانات ونقل العناصر حولها بحيث تكون نتائج إعادة التعريف مليئة بالأخطاء. توفر المبادئ التوجيهية لإدارة البيانات لأرشيف بيانات العلوم الاجتماعية الفنلندية تفسيرات متعمقة حول تقنيات الكشف عن الهوية والبيانات الكمية والكمية..
لماذا قد نحتاج إلى التخلي عن فكرة بيانات مجهولة المصدر تمامًا
لسوء الحظ ، لم تعد القدرة على إخفاء البيانات الشخصية مجهولة. براعة التي يمكن استخدامها لإعادة تحديد الأفراد أمر مذهل تماما. الكتابة لصحيفة الغارديان ، تسرد أوليفيا سولون أمثلة على استخدام صور المصورين المصورين وتسجيلات سيارات الأجرة المجهولة لإنشاء شاحنات قلابة سيئة السمعة. كتب Cory Doctorow لموقع BoingBoing.net أن الصحفي Svea Eckert وعالم البيانات Andreas Dewes حددا نظام الدواء الخاص بألماني ألماني من خلال البيانات التي تم جمعها بواسطة المكونات الإضافية للمتصفح. في يوليو 2023 ، نشرت صحفية صحيفة نيويورك تايمز جينا كولاتا أدلة على أن العلماء يمكنهم إعادة تحديد بيانات التعداد الأمريكي “المجهول”. بين التقدم في علم البيانات ومجموعة متزايدة من البيانات لملء الفجوات ، قد يصبح مفهوم البيانات المجهولة بلا معنى.
لذلك إذا لم تكن أي من هذه التقنيات تحمي الخصوصية بشكل كامل ، فماذا نفعل؟?
أولاً ، أدرك أنه على الرغم من أن مجموعات البيانات المجمعة وغير المحددة الهوية والمجهولة الهوية لا تحمي الخصوصية تمامًا ، إلا أنها لا تزال توفر مستوى من الحماية. إذا تم تجميع بياناتك أو إلغاء تحديدها أو عدم الكشف عن هويتها ، فهناك فرصة أقل في قراءتها بواسطة المعالجات اليومية. لحسن الحظ ، يتطلب سحب المعلومات الشخصية من هذه البيانات التي تمت معالجتها بشدة أدوات ومهارات غير متوفرة لكل فرد.
ثانياً ، كن على علم إذا رأيت هذه العبارات في سياسات الخصوصية أو شروط الاستخدام التي لا تزال معلوماتك الشخصية قابلة للوصول إليها. لا تزال الخدمة التي تجمع بيانات مجهولة تقوم بجمع المعلومات الشخصية. لا تزال الشركات التي تشارك معلومات مجمعة أو غير محددة الهوية تتقاسم التفاصيل الشخصية: ما هي مشاعرك حيال ذلك?
إذا كنت تدير نشاطًا تجاريًا يستخدم التجميع أو إلغاء تحديد الهوية أو إخفاء الهوية ، فيجب أن تدرك أن هذه لا يمكن أن تكون ضماناتك الوحيدة. يجب أن تظل هناك إجراءات حماية مادية وفنية وإدارية أخرى مطبقة. لا يزال من الممكن أن يكلفك خرق البيانات للبيانات التي تم تحديدها ، لا سيما إذا كان هناك دليل على أنه يمكن جمع التفاصيل الشخصية. استخدم هذه التقنيات كأداة ، ولكنها ليست النهاية الكاملة لبرامج الخصوصية والأمان.
أنظر أيضا: اتجاهات خرق البيانات
ية فعالة ، حيث يتم إزالة المعلومات الشخصية الحساسة من البيانات ، مما يجعل من الصعب تحديد هوية الأفراد. ومع ذلك ، يجب علينا أن نتذكر أنه في بعض الأحيان يمكن للتحليل الصحيح للبيانات المجهولة الهوية أن يكشف عن تفاصيل شخصية. لذلك ، يجب علينا أن نكون حذرين ونتخذ إجراءات إضافية لحماية الخصوصية ، مثل تشفير البيانات واستخدام تقنيات الرمز المميز. يجب أن نتذكر أن حماية الخصوصية هي مسؤولية مشتركة بين المؤسسات والمستخدمين ، ويجب علينا جميعًا أن نعمل معًا لتحقيق هذا الهدف.