كيف يمكن للباحث، خصوصا في العلوم الإنسانية، أن يحمي عينة الدراسة؟ كيف له أن يطمئن إلى صدق ودقة إجابات أفراد العينة حين تكون الظاهرة المدروسة حساسة وشديدة الخصوصية. ظواهر مثل: العنف المنزلي، التحرش، الخيانة الزوجية، العادات والميول الجنسية. أحد التقنيات الإحصائية للحفاظ على الخصوصية هي «العشوائية» أي إدخال عنصر العشوائية في عملية جمع البيانات، حتى تكون محمية بالكامل. على نحو لا يتمكن فيه حتى الباحث نفسه من التعرف على بيانات شخص محدد.
الطريقة - وهي فعاّلة بشكل خاص في الأسئلة الثنائية (حين تكون الإجابة لا أو نعم) - تتلخص في الآتي: يقوم الباحث بتوجيه سؤال لموضوع البحث، لنقل: إن سؤال البحث هو: هل قمت من قبل بخيانة شريكك؟ لا يتعين على الشخص أن يجيب مباشرة، بل عليه أولا أن يرمي عملة معدنية، إذا ما استقرت العملة على وجهها فعليه أن يُقدم إجابة صادقة، أما إذا حطت على ظهرها، فعليه أن يرمي العملة مجددا. إذا استقرت على وجهها في المرة الثانية فعليه أن يجيب بنعم، أما في الثالثة فعليه أن يُجيب بلا.
على المستوى الفردي لا يمكن للباحث أن يستخلص نتائج موثوقة من فرد محدد - وحده المدروس يعرف كيف حطت العملة وإن كان قد قدم جوابا صادقا أو كاذبا، أما الدارس فلا علم لديه. لكن على المستوى الجمعي، يمكن للباحث استخلاص النتائج حول المجموعة بدقة عالية. يعلم الباحث أن احتمالية أن تحط العملة على وجهها هي 50% مما يعني أن نصف المدروسين قدموا إجابات صادقة، كما يعلم الباحث أن نصف من رموا العملة في المرة الثانية - بعد أن حطت على ظهرها - سيجيبون بنعم ونصفهم سيجيب بلا. وهذا كافٍ لحساب النسب الصحيحة. على سبيل المثال إذا ما حصلت على نسبة 5/12 في بحثك، فإن النسبة الصحيحة للذين سبق لهم أن خانوا شركاءهم ضمن العينة التي درستها هي الثلث.
تعتمد الكثير من الدراسات اليوم على البيانات التي تتيحها المؤسسات الرسمية بعد أن يتم - بالطبع - إخفاء المعلومات التي تكشف هويات المدروسين. تبين في عدة مناسبات أنه ومع إخفاء البيانات التي يمكن بسهولة أن تؤدي إلى الأشخاص - مثل: الاسم، العنوان، ورقم الرعاية الاجتماعية - يمكن مع ذلك الوصول إلى الأشخاص. يبقى بإمكانك مثلا التعرف على شخص إذا ما توفر تاريخ ميلاده، جنسه، المنطقة التي يعيش فيها.
كما حدث مع بيانات مستشفى ماساتشوستس، حين أكد المحافظ أن خصوصية المرضى ستكون محمية كون البيانات التي يمكن أن تُستخدم كمعرفات تمت إزالتها من مجموعة البيانات المنشورة. فما كان من إحدى طالبات الدكتوراه وقتها في جامعة MIT إلا أن استخرجت السجل الطبي للمحافظ كحركة مضادة وللتأكيد أن إخفاء هذه المعلومات غير كافٍ لحماية الخصوصية. حصلت سويني على قائمة المصوتين في كمبريج (المنطقة التي يعيش فيها المحافظ)، فتبين أن ستة أشخاص يشتركون مع المحافظ في تاريخ ميلاده، ثلاثة منهم ذكور، من هؤلاء الثلاثة شخص واحد فقط يعيش ضمن نطاق الزيب كود الذي يعيش فيه المحافظ، وعليه هناك سجل طبي وحيد تتطابق معلوماته مع معلومات المحافظ.
مثال آخر يسوقه كيرنز وروث في كتابهما «الخوارزميات الأخلاقية». في سعيها الحثيث لتطوير نظام توصيتها «تقوم خوارزميات التوصية باقتراح أفلام - أو كتب أو أي نوع من المنتجات حقا - بناء على تاريخ المشاهدات السابق للمستخدم» قامت نتفليكس بتدشين مسابقة تدعو فيها المطورين لتحسين نظام التوصية. ولهذا الغرض قامت بمشاركة مجموعة بيانات علنيا - بعد أن تخلصت من جميع المعلومات الشخصية - ليتسنى للمبرمجين وعلماء البيانات العمل واستخدام هذه البيانات كعينة دراسة. تخيل أن يستطيع أحدهم التعرف على أن سجلا ما ينتمي إليك فقط من خلال الأفلام والمسلسلات التي شاهدتها؟ هذا بالفعل ما حصل. نجح طالب آخر في التعرف على الأشخاص من خلال سجل مشاهداتهم على نتفليكس، وذلك عبر مقارنتها cross-referencing مع بيانات منصة تقييم ومراجعة الأفلام IMDB. رُفعت ضد نتفليكس وقتها قضايا من قبل الذين وجدوا أن ربط أسمائهم بالمواضيع التي شاهدوها يكشف أشياء خاصة عنهم «الميول الجنسية مثلا كما حدث مع إحدى الأمهات» وكشف مثل هذه المعلومات قد يؤثر على حياتهم ومستقبلهم.
المعضلة هنا هي أن العلم يخسر شيئا بعدم مشاركة البيانات التي بالإمكان تسخيرها لصالح الأبحاث العلمية. كلما شاركنا أكثر عبر برامج البيانات المفتوحة، والبيانات المركزية، كلما زادت فرصنا بأن نتعلم شيئا عن السلوك الإنساني. لكن يبدو أن مشاركة البيانات - حتى ومع إخفاء كل المعرفات الخاصة كالاسم، والعمر، والعنوان - قد تشكل اختراقا لخصوصية الأفراد. لهذا تأتي تقنيات مثل العشوائية randomization كوسيلة ناجعة لحماية خصوصية المدروسين، وللتأكد أن المساهمة ببياناتك في الأبحاث لا تشكل تهديدا لك بأي شكل. إذ حتى وإن تمكن طرف ثالث من الحصول على الأرقام الخام، فلن يعلم ما إذا كانت إجابة المدروس صادقة أو عشوائية. بالطبع هناك هامش للخطأ في كل دراسة، لكن العشوائية لا تُسهم بالضرورة في الحصول على نتائج أقل دقة، على العكس يمكن لتقنية كهذه أن تطمئن المدروسين، وتشجعهم على الإجابة بصدق.
الطريقة - وهي فعاّلة بشكل خاص في الأسئلة الثنائية (حين تكون الإجابة لا أو نعم) - تتلخص في الآتي: يقوم الباحث بتوجيه سؤال لموضوع البحث، لنقل: إن سؤال البحث هو: هل قمت من قبل بخيانة شريكك؟ لا يتعين على الشخص أن يجيب مباشرة، بل عليه أولا أن يرمي عملة معدنية، إذا ما استقرت العملة على وجهها فعليه أن يُقدم إجابة صادقة، أما إذا حطت على ظهرها، فعليه أن يرمي العملة مجددا. إذا استقرت على وجهها في المرة الثانية فعليه أن يجيب بنعم، أما في الثالثة فعليه أن يُجيب بلا.
على المستوى الفردي لا يمكن للباحث أن يستخلص نتائج موثوقة من فرد محدد - وحده المدروس يعرف كيف حطت العملة وإن كان قد قدم جوابا صادقا أو كاذبا، أما الدارس فلا علم لديه. لكن على المستوى الجمعي، يمكن للباحث استخلاص النتائج حول المجموعة بدقة عالية. يعلم الباحث أن احتمالية أن تحط العملة على وجهها هي 50% مما يعني أن نصف المدروسين قدموا إجابات صادقة، كما يعلم الباحث أن نصف من رموا العملة في المرة الثانية - بعد أن حطت على ظهرها - سيجيبون بنعم ونصفهم سيجيب بلا. وهذا كافٍ لحساب النسب الصحيحة. على سبيل المثال إذا ما حصلت على نسبة 5/12 في بحثك، فإن النسبة الصحيحة للذين سبق لهم أن خانوا شركاءهم ضمن العينة التي درستها هي الثلث.
تعتمد الكثير من الدراسات اليوم على البيانات التي تتيحها المؤسسات الرسمية بعد أن يتم - بالطبع - إخفاء المعلومات التي تكشف هويات المدروسين. تبين في عدة مناسبات أنه ومع إخفاء البيانات التي يمكن بسهولة أن تؤدي إلى الأشخاص - مثل: الاسم، العنوان، ورقم الرعاية الاجتماعية - يمكن مع ذلك الوصول إلى الأشخاص. يبقى بإمكانك مثلا التعرف على شخص إذا ما توفر تاريخ ميلاده، جنسه، المنطقة التي يعيش فيها.
كما حدث مع بيانات مستشفى ماساتشوستس، حين أكد المحافظ أن خصوصية المرضى ستكون محمية كون البيانات التي يمكن أن تُستخدم كمعرفات تمت إزالتها من مجموعة البيانات المنشورة. فما كان من إحدى طالبات الدكتوراه وقتها في جامعة MIT إلا أن استخرجت السجل الطبي للمحافظ كحركة مضادة وللتأكيد أن إخفاء هذه المعلومات غير كافٍ لحماية الخصوصية. حصلت سويني على قائمة المصوتين في كمبريج (المنطقة التي يعيش فيها المحافظ)، فتبين أن ستة أشخاص يشتركون مع المحافظ في تاريخ ميلاده، ثلاثة منهم ذكور، من هؤلاء الثلاثة شخص واحد فقط يعيش ضمن نطاق الزيب كود الذي يعيش فيه المحافظ، وعليه هناك سجل طبي وحيد تتطابق معلوماته مع معلومات المحافظ.
مثال آخر يسوقه كيرنز وروث في كتابهما «الخوارزميات الأخلاقية». في سعيها الحثيث لتطوير نظام توصيتها «تقوم خوارزميات التوصية باقتراح أفلام - أو كتب أو أي نوع من المنتجات حقا - بناء على تاريخ المشاهدات السابق للمستخدم» قامت نتفليكس بتدشين مسابقة تدعو فيها المطورين لتحسين نظام التوصية. ولهذا الغرض قامت بمشاركة مجموعة بيانات علنيا - بعد أن تخلصت من جميع المعلومات الشخصية - ليتسنى للمبرمجين وعلماء البيانات العمل واستخدام هذه البيانات كعينة دراسة. تخيل أن يستطيع أحدهم التعرف على أن سجلا ما ينتمي إليك فقط من خلال الأفلام والمسلسلات التي شاهدتها؟ هذا بالفعل ما حصل. نجح طالب آخر في التعرف على الأشخاص من خلال سجل مشاهداتهم على نتفليكس، وذلك عبر مقارنتها cross-referencing مع بيانات منصة تقييم ومراجعة الأفلام IMDB. رُفعت ضد نتفليكس وقتها قضايا من قبل الذين وجدوا أن ربط أسمائهم بالمواضيع التي شاهدوها يكشف أشياء خاصة عنهم «الميول الجنسية مثلا كما حدث مع إحدى الأمهات» وكشف مثل هذه المعلومات قد يؤثر على حياتهم ومستقبلهم.
المعضلة هنا هي أن العلم يخسر شيئا بعدم مشاركة البيانات التي بالإمكان تسخيرها لصالح الأبحاث العلمية. كلما شاركنا أكثر عبر برامج البيانات المفتوحة، والبيانات المركزية، كلما زادت فرصنا بأن نتعلم شيئا عن السلوك الإنساني. لكن يبدو أن مشاركة البيانات - حتى ومع إخفاء كل المعرفات الخاصة كالاسم، والعمر، والعنوان - قد تشكل اختراقا لخصوصية الأفراد. لهذا تأتي تقنيات مثل العشوائية randomization كوسيلة ناجعة لحماية خصوصية المدروسين، وللتأكد أن المساهمة ببياناتك في الأبحاث لا تشكل تهديدا لك بأي شكل. إذ حتى وإن تمكن طرف ثالث من الحصول على الأرقام الخام، فلن يعلم ما إذا كانت إجابة المدروس صادقة أو عشوائية. بالطبع هناك هامش للخطأ في كل دراسة، لكن العشوائية لا تُسهم بالضرورة في الحصول على نتائج أقل دقة، على العكس يمكن لتقنية كهذه أن تطمئن المدروسين، وتشجعهم على الإجابة بصدق.