نظام دقيق.. لكن غير عادل
الأربعاء / 10 / جمادى الأولى / 1443 هـ - 22:06 - الأربعاء 15 ديسمبر 2021 22:06
مشكلة التحيز في أنظمة الذكاء الاصطناعي المعتمدة على تعلم الآلة، أو في الأنظمة المعتمدة على البيانات الضخمة، هي ظاهرة تتعدد مصادرها وأسبابها. لكن مكافحتها لن تتم إلا بتحديد تعريف رياضي للعدالة، وتطوير شروط لابد أن يُحققها النظام قبل أن يُسمح باستخدامه
يزداد مع الوقت والتطور التكنولوجي اعتماد الإنسان على الكمبيوتر في صناعة القرار. مثلا حين تقدم طلبك لبنك ما للحصول على قرض، يُحاول النظام البنكي - عبر المعلومات التي تدلي بها - توقع ما إن كنت قادرا على الالتزام بأقساطك والإيفاء بقرضك في النهاية. تعتمد بعض البنوك العالمية على تقنيات تعلم الآلة لتوليد هذه التنبؤات. إنها تدرس معلومات الأشخاص الذين نجحوا في الوفاء بقروضهم في الماضي، وتحدد العوامل الرئيسية والعلائق بينها. مثلا إن كان هناك ارتباط بين نوع الوظيفة ودفع القرض، أو جنسك، أو حتى مكان سكنك.
تحدثتُ في مناسبات عديدة عن البرمجيات المرتبطة بصناعة القرار، واحتمالية انحيازها أو معاملتها غير العادلة للأفراد خصوصا إذا ما كانوا ينتمون إلى الأقليات. لتفادي الآثار السلبية لمثل هذه البرمجيات، ومن أجل ضمان المعاملة العادلة للجميع - أيا كانت المجموعة التي ينتمون إليها - طور الأكاديميون وعلماء الكمبيوتر مجموعة من الشروط التي يجب تحققها لضمان المساواة بغض النظر عن العمر، العرق، أو الجنس.
حين نتحدث عن المساواة في هذا السياق، فنحن لا نتحدث عن العدالة على مستوى الفرد، نحن كذلك لا نتحدث عن المساواة على مستوى المجموعة، بل على مستوى الفرد باعتباره منتميا إلى المجموعة. مثلا حين يدعي الملونون أنهم ينالون معاملة أدنى (تُرفض طلباتهم بوتيرة أعلى) بسبب انتمائهم لعرق معين، فهذا هو المستوى من انعدام العدالة الذي يعنينا هنا.
الطريقة الأولى التي تتبادر إلى الذهن - لضمان المساواة بين المجموعات هي التكافؤ الإحصائي «أي تساوي النِسب». يتم استيفاء هذا المعيار إذا كانت نسبة الأفراد المصنفين تصنيفا إيجابيا «مستحقين للقروض» هي نفسها عبر المجموعات المختلفة. عيبُ هذا المعيار أنه لا يأخذ في الحسبان ما إذا كان الشخص «بالفعل» قادرا على الإيفاء بقرضه. أعني أنه يمكن أن يكون شرطا عادلا إذا ما أردنا توزيعا - لنقل - تذاكر مجانية، وأردنا توزيعا عادلا لها عبر المجموعات المختلفة. ولكنه يختار الأفراد المنتمين للتصنيف الإيجابي بعمى تام. يمكن - مثلا - أن ينتهي الأمر بالخوارزمية باختيار جميع من هم غير قادرين على دفع قروضهم. إننا إذ نختار هذا المعيار نجازف - إذا - بدقة توقعات الخوارزمية.
لنحل هذا التعقيد، يمكن لنا اقتراح شرط إضافي: على من يُصنفهم النظام باعتبارهم منتمين للتصنيف الإيجابي، أن يكونوا منتمين لهذا التصنيف بالفعل. وهذا هو المعيار الثاني «المعايرة الصحيحة». «الصحيحة» هنا تُشير إلى كون التوقع صحيحا. مثلا عندما تخضع لفحص ما يمكن لنتيجة الفحص أن تكون إيجابية أو سلبية، يمكنها أيضا أن تكون إيجابية خاطئة، وبمزيد من التحاليل يُكتشف أن حالتك سلبية في الواقع. وإذا فهناك أربع احتمالات في الحقيقة وليس اثنين فحسب: إيجابية صحيحة أو إيجابية خاطئة، وسلبية صحيحة أو سلبية خاطئة. يتحقق معيار العدالة الثاني - إذًا - إذا كانت نسبة الأفراد المنتمين إلى فئة الإيجابية الصحيحة هي نفسها لكل مجموعة. عودة إلى مثال القروض، يتحقق هذا المعيار عندما تتساوى نسبة (أ) الذين يتوقع إيفائهم بالقروض و (ب) ينجحون في دفع قروضهم من المجموعة الأولى، ونسبة (أ) الذين يتوقع إيفاؤهم بالقروض و(ب) ينجحون في دفع قروضهم من المجموعة الثانية. قد يبدو هذا معيارًا عادلاً في هذا السياق، لكنه غاية في عدم الإنصاف إذا ما فُرض في سياقات أخرى. مثلا، تخيل نظاما «مثل نظام كامبوس الأمريكي» يهدف إلى توقع ما إذا كان المتهم في قضية ما متهما خطيرا «يُشكل تهديدا على المجتمع»، وبالتالي ومن باب الاحتراز يُوصى بحبسه احترازيا، أو متهما قليل الخطورة، وبالتالي يُوصى بتسريحه لحين موعد المحاكمة. إذا ما استخدم معيار العدالة هذا «المعايرة الصحيحة» للحكم على عدالة الخوارزمية، وإهمال معايرة هامش الخطأ، فإن ذلك قد ينتج انحياز الآلة ضد مجموعة ما، والزج بهم بشكل غير عادل في السجون. أعني أن الخوارزمية قد تصنف نسبة أكبر من المنتمين لإحدى المجموعات خطأ على أنهم خطرين. يرى بعض المعلقين ممن حللوا نظام كامبوس الأمريكي، أن النظام منحاز ضد الأفارقة الأمريكان لأنه يُصنفهم خطأ على أنهم خطرون، بينما وعند تتبع هذه الحالات لسنتين لا يرتكبون جرما خلال فترة التتبع، بينما تُصنف الخوارزمية خطأ - وعلى نحو غير متناسب - البيض على أنهم قليلو الخطورة، بينما تتبعهم لسنتين يكشف عن إعادة ارتكاب الجرم.
نصل الآن إلى المعيار الثالث الذي يمكن اقتراحه كحل للمشكلة، ألا وهو توازن معدل الخطأ (تناسب النتائج الإيجابية الخاطئة أو النتائج السلبية الخاطئة). يتم استيفاء هذا المعيار إذا كانت نسبة الأفراد الذين تم تصنيفهم خطأً متساوية لكل المجموعات. في مثال النظام الذي يتوقع ما إذا كان المتهم سيعاود ارتكاب الجريمة إذا ما أُطلق سراحه (يستخدم النظام بالمناسبة التاريخ الجنائي للمتهم، مستواه التعليمي والحالة الوظيفية، العمر وبعض السمات الشخصية الأخرى) - هذا النظام إذا قد يستفيد من معيار الإنصاف الثالث، لكن فقط إن تم الاتفاق على المقدمة التالية: يُفضل إطلاق سراح شخص تثبت جنايته، على حبس متهم بريء. مقدمة رغم بساطتها لا يسهل الاتفاق عليها. يمكن لشخص أن يجادل مثلا أن الحبس الاحترازي خيرٌ من إيذاء المتهم لشخص بريء إذا ما سُرِّح.
مشكلة التحيز في أنظمة الذكاء الاصطناعي المعتمدة على تعلم الآلة، أو في الأنظمة المعتمدة على البيانات الضخمة، هي ظاهرة تتعدد مصادرها وأسبابها. لكن مكافحتها لن تتم إلا بتحديد تعريف رياضي للعدالة، وتطوير شروط لابد أن يُحققها النظام قبل أن يُسمح باستخدامه. التحدي يكمن في تعدد المعايير التي يُعتقد أنها تحقق الإنصاف. في ورقة علمية نُشرت هذا العام، عدد بريان هيدين 11 معيارًا مختلفا للعدالة في أنظمة التنبؤ، لكنها لا تخرج في جوهرها عن المعايير الثلاثة التي تناولناها في هذا المقال. مع ذلك فتحقيق جميع المعايير شبه مستحيل، والمفاضلة بينها أمرٌ جدلي. يجادل بعض الأكاديميين بأفضلية معيار محدد منها. أعتقد شخصيا أن الوسيلة الأمثل لاختيار المعايير هو بالاستناد إلى سياق التوظيف. فإذا ما كانت رغبتنا الأولى هي تحقيق مبدأ تكافؤ الفرص (استحقاق القروض، القبول في الجامعات)، فالمعيار الأنسب هو «المعايرة الصحيحة». أما إذا كانت رغبتنا الأولى هي تقليل الأذى المحتمل فالمعيار الأنسب هو «موازنة معدل الخطأ».
يُجادل البعض أنه ربما من الأجدى التخلي عن فكرة العدالة - من الأساس - في أنظمة التنبؤ: متى ما كانت الخوارزمية دقيقة بما يكفي، فإن ذلك كافٍ لاستخدامها. المشكلة أنه عندما تسعى الخوارزمية لزيادة دقة الأداء عبر المجموعات المختلفة، فإنها وبشكل طبيعي ستميل لتحسينه بما يتوافق ودقة التوقع للأغلبية، على حساب الأقليات. فإذا ما كنا أمام خوارزمية تصل دقتها - لنقل - إلى 80% عبر المجموعات، قد يعني ذلك أن غالبية الـ 20% الذين لا يعمل النظام لصالحهم بدقة عالية هم ممن ينتمون إلى الأقليات. وإذا ما فصلتهم وقست دقة النظام عبر مجموعتهم وحدها، فإن دقة النظام في هذه الحالة قد لا تتعدى - لنقل - الـ 50%.
يشيع الاعتقاد أننا إذا ما بنينا قراراتنا على أساس إحصائي بحت فإن ذلك سينجينا من أنماط التفكير والتصرف البشرية المعيبة، وأننا سنتحصل على قرارات أكثر إنصافا للجميع؛ لأن الآلة بطبيعة الحال لا يمكنها أن تكون عنصرية أو كارهة لأقلية ما. إلا أن الأمر في الواقع ليس بهذه البساطة، وأن التمييز الذي تتعرض له الأقليات قد يتفاقم إذا لم نكن حذرين في توظيفنا لهذه الأنظمة.
** كاتبة وباحثة عمانية في مجال فلسفة العلوم.
يزداد مع الوقت والتطور التكنولوجي اعتماد الإنسان على الكمبيوتر في صناعة القرار. مثلا حين تقدم طلبك لبنك ما للحصول على قرض، يُحاول النظام البنكي - عبر المعلومات التي تدلي بها - توقع ما إن كنت قادرا على الالتزام بأقساطك والإيفاء بقرضك في النهاية. تعتمد بعض البنوك العالمية على تقنيات تعلم الآلة لتوليد هذه التنبؤات. إنها تدرس معلومات الأشخاص الذين نجحوا في الوفاء بقروضهم في الماضي، وتحدد العوامل الرئيسية والعلائق بينها. مثلا إن كان هناك ارتباط بين نوع الوظيفة ودفع القرض، أو جنسك، أو حتى مكان سكنك.
تحدثتُ في مناسبات عديدة عن البرمجيات المرتبطة بصناعة القرار، واحتمالية انحيازها أو معاملتها غير العادلة للأفراد خصوصا إذا ما كانوا ينتمون إلى الأقليات. لتفادي الآثار السلبية لمثل هذه البرمجيات، ومن أجل ضمان المعاملة العادلة للجميع - أيا كانت المجموعة التي ينتمون إليها - طور الأكاديميون وعلماء الكمبيوتر مجموعة من الشروط التي يجب تحققها لضمان المساواة بغض النظر عن العمر، العرق، أو الجنس.
حين نتحدث عن المساواة في هذا السياق، فنحن لا نتحدث عن العدالة على مستوى الفرد، نحن كذلك لا نتحدث عن المساواة على مستوى المجموعة، بل على مستوى الفرد باعتباره منتميا إلى المجموعة. مثلا حين يدعي الملونون أنهم ينالون معاملة أدنى (تُرفض طلباتهم بوتيرة أعلى) بسبب انتمائهم لعرق معين، فهذا هو المستوى من انعدام العدالة الذي يعنينا هنا.
الطريقة الأولى التي تتبادر إلى الذهن - لضمان المساواة بين المجموعات هي التكافؤ الإحصائي «أي تساوي النِسب». يتم استيفاء هذا المعيار إذا كانت نسبة الأفراد المصنفين تصنيفا إيجابيا «مستحقين للقروض» هي نفسها عبر المجموعات المختلفة. عيبُ هذا المعيار أنه لا يأخذ في الحسبان ما إذا كان الشخص «بالفعل» قادرا على الإيفاء بقرضه. أعني أنه يمكن أن يكون شرطا عادلا إذا ما أردنا توزيعا - لنقل - تذاكر مجانية، وأردنا توزيعا عادلا لها عبر المجموعات المختلفة. ولكنه يختار الأفراد المنتمين للتصنيف الإيجابي بعمى تام. يمكن - مثلا - أن ينتهي الأمر بالخوارزمية باختيار جميع من هم غير قادرين على دفع قروضهم. إننا إذ نختار هذا المعيار نجازف - إذا - بدقة توقعات الخوارزمية.
لنحل هذا التعقيد، يمكن لنا اقتراح شرط إضافي: على من يُصنفهم النظام باعتبارهم منتمين للتصنيف الإيجابي، أن يكونوا منتمين لهذا التصنيف بالفعل. وهذا هو المعيار الثاني «المعايرة الصحيحة». «الصحيحة» هنا تُشير إلى كون التوقع صحيحا. مثلا عندما تخضع لفحص ما يمكن لنتيجة الفحص أن تكون إيجابية أو سلبية، يمكنها أيضا أن تكون إيجابية خاطئة، وبمزيد من التحاليل يُكتشف أن حالتك سلبية في الواقع. وإذا فهناك أربع احتمالات في الحقيقة وليس اثنين فحسب: إيجابية صحيحة أو إيجابية خاطئة، وسلبية صحيحة أو سلبية خاطئة. يتحقق معيار العدالة الثاني - إذًا - إذا كانت نسبة الأفراد المنتمين إلى فئة الإيجابية الصحيحة هي نفسها لكل مجموعة. عودة إلى مثال القروض، يتحقق هذا المعيار عندما تتساوى نسبة (أ) الذين يتوقع إيفائهم بالقروض و (ب) ينجحون في دفع قروضهم من المجموعة الأولى، ونسبة (أ) الذين يتوقع إيفاؤهم بالقروض و(ب) ينجحون في دفع قروضهم من المجموعة الثانية. قد يبدو هذا معيارًا عادلاً في هذا السياق، لكنه غاية في عدم الإنصاف إذا ما فُرض في سياقات أخرى. مثلا، تخيل نظاما «مثل نظام كامبوس الأمريكي» يهدف إلى توقع ما إذا كان المتهم في قضية ما متهما خطيرا «يُشكل تهديدا على المجتمع»، وبالتالي ومن باب الاحتراز يُوصى بحبسه احترازيا، أو متهما قليل الخطورة، وبالتالي يُوصى بتسريحه لحين موعد المحاكمة. إذا ما استخدم معيار العدالة هذا «المعايرة الصحيحة» للحكم على عدالة الخوارزمية، وإهمال معايرة هامش الخطأ، فإن ذلك قد ينتج انحياز الآلة ضد مجموعة ما، والزج بهم بشكل غير عادل في السجون. أعني أن الخوارزمية قد تصنف نسبة أكبر من المنتمين لإحدى المجموعات خطأ على أنهم خطرين. يرى بعض المعلقين ممن حللوا نظام كامبوس الأمريكي، أن النظام منحاز ضد الأفارقة الأمريكان لأنه يُصنفهم خطأ على أنهم خطرون، بينما وعند تتبع هذه الحالات لسنتين لا يرتكبون جرما خلال فترة التتبع، بينما تُصنف الخوارزمية خطأ - وعلى نحو غير متناسب - البيض على أنهم قليلو الخطورة، بينما تتبعهم لسنتين يكشف عن إعادة ارتكاب الجرم.
نصل الآن إلى المعيار الثالث الذي يمكن اقتراحه كحل للمشكلة، ألا وهو توازن معدل الخطأ (تناسب النتائج الإيجابية الخاطئة أو النتائج السلبية الخاطئة). يتم استيفاء هذا المعيار إذا كانت نسبة الأفراد الذين تم تصنيفهم خطأً متساوية لكل المجموعات. في مثال النظام الذي يتوقع ما إذا كان المتهم سيعاود ارتكاب الجريمة إذا ما أُطلق سراحه (يستخدم النظام بالمناسبة التاريخ الجنائي للمتهم، مستواه التعليمي والحالة الوظيفية، العمر وبعض السمات الشخصية الأخرى) - هذا النظام إذا قد يستفيد من معيار الإنصاف الثالث، لكن فقط إن تم الاتفاق على المقدمة التالية: يُفضل إطلاق سراح شخص تثبت جنايته، على حبس متهم بريء. مقدمة رغم بساطتها لا يسهل الاتفاق عليها. يمكن لشخص أن يجادل مثلا أن الحبس الاحترازي خيرٌ من إيذاء المتهم لشخص بريء إذا ما سُرِّح.
مشكلة التحيز في أنظمة الذكاء الاصطناعي المعتمدة على تعلم الآلة، أو في الأنظمة المعتمدة على البيانات الضخمة، هي ظاهرة تتعدد مصادرها وأسبابها. لكن مكافحتها لن تتم إلا بتحديد تعريف رياضي للعدالة، وتطوير شروط لابد أن يُحققها النظام قبل أن يُسمح باستخدامه. التحدي يكمن في تعدد المعايير التي يُعتقد أنها تحقق الإنصاف. في ورقة علمية نُشرت هذا العام، عدد بريان هيدين 11 معيارًا مختلفا للعدالة في أنظمة التنبؤ، لكنها لا تخرج في جوهرها عن المعايير الثلاثة التي تناولناها في هذا المقال. مع ذلك فتحقيق جميع المعايير شبه مستحيل، والمفاضلة بينها أمرٌ جدلي. يجادل بعض الأكاديميين بأفضلية معيار محدد منها. أعتقد شخصيا أن الوسيلة الأمثل لاختيار المعايير هو بالاستناد إلى سياق التوظيف. فإذا ما كانت رغبتنا الأولى هي تحقيق مبدأ تكافؤ الفرص (استحقاق القروض، القبول في الجامعات)، فالمعيار الأنسب هو «المعايرة الصحيحة». أما إذا كانت رغبتنا الأولى هي تقليل الأذى المحتمل فالمعيار الأنسب هو «موازنة معدل الخطأ».
يُجادل البعض أنه ربما من الأجدى التخلي عن فكرة العدالة - من الأساس - في أنظمة التنبؤ: متى ما كانت الخوارزمية دقيقة بما يكفي، فإن ذلك كافٍ لاستخدامها. المشكلة أنه عندما تسعى الخوارزمية لزيادة دقة الأداء عبر المجموعات المختلفة، فإنها وبشكل طبيعي ستميل لتحسينه بما يتوافق ودقة التوقع للأغلبية، على حساب الأقليات. فإذا ما كنا أمام خوارزمية تصل دقتها - لنقل - إلى 80% عبر المجموعات، قد يعني ذلك أن غالبية الـ 20% الذين لا يعمل النظام لصالحهم بدقة عالية هم ممن ينتمون إلى الأقليات. وإذا ما فصلتهم وقست دقة النظام عبر مجموعتهم وحدها، فإن دقة النظام في هذه الحالة قد لا تتعدى - لنقل - الـ 50%.
يشيع الاعتقاد أننا إذا ما بنينا قراراتنا على أساس إحصائي بحت فإن ذلك سينجينا من أنماط التفكير والتصرف البشرية المعيبة، وأننا سنتحصل على قرارات أكثر إنصافا للجميع؛ لأن الآلة بطبيعة الحال لا يمكنها أن تكون عنصرية أو كارهة لأقلية ما. إلا أن الأمر في الواقع ليس بهذه البساطة، وأن التمييز الذي تتعرض له الأقليات قد يتفاقم إذا لم نكن حذرين في توظيفنا لهذه الأنظمة.
** كاتبة وباحثة عمانية في مجال فلسفة العلوم.