الفصل الحادي والعشرون

الأحكام الحدسية في مقابل الصيغ الإحصائية

كان بول ميل صاحب شخصية غريبة ومدهشة، وأحد أكثر علماء النفس تنوعًا في القرن العشرين؛ فمن بين الأقسام التي تولى فيها مناصب إدارية في جامعة مينيسوتا أقسام علم النفس، والقانون، والعلاج النفسي، وعلم الأعصاب، والفلسفة. وقد كتب ميل أيضًا في الدين، وعلم السياسة، وطرق تعلُّم الفئران. وباعتباره باحثًا متميزًا إحصائيًّا وناقدًا شرسًا للادعاءات الباطلة في علم النفس الإكلينيكي، كان ميل أيضًا محللًا نفسيًّا ممارسًا. كتب ميل مقالات عميقة حول الأسس الفلسفية للبحوث النفسية التي كنت أحفظها عن ظهر قلب تقريبًا عندما كنت لا أزال طالب دراسات عليا. لم ألتقِ ميل قط، لكنه كان أحد أكثر الأشخاص إثارة للإعجاب بالنسبة لي منذ قراءتي بحثه «التوقع الإكلينيكي في مقابل التوقع الإحصائي: تحليل نظري ومراجعة للأدلة».

في الكتاب صغير الحجم هذا الذي أطلق ميل عليه لاحقًا «كتابي الصغير المزعج»، راجَع ميل نتائج ٢٠ دراسة كان قد حلَّل فيها ما إذا كانت «التوقعات الإكلينيكية» تعتمد على الانطباعات الذاتية للمحترفين المدربين أكثر دقة من التوقعات «الإحصائية» التي توضع من خلال دمج نتائج أو تقييمات قليلة وفق قاعدة ما. في دراسة نموذجية، توقع المستشارون الأكاديميون المدربون درجات طلاب السنة الأولى الجامعية في نهاية السنة الدراسية. عقد المستشارون الأكاديميون لقاءات مع كل طالب لمدة خمس وأربعين دقيقة. اطلع المستشارون الأكاديميون أيضًا على درجات المرحلة الثانوية الخاصة بهؤلاء الطلاب، وعدد كبير من اختبارات القدرات الخاصة بهم، ومقالة كتبها كلٌّ منهم عن نفسه من أربع صفحات. استخدمت الخوارزمية الإحصائية قسمًا يسيرًا فقط من هذه المعلومات: درجات المرحلة الثانوية واختبار قدرات واحد. ومع ذلك، كانت صيغة التوقع أكثر دقة من توقعات ١١ مستشارًا أكاديميًّا من أصل ١٤ مستشارًا. كشف ميل عن نتائج مشابهة بصورة عامة عبر نتائج توقعات أخرى متنوعة، بما في ذلك مخالفة شروط الإفراج المؤقت، والنجاح في تدريب الطيارين، وانتكاسة المجرمين إلى الجريمة مرة أخرى.

لا غرو أن كتاب ميل أثار صدمة وموجة من عدم التصديق بين علماء النفس الإكلينيكيين، وأفضى الخلاف الذي أثاره الكتاب إلى سلسلة من البحوث لا تزال تتدفق إلى اليوم، بعد أكثر من خمسين عامًا من نشره. بينما زاد عدد الدراسات التي تعقد مقارنات بين التوقعات الإكلينيكية والإحصائية إلى مائتين تقريبًا، لم تتغير النتيجة في الاختبار بين الخوارزميات الإحصائية والبشر. أظهرت حوالي ٦٠٪ من الدراسات دقة أفضل كثيرًا للخوارزميات الإحصائية، بينما أظهرت المقارنات الأخرى تعادلًا في دقة كلٍّ من الطرق الإكلينيكية والإحصائية، يعد هذا التعادل انتصارًا لصالح القواعد الإحصائية، والتي هي عادةً أقل تكلفة من الاستعانة بأحكام الخبراء. لم يجرِ توثيق أي استثناء لهذا على نحو مقنع.

اتسع مجال النتائج المتوقع ليغطي المتغيرات الطبية؛ مثل طول عمر مرضى السرطان، وطول فترة الإقامة في المستشفيات، وتشخيص الأمراض القلبية، وحساسية الأطفال تجاه عرض موت الرضَّع المفاجئ؛ والمقاييس الاقتصادية مثل احتمالات نجاح الشركات الجديدة، وتقييم مخاطر الائتمان من قِبَل البنوك، والرضاء المهني المستقبلي للعاملين؛ والمسائل المهمة بالنسبة إلى الوكالات الحكومية، بما في ذلك عمليات تقييم مدى ملاءمة نظام الأسر البديلة، وفرص انتكاسة الأحداث إلى الجريمة مجددًا، واحتمالية وقوع أشكال أخرى من السلوك العنيف؛ والنتائج المتنوعة مثل تقييم العروض التقديمية العلمية، والفائزين في مباريات كرة القدم، والأسعار المستقبلية للمنتجات. يتضمن كل مجال من هذه المجالات درجة كبيرة من عدم اليقين وعدم القابلية للتوقع. نشير إلى تلك المجالات باعتبارها «بيئات منخفضة الصحة». في كل حالة، تطابقت دقة توقعات خوارزمية إحصائية بسيطة مع تلك الخاصة بالخبراء أو تخطتها.

وقد قال ميل في فخر مبرَّر بعد ثلاثين عامًا من نشر كتابه: «لا يوجد خلاف في العلوم الاجتماعية يُظهر هذا الحجم الضخم من الدراسات المتنوعة كميًّا تصدر بهذا القدر من الانتظام في الاتجاه نفسه مثل هذه الدراسة.»

أجرى أستاذ الاقتصاد في جامعة برينستون والمحب للخمور أورلي آشنفيلتر تجربةً مثيرة على قدرة الإحصاءات البسيطة في التفوق على الخبراء المشهورين على مستوى العالم. أراد آشنفيلتر توقع القيمة المستقبلية لخمور بوردو الفاخرة من خلال المعلومات المتوفرة في السنة التي صُنعت فيها. يعتبر السؤال مهمًّا نظرًا لأن الخمور الفاخرة تستغرق سنوات حتى تصل إلى ذروة جودتها، وتختلف أسعار الخمور المعتقة من مزارع الكرم نفسها بصورة هائلة عبر القُطوف المختلفة؛ قد تختلف أسعار الزجاجات التي جرى ملؤها في فترتين مختلفتين تفصلهما اثنا عشر شهرًا في القيمة بمعامل يبلغ ١٠ أو أكثر. تُعتبر القدرة على التنبؤ بالأسعار المستقبلية للخمور مرتفعة القيمة؛ نظرًا لأن المستثمرين يشترون الخمور — مثل المنتجات الفنية — وهم يتوقعون ارتفاع قيمتها.

من المتفق عليه عمومًا أن أثر القطف ربما يرجع فقط إلى الاختلافات في الطقس أثناء موسم جني الكرم. تُنتَج أفضل الخمور عندما يكون الصيف دافئًا وجافًّا، وهو ما يجعل صناعة الخمور في بوردو صناعة مستفيدة من ظاهرة الاحتباس الحراري العالمي. كما تستفيد الصناعة أيضًا من فصول الربيع الممطرة، والتي تُزيد من كمية الكرم دون تأثير كبير على جودته. حوَّل آشنفيلتر هذه المعرفة التقليدية إلى صيغة إحصائية تتوقع سعر أحد أنواع الخمور — بالنسبة إلى حقل كرم محدد وعمر محدد — من خلال ثلاث سمات للطقس، ألا وهي متوسط درجة الحرارة خلال موسم النمو الصيفي، وكمية الأمطار عند موسم الحصاد، وإجمالي كمية الأمطار خلال فصل الشتاء السابق. تقدِّم صيغة آشنفيلتر توقعات سعرية دقيقة لمدة سنوات، بل عقود، في المستقبل. في حقيقة الأمر، تتوقع هذه الصيغة الأسعار المستقبلية بصورة أكثر دقة كثيرًا من الاعتماد على توقعها من خلال الأسعار الحالية للخمور غير المعتَّقة. يشكِّل هذا المثال الجديد على «نمط ميل» تحديًا لقدرات الخبراء الذين تسهم آراؤهم في وضع الأسعار المبدئية للخمور، كما سيشكل أيضًا تحديًا للنظرية الاقتصادية، التي يجب أن تعكس الأسعار من خلالها جميع المعلومات المتوفرة، بما في ذلك الطقس. تعتبر صيغة آشنفيلتر شديدة الدقة؛ إذ يبلغ معامل الترابط بين توقعاته والأسعار الفعلية أكثر من ٠٫٩٠.

لماذا لا ترقى توقعات الخبراء إلى توقعات الخوارزميات الإحصائية؟ يتمثل أحد الأسباب، والذي أشار إليه ميل، في أن الخبراء يحاولون أن يكونوا حاذقين، وأن يفكروا بصورة غير تقليدية، وأن يأخذوا في الاعتبار تمازجات معقدة من السمات في وضع توقعاتهم. بينما ربما ينجح التعقيد في الحالات الغريبة، يفضي التعقيد كثيرًا إلى تخفيض درجة الصحة. لكن تمازجات السمات البسيطة أفضل. أظهرت دراسات عديدة أن صانعي القرارات من البشر ينخفض مستوى توقعاتهم مقارنة بصيغ التوقع، حتى لو قدمت إليهم النتيجة المقترحة من قبل الصيغة! يشعر الخبراء أنهم يستطيعون التفوق على الصيغة نظرًا لأن لديهم معلومات إضافية حول الموضوع، لكنهم يكونون مخطئين معظم الوقت. وفق ميل، تكون هناك حالات قليلة يصبح فيها استبدال الأحكام بالصيغ فكرة جيدة. في تجربة فكرية شهيرة، أشار ميل إلى صيغة إحصائية تتوقع ما إذا كان أحد الأشخاص سيذهب إلى السينما الليلة أم لا، ولفت إلى أنه من الملائم بمكان تجاهل الصيغة إذا جرى تلقي معلومة تفيد أن ذلك الشخص كُسرت قدمه اليوم. ظل اسم «قاعدة القدم المكسورة» قائمًا. بالطبع، تتمثل الفكرة الرئيسية هنا في أن الأقدام المكسورة أمر نادر الحدوث، لكنه حاسم في وضع التوقعات.

يتمثَّل أحد الأسباب الأخرى في عدم فاعلية أحكام الخبراء في أن البشر غير متسقين بصورة ثابتة في إصدار أحكام موجزة حول المعلومات المعقدة، فعندما يُطلب منهم تقييم المعلومات نفسها مرتين، يقدِّمون كثيرًا إجابات مختلفة. يعتبر مدى عدم الاتساق عادةً مسألة قلق حقيقي. يناقض أخصائيو الأشعة المتمرسون الذين يقيِّمون الأشعة السينية للصدر باعتبارها «طبيعية» أو «غير طبيعية» أنفسهم بنسبة ٢٠٪ من الوقت عندما يرون الصورة نفسها في مناسبات مختلفة. كشفت دراسة أُجريت على ١٠١ مراجع حسابات مستقل طُلب منهم تقييم مدى دقة عمليات مراجعة الحسابات الداخلية في عدد من الشركات عن درجة مشابهة من عدم الاتساق. تشير مراجعة لعدد ٤١ دراسة منفصلة لدقة أحكام مراجعي الحسابات، وأخصائيي علوم الأمراض، وعلماء النفس، ومدراء الشركات، ومهنيين آخرين، أن هذا المستوى من عدم الاتساق متكرر، حتى عند إعادة تقييم حالة خلال دقائق من إجرائها. فلا يمكن أن تصبح الأحكام غير الموثوق بها مؤشرات توقُّع صحيحة لأي شيء.

ربما يرجع عدم الاتساق المنتشر هذا إلى اعتماد النظام ١ الشديد على السياق. نعرف من خلال دراسات الاستباق أن المثيرات غير المُلاحَظة في بيئتنا تؤثر تأثيرًا هائلًا على أفكارنا وأفعالنا. تتأرجح هذه المؤثرات من لحظة إلى أخرى. ربما يجعل السرور القصير الذي تشعر به جراء نسمة هواء باردة في يوم حار أكثر إيجابية وتفاؤلًا بعض الشيء حيال أي شيء تُجري عملية تقييم له في ذلك الوقت. ربما تتغير فرص منح إفراج مؤقت لأحد المتهمين بصورة كبيرة خلال الوقت الذي ينقضي بين فترات استراحة تناول الطعام المتتالية في جدول مواعيد القضاة. نظرًا لأنك لا تعرف كثيرًا بصورة مباشرة عما يدور في عقلك؛ لن تعرف أبدًا أنك ربما أصدرت حكمًا مختلفًا أو توصلت إلى قرار مختلف تحت ظروف مختلفة قليلًا. لا تتأثر الصيغ الإحصائية بهذه المسائل. بوضع المدخلات نفسها، تقدِّم الصيغ الإحصائية النتيجة نفسها. عندما تكون قابلية التوقع منخفضة — وهو الحال في معظم الدراسات التي راجعها ميل وزملاؤه — يقوض وجود أي عدم اتساق في النتائج أي صحة متوقعة للنتائج.

تشير البحوث إلى نتيجة مدهشة. فحتى يتسنَّى زيادة دقة التوقع، يجب ترك القرارات النهائية للصيغ الإحصائية، خاصةً في البيئات منخفضة الصحة. على سبيل المثال؛ عند اتخاذ قرارات الالتحاق بكليات الطب، يتخذ القرارات النهائية عادةً أعضاء هيئة التدريس الذين يعقدون مقابلات مع الطلاب المرشحين. بينما لا تعتبر الدلائل متماسكة، هناك أسباب وجيهة لتوقع نتيجة المقابلات؛ فمن المحتمل أن يؤدي إجراء مقابلة إلى خفض درجة دقة عملية الاختيار، في حال اتخذ من يُجرون المقابلات القرارات النهائية لقبول الطلاب المرشحين. ونظرًا لأن القائمين على المقابلات يتمتعون بثقة مفرطة في أحكامهم الحدسية، سيوكلون ثقلًا نسبيًّا أكبر مما ينبغي لانطباعاتهم الشخصية وثقلًا نسبيًّا أقل مما ينبغي لمصادر المعلومات الأخرى، وهو ما يقلل من درجة صحة القرارات النهائية. بالمثل، يمتلك الخبراء الذين يجرون عملية تقييم لجودة الخمور غير المعتقة لتوقع أسعارها المستقبلية مصدرَ معلومات يجعل — بصورة شبه مؤكدة — الأمور أكثر سوءًا مما يجعلها أفضل، ألا وهو تذوقهم للخمر. بالإضافة إلى ذلك — بالطبع — حتى لو توفر لهؤلاء فهم جيد لآثار الطقس على جودة الخمور، فلن يستطيعوا الحفاظ على اتساق النتائج مثلما تفعل إحدى الصيغ الإحصائية لتوقع أسعار الخمور.

•••

يتمثَّل أحد أهم التطورات في هذا المجال منذ إسهام ميل في بحث روبين دويز الشهير بعنوان «الجمال الواضح للنماذج الخطية غير الملائمة في صناعة القرار». تتمثل الممارسة الإحصائية السائدة في العلوم الاجتماعية في تخصيص أوزان نسبية لمؤشرات التوقع (المتغيرات المستقلة) المختلفة من خلال اتباع خوارزمية إحصائية محددة، يُطلق عليها الانحدار المتعدد، والتي يجري تضمينها حاليًّا في البرامج الأساسية. يُعتبر منطق الانحدار المتعدد غير قابل للتقويض: فهو يجد الصيغة المثالية لجمع مؤشرات التوقع ذات أوزان نسبية معًا. إلا أن دويز لاحظ أن الخوارزمية الإحصائية المعقدة هذه لا تضيف سوى قيمة صغيرة أو لا تضيف أي قيمة على الإطلاق لعملية التوقع. ويستطيع المرء أن يُبلي بلاءً حسنًا من خلال اختيار مجموعة من النتائج التي لها بعض الصحة لتوقع النتيجة النهائية وتعديل القيم الناتجة بحيث يمكن عقد مقارنة بينها (من خلال استخدام نتائج أو تقييمات قياسية). من المحتمل أن تُعتبر الصيغة التي تجمع بين مؤشرات التوقع هذه والأوزان النسبية المتساوية دقيقة في توقع الحالات الجديدة قدر دقة صيغة الانحدار المتعدد التي كانت مثالية عند استخدامها مع العينة الأصلية. مضت بحوث تالية إلى أبعد من ذلك؛ إذ تعتبر الصيغ التي تخصص أوزانًا نسبية متساوية لجميع مؤشرات التوقع أكثر قيمة عادةً؛ نظرًا لأنها لا تتأثر بالأحداث العارضة التي تقع أثناء عملية أخذ العينات.

ينطوي النجاح المدهش لأساليب الأوزان المتساوية على استنتاج عملي مهم؛ فمن الممكن وضع خوارزميات مفيدة دون إجراء أي بحوث إحصائية سابقة. تعتبر الصيغ متساوية الأوزان البسيطة التي تعتمد على الإحصاءات القائمة أو على الحدس عادةً مؤشرات توقع جيدة جدًّا على النتائج المهمة. في مثال لا يُنسى، أظهر دويز أن استقرار الحياة الزوجية يمكن التنبؤ به من خلال صيغة ما وهي:

معدل تكرار العلاقة الزوجية الحميمة مطروحًا منه معدل تكرار الشجار.

لا يرغب المرء في أن تكون نتيجته سالبة في هذا الإطار.

يتمثَّل الاستنتاج المهم من هذا البحث في أن أي خوارزمية يجري بناؤها عرضًا تعد جيدة عادةً بما يكفي لأن تتنافس مع صيغة تتضمَّن أوزانًا نسبية مثالية، وبالطبع جيدة بما يكفي للتفوق على أحكام الخبراء. يمكن تطبيق هذا المنطق في مجالات عديدة، من انتقاء الأسهم عن طريق مديري المحافظ الاستثمارية إلى اختيار العلاجات الطبية من قِبَل الأطباء أو المرضى.

يتمثَّل أحد التطبيقات الكلاسيكية لهذا الأسلوب في خوارزمية بسيطة أنقذت حياة مئات الآلاف من الأطفال الرضَّع. كان أطباء التوليد يعرفون دومًا أن المولود الذي لا يستطيع التنفس بصورة طبيعية في غضون دقائق قليلة من ميلاده يكون في خطر بالغ للتعرض لتلف في الدماغ أو الموت. وإلى أن قدَّمت طبيبة التخدير فيرجينيا أبجار إسهامها في هذا الأمر في عام ١٩٥٣، كان الأطباء والقابلات يركَنون إلى أحكامهم الإكلينيكية في تحديد ما إذا كان أحد المواليد يعاني من مشكلة في التنفس. ركَّز ممارسون مختلفون على علامات مختلفة. راقب بعض هؤلاء مشاكل التنفس، بينما راقب آخرون مدى تكرار بكاء المولود. في ظل عدم وجود إجراء قياسي، لم تُلاحَظ كثير من علامات الخطر في الغالب، وهو ما كان يُفضي إلى وفاة الكثير من المواليد.

•••

في أحد الأيام أثناء الإفطار، سأل أحد الأطباء المقيمين الطبيبة أبجار عن طريقة إجراء تقييم منهجي لأحد المواليد. أجابت قائلةً: «هذا سهل … يمكن أن تفعل هذا هكذا.» ثم كتبت خمسة متغيرات سريعًا: (نبض القلب، ومعدل التنفس، والأفعال المنعكسة، والتوتر العضلي، ولون الجلد) وثلاث نتائج (صفر أو ١ أو ٢، بناءً على درجة كل متغير من هذه المتغيرات). مدركةً أنها ربما حققت فتحًا علميًّا يمكن أن تستعين به أي غرفة ولادة، بدأت أبجار تقييم المواليد من خلال هذه القاعدة بعد دقيقة واحدة من ميلادهم. من المحتمل أن يكون الطفل الذي تبلغ النتيجة الإجمالية له ٨ أو أكثر لونه ورديًّا، متشنجًا، باكيًا، عابسًا، يبلغ نبضه ١٠٠ أو أكثر؛ ومن ثم فهو في حالة طبيعية. في المقابل، يكون الطفل الذي تبلغ النتيجة الإجمالية له ٤ أو أقل لونه مائل إلى الزرقة، رخوًا، لا يتحرك، نبضه ضعيف أو بطيء؛ ومن ثم في حاجة ماسة إلى تدخل فوري. بتطبيق مقياس أبجار، توفر أخيرًا لدى العاملين في غرف الولادة مقاييس معيارية لتحديد أي الأطفال الرضَّع يواجه مشكلات، ويرجع الفضل إلى الصيغة في الإسهام بصورة كبيرة في تقليص معدلات وفيات الأطفال الرضَّع. ما زال اختبار أبجار يُستخدم يوميًّا في كل غرف الولادة. يقدِّم كتاب آتول جاواندي الذي صدر مؤخرًا «أهمية قوائم التحقق» أمثلةً أخرى كثيرة على مزايا قوائم التحقق والقواعد البسيطة.

العداء تجاه الخوارزميات

منذ البداية، استجاب علماء النفس الإكلينيكيون لأفكار ميل في عداء وعدم تصديق. ومن الواضح أنهم واقعون في أسر وَهْمِ المهارة بالنظر إلى قدرتهم على وضع توقعات طويلة المدى. عند إمعان التفكير في ذلك، من السهولة بمكان إدراك كيفية تأتِّي الوهم فضلًا عن التعاطف مع رفض الإكلينيكيين لبحوث ميل.

تتناقض الدلائل الإحصائية لانخفاض كفاءة التوقعات الإكلينيكية مع خبرة الإكلينيكيين اليومية فيما يتعلق بمستوى جودة أحكامهم. يمتلك علماء النفس الذين يتعاملون مع المرضى العديد من مشاعر الحدس خلال كل جلسة علاجية، متوقعين طريقة استجابة المريض لأحد إجراءات التدخل، ويحزرون ماذا سيقع تاليًا. تتأكد الكثير من هذه المشاعر الحدسية، وهو ما يشير إلى حقيقة المهارة الإكلينيكية.

تتمثل المشكلة هنا في أن الأحكام الصحيحة تتضمن إجراء توقعات قصيرة المدى في سياق الجلسة العلاجية، وهي مهارة ربما يمتلكها المعالجون الذين قضوا سنوات من الممارسة. تتطلب المهام التي يفشلون فيها إجراء توقعات طويلة المدى حول مستقبل المريض. وهذه التوقعات أكثر صعوبة، فحتى أفضل الصيغ لا تفضي إلى نتائج مبهرة، فضلًا عن كونها مهامَّ لم تُتَح الفرصة قط للإكلينيكيين لتعلمها بصورة صحيحة؛ إذ يكون عليهم الانتظار سنوات للحصول على إفادات على ممارستهم، بدلًا من الحصول على إفادات فورية خلال جلسة العلاج الإكلينيكية. في المقابل، لا يبدو الخط الفاصل بين ما يستطيع الإكلينيكيون عمله وما لا يستطيعون عمله بشكل جيد واضحًا، وهو بالتأكيد غير واضح لهم. يعرف الإكلينيكيون أنهم يتمتعون بالمهارة، لكنهم لا يعرفون بالضرورة حدودها. لا غرو إذن أن فكرة الدمج الآلي بين عدد من المتغيرات التي يمكن أن تفوق في توقعاتها التعقيد الشديد للأحكام الإنسانية تُدهش الإكلينيكيين المخضرمين باعتبارها فكرةً خاطئة.

كان النِّقاش حول مزايا التوقع الإكلينيكي والتوقع الإحصائي يحظى دومًا ببعد أخلاقي. ذكر ميل أن الإكلينيكيين المخضرمين كانوا ينتقدون الأسلوب الإحصائي باعتباره «آليًّا، متنافر الأجزاء، تجميعيًّا، مبتورًا وجافًّا، مصطنعًا، غير حقيقي، عشوائيًّا، غير مكتمل، جامدًا، متحذلقًا، مجزءًا، تافهًا، قسريًّا، ثابتًا، سطحيًّا، غير مرن، عقيمًا، أكاديميًّا، شبه علمي، وأعمى.» على الجانب الآخر، كان الأسلوب الإكلينيكي يُمتدح من قِبل مؤيديه باعتباره «ديناميكيًّا، عامًّا، دالًّا، شاملًا، دقيقًا، متعاطفًا، مصنفًا، منمَّطًا، منظَّمًا، ثريًّا، عميقًا، حقيقيًّا، حساسًا، متطورًا، واقعيًّا، حيًّا، ملموسًا، طبيعيًّا، متماثلًا مع الحياة، ومتفهمًا.»

هذا موقف نستطيع جميعًا إدراكه؛ فعندما يتنافس إنسان مع آلة — سواء جون هنري يقارع مثقابًا بخاريًّا أو عبقري لعبة الشطرنج جاري كاسباروف يواجه الكمبيوتر ديب بلو — تكمن مشاعر التعاطف لدينا مع إخواننا من البشر. يتجذَّر شعور النفور تجاه عملية اتخاذ القرارات بالاعتماد على الخوارزميات التي تؤثر على البشر الآخرين في شعور التفضيل القوي الذي يخالج كثيرًا من الناس لصالح الأشياء الطبيعية في مقابل الأشياء المخلَّقة أو الاصطناعية. عند سؤالهم عما إذا كانوا يفضلون تناول تفاح مزروع بطريقة عضوية أو تفاح مزروع بطريقة تجارية تقليدية، يفضل معظم الناس «التفاح الطبيعي الخالص». حتى بعد إبلاغهم أن التفاحتين مذاقهما واحد، وتحظيان بالقيمة الغذائية نفسها، وأنهما متساويتان في فائدتهما الصحية، لا تزال هناك أغلبية تفضِّل الفاكهة العضوية. حتى منتجو الجعة اكتشفوا أنهم يستطيعون زيادة المبيعات من خلال وضع ملصق يحمل العبارات «طبيعي خالص» أو «بدون مواد حافظة».

تتضح المقاومة العميقة للخبراء من خلال ردة فعل القائمين على صناعة الخمور الأوروبية تجاه صيغة آشنفيلتر لتوقع سعر خمور بوردو. استجابت صيغة آشنفيلتر إلى رغبة محمومة، إذن، ربما يتوقَّع المرء أن يشعر محبو الخمور في كل مكان بالامتنان لآشنفيلتر لتحسين قدرتهم بصورة قابلة للإثبات على تحديد الخمور التي ستصبح جيدة لاحقًا. ولكن لم يكن الأمر كذلك؛ كتبت صحيفة «نيويورك تايمز» قائلةً إن ردود الأفعال في دوائر صناعة الخمور الفرنسية تراوحت «بين العنيفة والهستيرية». يشير آشنفيلتر إلى أن أحد محبي الخمور وصف نتائجه بأنها «مضحكة وعبثية»، بينما علق آخر ساخرًا: «يشبه الأمر الحكم على أفلام دون مشاهدتها.»

يتضخم التحامل ضد الخوارزميات عندما تكون القرارات المتَّخذة لها نتائج مهمة. أشار ميل قائلًا: «لا أعرف تمامًا كيف أخفف من الهلع الذي يبدو أنه يصيب بعض الإكلينيكيين عندما يتصوَّرون حالة قابلة للعلاج لا تقبل العلاج نظرًا لأن صيغة «عمياء، وآلية» أساءت تصنيفها.» في المقابل، دفع ميل والمؤيدون الآخرون لاستخدام الخوارزميات بقوة بأنه من غير الأخلاقي الاعتماد على الأحكام الحدسية عند اتخاذ القرارات المهمة في ظل وجود خوارزمية تؤدي لأخطاء أقل. بينما يعتبر دفع ميل ومن معه عقلانيًّا، يأتي هذا الدفع في مواجهة حقيقة نفسية راسخة، ألا وهي أنه بالنسبة إلى معظم الناس، يُعتبر سبب الخطأ مهمًّا. تعتبر قصة الطفل الذي مات بسبب خطأ من إحدى الصيغ الخوارزمية مثيرة للعواطف أكثر من القصة نفسها إذا كان سبب الوفاة خطأً بشريًّا، وهكذا يُترجم الاختلاف في الشدة العاطفية مباشرةً إلى تفضيل أخلاقي.

لحسن الحظ، ربما سيتراخى العداء تجاه الخوارزميات مع استمرار توسع دورها في الحياة اليومية. في بحثنا عن الكتب أو الموسيقى التي ربما نستمتع بها، نثق في الترشيحات التي تقدمها لنا البرامج. نأخذ على محمل التسليم أن القرارات حيال الحدود الائتمانية تُتخذ دون أي تدخل من خلال الأحكام البشرية. نتعرض بصورة متزايدة إلى إرشادات تأخذ صورة الصيغ الخوارزمية البسيطة؛ مثل نسبة مستويات الكوليسترول النافع والضار التي يجب أن نحافظ عليها. يعلم الجميع جيدًا الآن أن الصيغ ربما تفضي إلى نتائج أفضل من التوقعات البشرية في بعض القرارات المهمة في عالم الرياضة؛ مثل حجم استثمارات فريق محترف في اللاعبين الصاعدين، أو وقت اتخاذ قرار بركل الكرة إلى ملعب الفريق المنافس في محاولة الفريق الرابعة. من المفترض أن تُفضي القائمة الآخذة في التوسع للمهام التي تستطيع الصيغ الخوارزمية تنفيذها إلى تقليل مستوى عدم الراحة التي يشعر بها معظم الناس عندما يصادفون للمرة الأولى نمط النتائج التي أشار إليها ميل في كتابه المزعج الصغير.

التعلم من ميل

في عام ١٩٥٥، عندما كنت ملازمًا في قوات الدفاع الإسرائيلية أبلغ من العمر ٢١ عامًا، عُهد إليَّ وضع نظام عقد مقابلات للجيش بأسره. إذا كنتَ تتساءل عن السبب وراء تعهيد مهمة على هذا القدر من المسئولية إلى شخص في مثل هذه السن الصغيرة، فتذكَّر أن دولة إسرائيل نفسها لم يمر على إنشائها أكثر من سبع سنوات آنذاك؛ فجميع مؤسساتها كانت تحت الإنشاء، وكان على كل أبنائها بناؤها. على غرابة الأمر اليوم، ربما أهَّلتني درجتي العلمية في علم النفس لأكون أفضل عالم نفس مدرَّب في الجيش. كان مشرفي المباشر — وهو باحث لامع — يحمل درجة علمية في الكيمياء.

كان هناك نظام إجراء مقابلات مطبَّق عندما عُهدت إليَّ مهمتي. كان على كل جندي منضم إلى الجيش إجراء مجموعة من الاختبارات القياسية النفسية، وكان على كل جندي مرشح لأداء مهام قتالية عقد مقابلة لتقييم شخصيته. كان هدف المقابلات وضع نتيجة لكل مجنَّد للياقته العامة واكتشاف أفضل الأفرع في الجيش المناسبة لطبيعة شخصيته، من بين المشاة، والمدفعية، والمدرعات، وهكذا. كان القائمون على المقابلات أنفسهم مجندين جددًا، جرى اختيارهم لإجراء المقابلات نظرًا لذكائهم الشديد واهتمامهم بالتعامل مع الآخرين. كان معظم القائمين على المقابلات من النساء اللائي أُعفين آنذاك من المهام القتالية. وبتدريبهن لفترة امتدت أسابيع قليلة على طريقة إجراء مقابلات تتراوح مدتها بين خمس عشرة دقيقة وعشرين دقيقة، جرى تشجيعهن على توجيه أسئلة في عدد متنوع من الموضوعات وتكوين انطباع عام حول المستوى الذي سيكون عليه أداء المجند في الجيش.

لسوء الحظ، أشارت تقييمات المتابعة إلى أن إجراءات المقابلات تلك كانت بلا فائدة في توقع نجاح المجندين مستقبلًا. طُلب مني أن أصمم نظام مقابلات أكثر فائدة ويستغرق وقتًا أقل. قيل لي أيضًا أن أجرِّب نظام المقابلات الجديد وأن أقوم بتقييم دقته. من منظور مهني جاد، لم أكن مؤهلًا لأداء المهمة مثلما لم أكن مؤهلًا لبناء جسر عبر نهر الأمازون.

لحسن الحظ، كنت قد قرأت «الكتاب الصغير» لميل، الذي كان قد نُشر قبل عام. كنت مقتنعًا بطرح ميل في كتابه بأن القواعد الإحصائية البسيطة تفوق في نتائجها الأحكام «الإكلينيكية» الحدسية. خلصت من كتاب ميل بأن نظام إجراء المقابلات الحالي آنذاك فشل على الأقل جزئيًّا؛ نظرًا لأنه سمح للقائمين على المقابلات بعمل ما كانوا يجدونه أكثر الأشياء تشويقًا، ألا وهو معرفة آليات الحياة العقلية للأفراد الذين كانت تُجرى معهم المقابلات. في المقابل، يجب أن نستغل الوقت المحدود في حوزتنا للحصول على أكبر قدر ممكن من المعلومات المحددة عن حياة الشخص الذي تُجرى معه المقابلة في بيئته الطبيعية. كان أحد الدروس الأخرى التي تعلمتها من ميل هو أنه يجب تنحية الإجراء الذي تحدِّد من خلاله التقييماتُ العامة للمجندين الجدد — والموضوعة من جانب القائمين على المقابلات — القراراتِ النهائية جانبًا. أشار كتاب ميل إلى أن مثل هذه التقييمات لا يجوز الوثوق بها، وأن التجميعات الإحصائية للصفات التي جرى تقييمها بصورة منفصلة ستحقق درجة أكبر من الصحة في نتائجها.

اتخذتُ قرارًا بتنفيذ إجراء كان القائمون على المقابلات يقيِّمون عدة سمات شخصية ذات صلة من خلاله، ويضعون نتيجة منفصلة لكلٍّ منها. سيجري حساب النتيجة النهائية لدرجة اللياقة لممارسة مهام قتالية وفق صيغة قياسية، دون أي مدخلات من جانب القائمين على المقابلات. وضعت قائمة شملت ست سمات بدت ذات صلة بالأداء في وحدة قتالية ما؛ منها «المسئولية»، و«التفاعل مع الآخرين»، و«الإحساس بالرجولة». ثم وضعت لكل سمة من هذه السمات سلسلة من الأسئلة التي تعبر إجاباتها عن حقائق حول حياة الأفراد المرشحين قبل انضمامهم إلى الجيش، بما في ذلك عدد الوظائف التي شغلها، درجة انتظامه ومواظبته في عمله أو دراسته، معدل تفاعله مع أصدقائه، واهتماماته ومشاركته في الألعاب الرياضة، وأمور أخرى. كانت فكرة الإجراء تعتمد على تقييم درجة أداء المجنَّد في كل بعد من هذه الأبعاد بأكبر قدر ممكن من الموضوعية.

من خلال التركيز على الأسئلة القياسية المعتمدة على الحقائق، كنت آمل في التغلب على تأثير الهالة، الذي تؤثر الانطباعات الأولى الجيدة من خلاله على الأحكام اللاحقة. وكإجراء احترازي آخر إزاء تأثيرات الهالة، وجَّهتُ القائمين على المقابلات بتوجيه الأسئلة حول كل سمة من السمات الست في ترتيب ثابت، مع تقييم كل سمة على مقياس من خمس نقاط قبل الانتقال إلى السمة التالية. كان هذا هو كل ما في الأمر. طلبتُ من القائمين على المقابلات عدم التركيز على توقع مستقبل تكيُّف المجند مع الحياة العسكرية. كانت مهمة القائمين على المقابلات تتمثَّل فقط في استخلاص الحقائق ذات الصلة عن ماضي المجندين واستخدام تلك المعلومات لوضع نتيجة لكل بعد من أبعاد الشخصية المحددة. قلت لهم موجهًا: «تتمثل وظيفتكم في تقديم قياسات يُعتمد عليها. اتركوا مسألة صحة التوقع لي.» وهو ما كنت أعني به الصيغة التي كنت سأضعها لدمج تقييماتهم لكل سمة من السمات.

كان القائمون على المقابلات قاب قوسين أو أدنى من التمرد. تضايَق هؤلاء الشباب الأذكياء من أن تصدر لهم الأوامر من شخص بالكاد أكبر منهم سنًّا، ومن أن يتعاموا تمامًا عن أحكامهم الحدسية ويركزوا بصورة كاملة على أسئلة مملة تقوم على الحقائق. شكا أحدهم قائلًا: «أنت تحوِّلنا إلى آليين!» لذا، تنازلت قليلًا. قلت لهم: «اعقدوا المقابلات تمامًا كما قيل لكم … وعندما تنتهون، حققوا رغبتكم: أغمضوا أعينكم، وحاولوا تصوُّر المجنَّد باعتباره جنديًّا، ثم ضعوا نتيجة له على مقياس من ١ إلى ٥.»

أُجريت عدة مئات من المقابلات باستخدام الأسلوب الجديد، وبعدها بشهور قليلة جمعنا تقييمات أداء الجنود من قادة وحداتهم. جعلتنا النتائج نشعر بالسعادة. ومثلما أشار ميل في كتابه، كان نظام المقابلات الجديد يمثِّل تحسنًا هائلًا في النظام القديم. كان مجموع تقييماتنا الستة يقدِّم توقعات لأداء الجنود بصورة أكثر دقة كثيرًا من التقييمات العامة لأسلوب إجراء المقابلات السابق، وإن لم يكن مثاليًّا تمامًا. أحرزنا تقدمًا من تقييم «عديم الفائدة بالكامل» إلى تقييم «مفيد بصورة معقولة».

كانت المفاجأة الكبرى لي أن الأحكام الحدسية التي استدعاها القائمون على المقابلات في تمرين «تخيل أداء المرشح» كانت مفيدة جدًّا أيضًا، على نفس القدر من الإفادة مثل إجمالي تقييمات السمات الست. خرجت من هذا بدرس لم أنسَهُ؛ ألا وهو أن الحكم الحدسي له قيمة حتى في مقابلات اختيار المرشحين التي يجري نقدها عن حق، لكن لا يحدث ذلك إلا بعد جمع منظم للمعلومات الموضوعية ووضع نتائج منظمة للسمات المنفصلة. وضعتُ صيغة منحتْ تقييم «تخيل أداء المرشح» ثقلًا مساويًا لثقل مجموع تقييمات السمات الست. وكان أحد الدروس العامة التي خرجتُ بها من هذه التجربة هو ألا يثق المرء ببساطة في الأحكام الحدسية — سواء في أحكامه أو أحكام الآخرين — مع عدم الاستغناء عنها كليةً أيضًا.

بعد حوالي خمسة وأربعين عامًا، وبعد فوزي بجائزة نوبل في الاقتصاد، صرت مشهورًا إلى حد ما لفترة وجيزة في إسرائيل. في إحدى زياراتي، خطر لأحدهم مصاحبتي في جولة في قاعدتي العسكرية القديمة، التي كانت لا تزال تضم الوحدة التي تعقد مقابلات المجندين الجدد. جرى تقديمي إلى قائدة الوحدة النفسية، التي شرحت لي ممارسات إجراء المقابلات الحالية، التي لم تتغير كثيرًا عن النظام الذي كنت قد وضعته. كان هناك — فيما يبدو — حجم هائل من الأبحاث يشير إلى أن المقابلات ما زالت تفضي إلى نتائج جيدة. عندما بلغتْ قائدة الوحدة نهاية شرحها، أضافت قائلة: «ثم نقول لهم: «أغمضوا أعينكم».»

صممها بنفسك

يمكن تطبيق مضمون رسالة هذا الفصل بصورة مباشرة على مهام أخرى بخلاف مهام اتخاذ قرارات ضم أفراد جدد إلى الجيش. يتطلب تطبيق إجراءات عقد المقابلات بالروح نفسها التي أرادها كلٌّ من ميل ودويز جهدًا قليلًا نسبيًّا وتنظيمًا هائلًا. هَب أنك كنت في حاجة إلى تعيين أحد موظفي المبيعات في شركتك. إذا كنتَ جادًّا في تعيين أفضل الأشخاص المناسبين للوظيفة، فهذا هو ما يجب أن تفعله؛ أولًا حدد عددًا من السمات التي تعتبر متطلبات أساسية للنجاح في هذه الوظيفة (الكفاءة الفنية، والشخصية الجذابة، والاعتمادية … إلخ). لا تفرط في وضع السمات؛ إذ تكفي ست سمات فقط. يجب أن تتسم السمات التي تختارها بالاستقلال قدر الإمكان عن بعضها، ويجب أن تشعر بقدرتك على تقييمها بصورة موثوق بها من خلال توجيه بعض الأسئلة التي تعبر عن حقائق، ثم ضع قائمة بتلك الأسئلة لكل سمة من السمات وفكِّر في طريقة تقييمها، لنقل على مقياس ١–٥. يجب أيضًا أن تتوفر لديك معرفة بما تطلق عليه نتيجة «ضعيفة جدًّا» أو «جيدة جدًّا».

يجب أن تستغرق هذه الاستعدادات نصف ساعة أو أكثر قليلًا، وهو ما يمثِّل استثمارًا صغيرًا ربما يصنع فرقًا كبيرًا في درجة كفاءة الأشخاص الذين نعينهم. حتى يتسنى التغلب على تأثير الهالة، يجب عليك جمع المعلومات حول كل سمة على حدة في المرة الواحدة، مع وضع نتيجة ذلك قبل الانتقال إلى السمة التالية. لا تتخطَّ تقييم إحدى السمات. وحتى تُجري تقييمًا لكل مرشح، اجمع النتائج الست. نظرًا لأنك مسئول عن القرار النهائي، لا يجب عليك أن تُجري تمرين «تخيل أداء المرشح». اعقد العزم على أنك ستعين المرشح الذي تكون نتيجته النهائية الأعلى، حتى لو كان هناك مرشح بعينه تفضِّله أكثر. حاول التغلب على رغبتك في ابتداع عذر القدم المكسورة لتغيير تقييمك. اتضح من خلال عدد هائل من الأبحاث أنك من المحتمل أن تعثر على أفضل المرشحين إذا استخدمت هذا الإجراء مما لو فعلت ما يفعله معظم الناس عادةً في مثل هذه الحالات؛ ألا وهو إجراء المقابلة دون إعداد، واتخاذ قرارات بناءً على أحكام حدسية إجمالية مثل «نظرت إلى عينيه وأعجبني ما رأيت من خلالهما.»

في الحديث عن الأحكام الحدسية في مقابل الصيغ الإحصائية

«متى كنا نستطيع استبدال الصيغ بالأحكام الحدسية البشرية، يجب — على الأقل — ألا نستبعد الأحكام البشرية تمامًا.»

«بينما يظن أن أحكامه معقدة ودقيقة، ربما يفضي دمج بسيط للنتائج إلى نتيجة أفضل.»

«دعنا نقرر مسبقًا أي وزن نسبي نخصصه للبيانات التي نعرفها عن الأداء السابق للمرشحين، وإلا فسيكون الوزن الذي نخصصه لانطباعاتنا عن المقابلات أكبر مما ينبغي.»