الفصل السابع

النتائج الصحيحة والإنذارات الكاذبة

(الكشف عن الإشارة ونظرية القرار الإحصائي)

«القطة التي تجلس على غطاء موقد ساخن … لن تجلس على غطاء موقد ساخن بعد ذلك أبدًا، وهذا طبيعي؛ لكنها أيضًا لن تجلس حتى على غطاء موقد بارد بعدها.»

مارك توين¹

تتطلب العقلانية أن نميِّز بين الصحيح وما نريد أن يكون صحيحًا، وألَّا ندفن رءوسنا في الرمال، أو نبني صروحًا من خيال، أو التظاهر بعدم رغبتنا في الأهداف التي تقصُر أيادينا عن بلوغها. دائمًا ما تلازمنا الإغراءات بالتمني والإيمان بالخرافات لأن مصائرنا مرهونة بحالة العالم، التي لا يمكننا أبدًا أن نتيقن منها. وللحفاظ على عزْمنا والحول دون اتخاذ أي إجراءات مؤلمة قد يتبيَّن أنها غير ضرورية، غالبًا ما نرى ما نريد رؤيته ونتغاضى عمَّا دون ذلك. إننا نقف متمايلين على حافة ميزان الحمَّام بحيث نخفِّف من وزننا، ونؤجل إجراء فحص طبي قد يعود بنتيجةٍ غير مرجوة، ونحاول أن نصدِّق أن الطبيعة البشرية طيعةٌ بدرجة كبيرة.

أجل، ثمة طريقةٌ أكثر عقلانية للتوفيق بين جهلنا ورغباتنا: أداة عقلية تُسمى بنظرية الكشف عن الإشارة أو نظرية القرار الإحصائي. وهي تجمع بين الأفكار المهمة التي جاءت في الفصلين السابقين: تقدير احتمالية صحة شيء في الواقع (الاستدلال البايزي) وتقرير ما الواجب عمله إزاء هذا الشيء بتقييم التكاليف والفوائد المتوقَّعة منه (الاختيار العقلاني).²

يكمُن تحدي الكشف عن الإشارة في تحديدِ ما إذا كنا سنعامل علامةً ما على أنها إشارة حقيقية من الواقع أو مصدر تشويش ناجم عن تصوُّرنا القاصر له. وتلك معضلة متكررة في الحياة. يرى القائم بالمراقبة ومضةً على شاشة الرادار. ويدفعه ذلك إلى التساؤل إن كان ثمة هجوم قنابل نووية، أم إنه سِرب من طيور النورس؟ يرى اختصاصي الأشعة بقعةً في صورة الأشعة. ويدفعه ذلك إلى التساؤل إن كان المريض مصابًا بالسرطان، أم إنه تكيُّس غير ضارٍّ؟ تستمع هيئة المحلَّفين لشاهد عِيان وهو يدلي بشهادته في محاكمة. فيكون السؤال: هل المتهم مذنب، أم إن الشاهد لم يُصِب في تذكُّر الأحداث؟ نلتقي بشخص يبدو مألوفًا بعض الشيء. هل قابلناه من قبل، أم إنها نوبة مفاجئة من ظاهرة الرؤية المسبقة للأحداث بلا سبب محدَّد؟ مجموعة من المرضى تتحسَّن حالتهم بعد تناول دواء معيَّن. فهل أتى الدواء بأي مفعول، أم كان التحسُّن من قبيل تأثير الدواء الوهمي؟

إن نظرية القرار الإحصائي لا تقدِّم لنا درجةً من المصداقية بل قرارًا قابلًا للتنفيذ: ما إذا كنت ستجري الجراحة أم لا، وما إذا كنت ستدين المتهم أو تبرِّئه. فلسنا نقرِّر بالاستقرار على قرارٍ منهما أو نقيضه، ما نصدِّقه بشأن الواقع. كلُّ ما نفعله أننا نلتزم بفعلٍ ما متوقِّعين تكاليفه المحتملة وفوائده. إنَّ هذه الأداة المعرفية تنبِّهنا بقوة إلى الفرق بين ما هو حقيقي وما ينبغي القيام به. وهي تراعي أن الحالات المختلفة للواقع قد تستدعي اختيارات مجازفة مختلفة، لكنها توضح أننا لسنا بحاجة لخداع أنفسنا بشأن الواقع للمراهنة على الاحتمالات. بالتمييز الدقيق بين تقييمنا لحال الواقع وما نقرِّر فِعله حياله، يمكننا التصرُّف بعقلانية «كما لو» كان الشيء حقيقيًّا من دون أن «نصدِّق» بالضرورة أنه حقيقي. ومثلما سنرى، من شأن هذا أن يحدِث اختلافًا هائلًا لكنه لا يحظى بالتقدير الكافي في فهمِ جدوى علم الإحصاء في العلوم.

الإشارات والتشويش: الموافقة والرفض

كيف يجدُر بنا تناول مؤشر عشوائي بشأن الحالة الراهنة؟ لنبدأ بمفهوم التوزيع الإحصائي.³ لنفترض أننا نقيس شيئًا يتفاوت على نحوٍ غيرِ متوقَّع («متغير عشوائي»)، مثل درجات اختبار للانطوائية تتراوح بين صفر ومائة. سنوزِّع الدرجات إلى فئات: من ٠ إلى ٩ في فئة، ومن ١٠ إلى ١٩ في فئة أخرى، وهكذا، ثم نحصي عدد الأشخاص الذين جاءوا في كل فئة. بعد ذلك، ننظم هذه الفئات على «مدرج تكراري»، وهو رسم بياني يختلف عن الرسوم البيانية المعتادة التي نراها من حيث رسم المتغير المعني على امتداد المحور الأفقي بدلًا من الرأسي. وببساطة، يجمع البُعد المتفاوت صعودًا وهبوطًا أعدادَ الناس التي جاءت في كل فئة. وفيما يلي مدرج تكراري لدرجات اختبار للانطوائية ﻟ ٢١ شخصًا، شخص لكل مربع.

لنتخيل الآن أننا اختبرنا «مليون» شخص، وهو عدد كبير حتى إننا لم نَعُدْ مضطرين إلى توزيعهم في فئات، لكننا نستطيع ترتيبهم من اليسار إلى اليمين حسب درجاتهم الأصلية. مع تكديس المزيد والمزيد من المربعات إلى الأعلى وعلى الجانبين، يتحوَّل شكل الزقورة (بناء مستطيل متدرِّج) إلى تلٍّ انسيابي، وهو المنحنى الجرسي المألوف الوارد أدناه. يمثِّل المنحنى الكثير من المشاهدات عند قيمة متوسطة في المنتصف، ثم تقلُّ أكثرَ فأكثر حين تنظر إلى القيم الأصغر والأصغر على اليمين أو الأكبر فالأكبر على اليسار. يُسمى النموذج الرياضي الأشيع لمنحنى الجرس بمنحنى التوزيع الطبيعي أو منحنى توزيع جاوس.

يشيع استخدام منحنى الجرس في العالَم لتمثيل بيانات على غرارِ درجات اختبارات الشخصية أو الذكاء، وأطوال الرجال أو النساء، وسرعات السيارات على الطرق السريعة. وليست منحنيات الجرس هي الطريقة الوحيدة لترتيب الملاحظات. توجد أيضًا توزيعاتٌ ذات ارتفاعين أو قمَّتين، مثل الدرجة النسبية للانجذاب الجنسي لدى الرجال تجاه النساء وتجاه الرجال، وهو توزيع له قمَّة عالية في أحد الأطراف عند مغايري الجنس وقمة أصغر في الطرف الآخر لدى مثليي الجنس، مع قمَّة أصغر حتى من ذلك في حالة مزدوجي الميول الجنسية. وثمة توزيعات أخرى مفرطحة حيث القيم القصوى نادرة لكنها ليست بالغة الندرة، مثل تَعدادات المدن، أو دُخول الأفراد، أو عدد زوار المواقع الإلكترونية. العديد من هذه التوزيعات، مثل تلك الناتجة عن «قوانين أسية»، لها عمود مرتفع على اليسار مع الكثير من القيم الصغرى وذيل طويل سميك على اليمين مع قليل من القيم القصوى.⁴ غير أنَّ منحنيات الجرس — أحادية النسق والمتناظرة ورفيعة الذيل — شائعة في العالم؛ إنها تظهر متى كان القياس هو مجموع عدد كبير من الأسباب الصغيرة، مثل العديد من الجينات مع العديد من التأثيرات البيئية.⁵ (يُسمى هذا المفهوم بمبرهنة النهاية المركزية.)

لنتحول إلى الموضوع الراهن، وهو الملاحظات المتعلقة بحدوث شيء أو عدم حدوثه في الواقع. لا يمكننا التكهُّن بها بلا خطأ؛ إذ إننا لسنا آلهة، إنما نستطيع التكهُّن بها فقط من خلال قياساتنا، مثل الوميض على شاشة الرادار الصادر عن طائرة، أو البقع القاتمة التي تظهر في صورة الأشعة وتدل على ورم. ولا تأتي قياساتنا متطابقة بدقة وفي الوقت الملائم تمامًا على الدوام. وإنما تتوزع غالبًا في منحنًى جرسي، كما هو موضَّح في الرسم أدناه. من الممكن أن تَعُده رسمًا للأرجحية البايزية: احتمالُ ملاحظةٍ ما في حالة وجود الإشارة.⁶ (استُخدمت «أرجحية» في هذا السياق بالمعنى المحدود الشائع في مناقشات قاعدة بايز.) للملاحظة قيمةٌ معينة في المتوسط (الخط الرأسي المتقطع)، لكن أحيانًا ما تكون أعلى أو أدنى قليلًا.

لكن ثمة تطوُّر مأساوي هنا. قد تعتقد أنه حين لا يحدُث شيء في العالم — لا قاذفة قنابل، ولا ورم — سنحصل على قياس صفر. للأسف هذا لا يحدث مطلقًا. فدائمًا ما تقترن قياساتنا بمصادرِ تشويش، مثل خشخشة جهاز لاسلكي، أو مصادر تشويش كأسراب من الطيور، أو كيس حميد يظهر في الأشعة، وستتفاوت هي الأخرى من قياس لآخر، فيكون لها منحنًى جرسي خاص بها. والأسوأ من ذلك أن النطاق الأعلى للقياسات الناتجة عن التشويش قد تتداخل مع النطاق الأدنى للقياسات الناجمة عن الشيء الذي حدث في الواقع:

المأساة أن الرب وحدَه مَن يستطيع أن يرى الرسم ويعلم ما إن كانت المشاهدة آتية من إشارة أم من مصدر تشويش. أما نحن البشر جميعًا فنرى ملاحظاتنا:

حين نضطر إلى تخمينِ ما إن كانت المشاهدة إشارةً (تعكس شيئًا حقيقيًّا) أم تشويشًا (الفوضى الكامنة في ملاحظاتنا)، نضطر إلى وضعِ حدٍّ ما. يُسمى هذا الحد في المصطلحات التقنية لنظرية الكشف عن الإشارة، ﺑ «المعيار» أو «تحيُّز الاستجابة»، ويُرمز له بالرمز (بيتا). إذا كانت الملاحظة فوق المعيار، «نوافق» على الملاحظة ونتصرَّف على أنها إشارة (سواء أكانت كذلك أم لا، وهو ما لا يمكننا معرفته)؛ وإذا كانت أدنى منه «نرفضها»، ونستجيب كأنها مصدر تشويش:

لِنعُدْ إلى المنظور الإلهي ونرَ مدى دقَّتنا في المتوسط، بتطبيق هذا الحد. ثمة احتمالات أربعة. حين «نوافق» على الملاحظة وتكون إشارة بالفعل (قاذفة القنابل أو الورم موجودان)، فإنها تُسمى نتيجة صحيحة، ويظهر معدَّل الإشارات التي نصيب في تحديدها في الجزء الداكن المظلَّل من التوزيع:

ماذا إن لم تكن الملاحظة سوى تشويش؟ حين «نوافق» على لا شيء، يُسمى ذلك إنذارًا كاذبًا، ويظهر معدَّل تلك اللاأشياء التي نتسرع فيها في الجزء الرمادي المتوسط من الشكل التالي:

ماذا عن الحالات التي تقلُّ فيها الملاحظات عن معيارنا وتكون استجابتنا لها بالرفض؟ مرة أخرى، ثمة احتمالان. حين يكون ثمة شيء يحدُث حقًّا في الواقع، نسمي ذلك إخفاقًا. وحين لا يكون هناك شيء غير التشويش، ويُسمى في هذه الحالة رفضًا صحيحًا.

نرى في الشكل التالي تقسيمَ الاحتمالات الأربعة في حيز الأحداث:

بما أننا نستجيب في كل مرة ﺑ «الموافقة» أو «الرفض»، فلا بد أن يكون مجموع نسبتَي الإصابات والإخفاقات في حالة وجود إشارة حقيقية (الكتلة اليمنى) هو ١٠٠ في المائة. وينبغي أن يحدُث ذلك أيضًا في حالة نسبتَي الإنذارات الكاذبة وحالات الرفض الصحيح حين لا يكون هناك سوى تشويش (الكتلة اليسرى). إن كنا سنهبط بمعيارنا باتجاه اليسار، لنكون أكثرَ استعدادًا للإقدام، أو نرفعه باتجاه اليمين، لنصير أكثرَ تحفظًا، فسنقايض عندئذٍ بالإصابات مقابل الإخفاقات، أو الإنذارات الكاذبة مقابل حالات الرفض الصحيح، وتلك مسألة حسابية بحتة. ومن الواضح أيضًا لكن بدرجة أقل، أنه لتداخل المنحنيين، سوف نقايض الإصابات مقابل الإنذارات الكاذبة (حين نستجيب ﺑ «الموافقة») والإخفاقات مقابل الرفض الصحيح (حين نستجيب ﺑ «الرفض»). لنرَ الآن بمزيد من التمعُّن ما يحدث حين نرخي معيارَ الاستجابة، لنصبح أكثرَ ميلًا لقبول الاستجابة:

الخبر السارُّ هو أننا سنحقِّق إصابات أكثر، ملتقطين كل إشارة تقريبًا. الخبر السيئ أننا سنحصل على المزيد من الإنذارات الكاذبة، فنتسرع بالتصرف حين لا يكون هناك سوى تشويش. ماذا إذن إن تبنينا معيارًا أكثرَ صرامة، لنمتنع عن التصرف رافضين الإذعان ومطالبين ببرهان قوي؟

الآن سينقلب الخبر: إننا نادرًا ما نستغيث حين يكون الإنذار كاذبًا، وذلك حَسن، لكننا نخطئ في أغلب الإشارات، وذلك سيئ. في أكثر الحالات تطرفًا، إذا كانت استجابتنا ﺑ «الموافقة» في كل مرة دون تفكير، فسنصير على صواب دائمًا متى كانت هناك إشارة ونصبح دائمًا مخطئين متى كان هناك تشويش، والعكس صحيح إذا جاءت استجابتنا ﺑ «الرفض» في كل مرة.

يبدو هذا بديهيًّا، لكن الخلط بين تحيُّز الاستجابة والدقة بالنظر إلى الإشارات فقط أو التشويش فقط هو مغالطة شائعة لدرجةٍ مدهشة. لنفترض أن أحد الباحثين جعل يحلِّل النتيجة المتعلقة بنقاط الصواب والخطأ كلٌّ على حدة في اختبار صواب أو خطأ. إنه يعتقد أنه يرى ما إذا كان الناس أفضلَ في تمييز الحقائق أو رفض الأكاذيب، لكن كل ما يراه في الواقع هو ما إذا كانوا من نوعية الأشخاص الذين يروق لهم أن يستجيبوا ﺑ «القبول» أو «الرفض» لقد صُدمت حين أخضعني الطبيب لاختبار للسمع يتمثَّل في سلسلة من أصوات الصفير التي يزداد ارتفاعها من الخفوت الشديد إلى الجهور، وطلب مني أن أرفع أصبعي حين أبدأ سماعها. لم يكن اختبارًا للسمع. كان اختبارًا لنفاد صبري واستعدادي للمجازفة والتخمين حين لم أستطِع أن أحدِّد صراحةً إن كان ما أسمعه صفيرًا أم طنينًا في أذني. تمنحنا نظريةُ الكشف عن الإشارة عددًا من الطرق لفعل ذلك على نحوٍ سليم، منها معاقبة المستجيبين للإنذارات الكاذبة، وإرغامهم على أن الاستجابة ﺑ «الموافقة» نسبة معينة من الوقت، ومطالبتهم بإجراء تقدير للثقة بدلًا من الاكتفاء بالموافقة أو الرفض فحسب، إضافةً إلى جعل الاختبار متعدِّد الاختيارات بدلًا من صواب أو خطأ.

التكاليف والفوائد، ووضع حد

في ظل المقايضة المأساوية بين الإصابات والإنذارات الكاذبة (أو الإخفاقات والرفض الصحيح)، ما الذي يتعيَّن على الملاحظ العقلاني فِعله؟ إذا افترضنا مؤقتًا أننا لا نملك سوى حواسنا وما لدينا من أدوات قياس، مع منحنياتها الجرسية المتداخلة المزعجة، فستأتي الإجابة مباشرةً من نظرية المنفعة المتوقَّعة (الفصل السادس): سيتوقف الأمر على الفوائد لكل نوعٍ من التخمينات الصحيحة وتكاليف كل نوع من الأخطاء.⁷

بنا نَعُد إلى السيناريو الذي وردت فيه نظرية الكشف عن الإشارة، ألا وهو الكشف عن هجوم قاذفات القنابل من ومضات الرادار. ترِد الاحتمالات الأربعة بالأسفل، حيث يمثل كلُّ صف حالةً من حالات الواقع، ويمثل كل عمود استجابةَ عامل المراقبة، مع إدراج النتيجة في كل خلية:

	«موافقة»	«رفض»
إشارة (قاذفة قنابل)	نتيجة صحيحة (إنقاذ المدينة)	إخفاق (تفجير المدينة)
تشويش (طيور نورس)	إنذار كاذب (مهمة مهدرة، وتصاعد الاضطرابات)	رفض صحيح (هدوء شامل)

عند تحديد المستوى الملائم لمعيار الاستجابة، على صاحب القرار أن يتأمَّل التكاليف مجمَّعة (المنفعة المتوقَّعة) لكل عمود.⁸ الاستجابات ﺑ «الموافقة» ستنقذ المدينةَ المستهدَفة إذا كانت معرَّضة لهجوم بالفعل (الإصابة)، وهي فائدة كبرى، مع تكبُّد تكلفة متوسطة إذا لم تكن كذلك (الإنذار كاذب)، ومن ذلك الخسائر الناتجة عن إرسال طائرات اعتراضية للإقلاع الفوري دون سبب، مع إثارة الذعر داخليًّا والتوتر خارجيًّا. الاستجابات ﺑ «الرفض» ستعرِّض المدينة لهجوم إذا كان هناك واحد (الإخفاق)، وهي تكلفة فادحة، مع الحفاظ على السلام والهدوء الميمون في حال لم يكن هناك هجوم (الرفض الصحيح). بوجه عام سيبدو أن هذه المقارنة تدعو إلى معيار منخفض أو استجابة مندفعة بعض الاندفاع: فإطلاق الطائرات الاعتراضية للإقلاع الفوري بضعة أيام دون ضرورة سيبدو ثمنًا زهيدًا مقابل إنقاذ المدينة من الرمي بالقنابل.

ستكون الحسابات مختلفة إذا اختلفت التكاليف. لنفترض أن الاستجابة لم تكن إرسال طائرات لاعتراض قاذفات القنابل بل إرسال صواريخ باليستية عابرة للقارات مزودة برءوس نووية لتدمير مدن العدو، مما ينذر بقيام حرب عالمية ثالثة نووية حرارية. في تلك الحالة ستستدعي التكلفة الكارثية للإنذار الكاذب التأكُّد تمامًا من التعرُّض لهجوم قبل الاستجابة، وهو ما يعني وضع معيار استجابة عالٍ جدًّا جدًّا.

يتصل الأمر كذلك بمعدَّلات الأساس لقاذفات القنابل وطيور النورس التي تسبِّب تلك الومضات (السوابق البايزية). إذا كانت طيور النورس كثيرة وكانت قاذفات القنابل نادرة، فسيستدعي الأمر معيارًا مرتفعًا (عدم الإقدام على التصرف)، والعكس صحيح.

كما رأينا في الفصل السابق، فإننا نواجه المعضلة نفسها على مستوًى شخصي حين نقرِّر إن كنَّا سنخضع لجراحةٍ استجابةً لنتيجةٍ مبهمة لاختبار سرطان، أم لا:

	«موافقة»	«رفض»
إشارة (سرطان)	نتيجة صحيحة (إنقاذ من الموت)	إخفاق (موت)
تشويش (تكيس حميد)	إنذار كاذب (ألم، تشوه، مصاريف)	رفض صحيح (عودة الحياة لطبيعتها)

ما المستوى الملائم تمامًا إذن الذي ينبغي على صاحب القرار العقلاني — «الملاحظ المثالي» بمصطلحات النظرية — أن يضع فيه المعيار؟ الإجابة: عند النقطة التي تصل بالمنفعة المتوقَّعة للملاحظ لأقصى حد.⁹ يسهُل إجراء هذه الحسابات في المختبر، حيث يسيطر القائم بالتجربة على عدد التجارب ذات الصفارة (الإشارة) والتي من دون الصفارة (التشويش)، ويكافئ المشترِك على كل إصابة ورفض صحيح، ويغرِّمه على كل إخفاق وإنذار خاطئ. عندئذٍ سنجد المشترِك الافتراضي الذي يريد تحقيقَ أكبر مبلغ من المال يضع معياره وفقًا لهذه المعادلة، حيث القيم هي المكافآت والعقوبات:

الرموز الرياضية الدقيقة أقلُّ أهمية من الاكتفاء بالانتباه إلى ما يوجد أعلى النسبة وأسفلها وما يوجد على جانبي علامة الطرح. إنَّ ملاحِظًا مثاليًّا سيضع معياره على مستوًى أعلى (سيحتاج دليلًا أقوى قبل أن يستجيب ﺑ «الموافقة») وذلك بقدرِ ما يكون التشويش أرجح من الإشارة (مع السوابق البايزية المنخفضة). هذا منطقي: إذا كانت الإشارات نادرة، فلا بد أن تقل وتيرة استجابتك ﺑ «الموافقة». ويجب على الملاحظ المثالي أيضًا أن يضع معيارًا أعلى حين تكون المكافآت الناتجة عن الإصابات أقلَّ أو الناتجة عن الرفض الصحيح أعلى، وتكون عقوبات الإنذارات الخاطئة أعلى أو عقوبات الإخفاقات أقل. وهذا أيضًا منطقي: إذا كنت ستدفع غراماتٍ كبيرة على الإنذارات الكاذبة، فلا بد أن تكون أكثرَ إحجامًا عن الاستجابة ﺑ «الموافقة»، لكن إذا كنت ستجني ثروةً من الإصابات فلا بد أن تكون أشد إقبالًا. ففي التجارب المختبرية ينجذب المشتركون نحو الأفضل بديهيًّا.

حين يتعلَّق الأمر بقرارات حياة وموت، أو ألم وتشوه، أو إنقاذ حضارة أو تدميرها، فإن تحديد أرقام للتكاليف يكون بطبيعة الحالة أصعب. غير أنَّ هذه المعضلات ستظل تعذِّبنا أيضًا إن لم نحدِّد لها أرقامًا، ثم إنَّ دراسة كلٍّ من المربعات الأربعة، وإن كان تقدير أي التكاليف باهظة وأيها هين أوليًّا، من الممكن أن تجعل القرارات التي نتخذها أكثرَ اتساقًا ووجاهةً.

الحساسية وتحيُّز الاستجابة

المقايضات بين الإخفاقات والإنذارات الكاذبة عسيرة، ومن الممكن أن تغرس في الأذهان رؤيةً مأساوية لحال البشرية. فهل محكوم علينا — نحن البشرَ — أن نختار دائمًا بين التكلفة الفادحة للخطأ بعدم الاستجابة (بأن تُفجر مدينة، أو يُترك ورم سرطاني للانتشار) والتكلفة المروعة لفعل خطأ (مناوشة مدمرة، أو جراحة بما تنطوي عليه من تشويه)؟ تقول نظرية الكشف عن الإشارة إنَّ الأمر كذلك بالفعل، لكنها توضح لنا أيضًا سبيلًا للتخفيف من المأساة. يمكننا تذليل المقايضة بأن نزيد من «حساسية» ملاحظاتنا. تتوقف التكلفة في مهمة تحديد الإشارة على معلمتين: المستوى الذي نضع عنده الحد (تحيز الاستجابة، أو المعيار، أو مدى الاستعداد للتصرُّف، أو )، ومدى التباعد بين توزيع التشويش وتوزيع الإشارة، وهو ما يُسمى «حساسية»، ورمزه d'، ويُنطق «دي-أولي.»¹⁰

لنتخيل أننا طوَّرنا جهاز الرادار لدرجة مثالية حتى صار يستبعد النورس، أو يعرضها في صورة ثلوج خفيفة في أسوأ الحالات، بينما يعرض قاذفات القنابل بقعًا كبيرة ساطعة. معنى هذا أن المنحنيين الجرسيين للصخب والإشارة سيتباعدان أكثر (كما في الرسم البياني الأدنى). وهذا بدوره معناه أنه أينما وضعت حدَّ الاستجابة، فسيكون لديك إخفاقات أقل وإنذارات كاذبة أقل:

ووفقًا لقوانين الحساب، ستحظون بنسبة أكبر من الإصابات وحالات الرفض الصحيح. فبالرغم من أن تحريك الحد ذهابًا وإيابًا يقايض خطأً مقابل خطأ آخر على نحوٍ مأساوي، فإن فصل منحنيَي الجرس أحدهما عن الآخر — باستخدام أدواتٍ أفضل، واعتماد أساليب تشخيصية أدق، واتباع طرق بحثية مختبرية أكثر موثوقية — هو الأفضل؛ إذ يقلِّل الأخطاء من كلا النوعين. ينبغي أن يكون تعزيز الحساسية هو ما نطمح إليه دائمًا في تحديات الكشف عن الإشارة، وهذا يقودنا إلى واحد من أهم تطبيقات النظرية.

الكشف عن الإشارة في قاعة المحكمة

إنَّ التحقيق في جريمةٍ ما هو مهمة كشْف عن الإشارة. ذلك أنَّ القاضي أو هيئة المحلَّفين أو اللجنة التأديبية يتعرَّضون لأدلة على مخالفة يُحتمَل أنَّ المهتم قد ارتكبها. تتفاوت الأدلة في قوَّتها، وقد تنشأ مجموعة الأدلة من ارتكاب المتهم للجرم (إشارة) أو من شيء آخر، مثل ارتكاب شخص آخر للفعل أو عدم وقوع الجريمة على الإطلاق (تشويش).

تتداخل توزيعات الأدلة بدرجةٍ أكبر من تلك التي يتصوَّرها أغلب الناس. فقد أوضح التقدم في بصمة الحمض النووي (وهو قفزة عملاقة في مسألة الحساسية) أنَّ عدد المرات التي أُدين فيها الكثير من الأبرياء، وبعضهم حُكِم عليهم بالإعدام، استنادًا لأدلة يُحتمل أنها صدرت عن تشويش يكاد يساوي عدد مرات الإدانة استنادًا إلى أدلة صدرت عن إشارة. والأشهر من ذلك على نحوٍ سيئ هو شهادة شهود العِيان: فقد أثبت البحث الذي أجْرته إليزابيث لوفتس وغيرها من علماء النفس المعرفي أن الناس عادةً ما يذكرون بثقةٍ أنهم رأوا أشياء لم تحدُث قط.¹¹ وأغلب الأساليب التي تبدو علمية وتقنية، كتلك التي تُعرض في مسلسل «التحقيق في مسرح الجريمة» (سي إس آي) وغيره من برامج البحث الجنائي على التلفاز لم تُجَز على النحو اللائق قط، إنما يروِّج لها أشخاصٌ يدَّعون أنهم خبراء، وقد أوتوا شيئًا كثيرًا من الثقة المفرطة والانحيازات التأكيدية. من هذه الأساليب تحاليل الطلقات النارية، وآثار العض، والألياف، والشَّعر، وآثار الأحذية، وآثار إطارات السيارات، وآثار الآلات، والخط، ونمط بقع الدماء، وموادُّ إشعال الحرائق، وحتى بصمات الأصابع.¹² يُعَد الحمض النووي هو أجدر أساليب التحليل الجنائي بالاعتماد عليه، لكن ينبغي أيضًا أن نتذكر الفرْق بين النزعة والتكرار: فثمَّة نسبة من أدلة الحمض النووي تفسد بسبب تلوث العينات، والإهمال في وضع البطاقات عليها، وغير ذلك من الأخطاء البشرية.

على هيئة المحلَّفين التي تواجه دليلًا يشوبه التشويش أن تضع معيارًا وتعود بحكمٍ بالتبرئة أو الإدانة (بالموافقة أو الرفض). ذلك أنَّ مصفوفة قرارها يترتَّب عليها تكاليفُ وفوائد تُحسب بعملة عملية ومعنوية: المجرمون الذين سيُبعدون من الشوارع أو يُتركون لإيذاء الآخرين، وتطبيق القيمة المجردة للعدالة أو إجهاضها.

	«إدانة»	«تبرئة»
إشارة (مذنب)	إصابة (تطبيق العدالة؛ معاقبة المجرم)	إخفاق (إنكار العدالة؛ إعطاء المجرم الحرية لإيذاء الآخرين)
تشويش (بريء)	إنذار كاذب (إساءة تطبيق أحكام العدالة؛ معاقبة بريء)	رفض صحيح (تطبيق العدالة؛ لكن مع تكاليف محاكمة)

كما رأينا في مناقشة معدَّلات الأساس المحظورة (الفصل الخامس)، ما من أحد سيقبل بنظام قضائي يعمل حصريًّا بالقواعد العملية للتكاليف والفوائد بالنسبة إلى المجتمع؛ إذ إننا نصرُّ على إنصاف الفرد. لكن بما أن المحلَّفين لا يملكون العلم الإلهي المطلق، فكيف يمكن المقايضة بين المظالم المترتِّبة على إدانة بريء بخطأ والإفراج عن مجرم بالخطأ وهي أمور غير قابلة للقياس؟ أين سنضع معيار الاستجابة، إن أردنا صياغة الأمر بلغة الكشف عن الإشارة؟

كان الافتراض المعهود هو تحديد تكلفة معنوية مرتفعة للإنذارات الكاذبة. وقد عبَّر عنه الفقيه القانوني ويليام بلاكستون (١٧٢٣–١٧٨٠) في القاعدة التي سُميت باسمه: «أنْ يفلت ١٠ مذنبين أفضلُ من أن يُظلم بريء واحد.» ولذلك فإن هيئات المحلَّفين تعمل بمبدأ «قرينة البراءة»، ولا يجوز لها أن تُدين إلا إذا كان المتهم «مذنبًا بما لا يدَع مجالًا للشك» (رفع العامل ، أو المعيار، أو تحيُّز الاستجابة). ولا تجوز الإدانة استنادًا إلى «دليل مرجَّح» فحسب، المعروف أيضًا باسم «أكثر من ٥٠ في المائة بقليل».

تلك النسبة التي وضعها بلاكستون: ١:١٠ اعتباطيةٌ بالطبع، لكن الميل إلى جانب دون الآخر مبرَّر بدرجة كبيرة. في النظام الديمقراطي، الحرية هي الأساس، والقهر الواقع من الحكومات استثناء مجهد يجب أن يكون له ذريعة قوية، نظرًا إلى السلطة الجبارة للدولة والإغراء المستمر بالاستبداد. معاقبة البريء، ولا سيما بالموت، تهزُّ الضمير بدرجة كبيرة لا تتأتى من ترْك المذنب دون عِقاب. إنَّ النظام الذي لا يستهدف الناس جزافًا للبطش بهم هو الذي يضع الفرْق بين الحكم بالعدل والحكم بالترويع.

ومثلما هو الحال مع جميع حالات تحديد معيار الاستجابة، يتوقَّف تحديد المعيار استنادًا إلى نسبة بلاكستون على تقدير النتائج الأربع، والتي يمكن الاعتراض عليها. ففي أعقاب الحادي عشر من سبتمبر، اعتقدت إدارة جورج دبليو بوش أن التكلفة الكارثية لعمل إرهابي ضخم تبرِّر استخدام «أساليب الاستجواب المعزَّزة»، وهو مصطلح مخفَّف للتعذيب، وأنها أضخم من التكلفة الأخلاقية لانتزاع اعترافات كاذبة من أبرياء تحت التعذيب.¹³ في عام ٢٠١١، أثارت وزارة التعليم الأمريكية عاصفةً من ردود الأفعال العنيفة؛ إذ أصدرت مبدأً توجيهيًّا جديدًا (أُلغي منذ ذلك الوقت) يقضي على الجامعات بأن تُدين الطلاب المتهمين بسوء السلوك الجنسي استنادًا إلى القرينة المرجَّحة.¹⁴ أقر بالمقايضة بعضُ المدافعين عن تلك السياسات لكنهم جادلوا بأن الجرائم الجنسية شائنةٌ للغاية حتى إنها تستحق إدانة بضعة أبرياء ثمنًا لها.¹⁵

لا توجد إجابة «صحيحة» لهذه الأسئلة المتعلقة بالتقييم الأخلاقي، لكننا نستطيع استخدام طريقة التفكير بالكشف عن الإشارة للتحقُّق مما إذا كانت ممارساتنا متسقة مع قيمنا. لنفترض أننا نعتقد أنه يجب ألا يُبرَّأ أكثر من واحد في المائة من المذنبين وألا يُدان أكثر من واحد في المائة من الأبرياء. لنفترض أيضًا أن المحلَّفين كانوا ملاحظين مثاليين يطبِّقون نظريةَ الكشف عن الإشارة أفضلَ تطبيق. فما درجة القوة التي ينبغي أن يكون الدليل عليها كي يفي بتلك الأهداف؟ وعلى وجه التحديد، ما الحجم الذي يجب أن يبلغه d'؛ أي المسافة بين توزيعي الإشارة (مذنب) والتشويش (بريء)؟ من الممكن قياس المسافة بالانحرافات المعيارية، وهي الطريقة الأشهر لقياس مدى التغيُّر. (المكافئ البصري له هو عرض المنحنى الجرسي، أي المسافة الأفقية من الوسط لنقطة الانقلاب، حيث يتحوَّل المحدَّب إلى مقعَّر.)

أجرى عالِما النفس هل أركس وباربرا ميلرز، العمليات الحسابية اللازمة ووجدا أنَّ تحقيق تلك الأهداف يستلزم أن يساوي d' الخاص بقوة الدليل ٤٫٧؛ أي نحو ٥ انحرافات معيارية تفصل دليل الأطراف المذنبة عن دليل الأطراف البريئة.¹⁶ هذا مستوًى رفيع من الحساسية لا تصل إليه حتى أعقد تقنياتنا الطبية. وإذا كنا مستعدين لإرخاء معاييرنا وإدانة ما يصل إلى ٥ في المائة من الأبرياء وتبرئة ٥ في المائة من المذنبين، فسينبغي أن تساوي d' ٣٫٣ انحرافات معيارية «فقط»، وهو ما زال مستوًى بعيدَ المنال من الحساسية.

هل هذا معناه أن تطلعاتنا الأخلاقية للعدالة تفوق قدراتنا على البرهان؟ هذا شبه مؤكَّد. درَس أركس وميلرز هذا الأمرَ في عينة من الطلاب ليتبينا حقيقةَ تلك التطلعات. رأى الطلاب أن المجتمع العادل ينبغي ألا يُدين أكثرَ من خمسة في المائة من الأبرياء وألا يبرِّئ أكثرَ من ثمانية في المائة من المذنبين. وجاء رأي عينة من القضاة مشابهًا لذلك أيضًا. (لا يمكننا أن نعرف إن كان ذلك أكثرَ تشددًا من نسبة بلاكستون أم أقل؛ لأننا لا ندري نسبة المذنبين من المتهمين في الواقع.) وتستدعي تلك التطلعات أن تساوي قيمة d' ثلاثة؛ أي أن يكون الدليل الذي تركه المتهمون المذنبون أقوى ﺑ ٣ انحرافات معيارية من الدليل الذي تركه المتهمون الأبرياء.

ما مدى واقعية ذلك؟ تعمَّق أركس وميلرز في الأدبيات الخاصة بحساسية شتى الاختبارات والتقنيات ووجدا أنَّ الإجابة هي: ليس واقعيًّا جدًّا. حين يُطلب من الناس التمييز بين الكاذبين والصادقين، فإنَّ d' لديهم تساوي صفرًا تقريبًا؛ أي إنهم لا يستطيعون التمييز. شهادة شهود العِيان أفضلُ من ذلك، لكنها ليست أفضل كثيرًا؛ فقيمة d' في هذه الحالة متواضعة وتساوي ٠٫٨. تأتي كاشفات الكذب الآلية، أي اختبارات أجهزة كشف الكذب، في مرتبةٍ أفضلَ؛ إذ تساوي ١٫٥ تقريبًا، لكن أغلب قاعات المحاكم لا تسمح بها.¹⁷ وانتقالًا من البحث الجنائي إلى أنواعٍ أخرى من الاختبارات التي تعاير توقعاتنا، اكتشفا أن d' تساوي نحو ٠٫٧ لاختباراتِ تحرِّي الأفراد العسكريين، و٠٫٨–١٫٧ للتنبؤ بالطقس، و١٫٣ لتصوير الثدي بالأشعة، و٢٫٤–٢٫٩ للأشعة المقطعية على آفات الدماغ (أُعِدَّت هذه التقديرات بالطبع وفقًا لتقنيات أواخر القرن العشرين؛ ولا بد أن تكون أعلى الآن).

لنفترض أن الجودة النموذجية للأدلة في محاكمة أمام هيئة المحلَّفين ذات d' تساوي ١ (أي انحراف معياري واحد للمتهم المذنب أعلى مما هو عليه للمتهم البريء). إذا تبنَّت هيئات المحلَّفين معيارَ استجابة صارمًا، يستند مثلًا إلى اعتقادٍ سابق بأن ثلث المتهمين مذنبون، فإنهم سيبرِّئون ٥٨ في المائة من المتهمين المذنبين ويُدينون ١٢ في المائة من المتهمين الأبرياء. وإذا تبنَّوا معيار استجابة متساهلًا، يتفق مع الاعتقاد المسبق بأن ثلثي المتهمين مذنبون، فإنهم سيبرِّئون ١٢ في المائة من المتهمين المذنبين ويُدينون ٥٨ في المائة من المتهمين الأبرياء. النتيجة المؤسفة هي أن هيئات المحلَّفين تبرِّئ مذنبين وتُدين أبرياءَ أكثر بكثير مما قد يعتبره أيٌّ منَّا مقبولًا.

ومع ذلك، فمن الممكن للنظام القضائي الجنائي أن يعقِد مع الشيطان صفقةً أفضل من تلك. فأغلب القضايا لا تُحال إلى المحاكمة وإنما تُردُّ لأن الدليل ضعيف جدًّا، أو تُسوَّى بالتفاوض على الاعتراف مقابل تخفيف العقوبة (في أفضل الأحوال) لأن الدليل قوي جدًّا. ومع هذا كله، يمكن لعقلية الكشف عن الإشارة أن توجِّه مناقشاتنا عن الإجراءات القضائية نحو تحقيق قدرٍ أكبرَ من العدالة. ففي الوقت الحالي، تُغفِل العديد من الحملات أمرَ المقايضة بين الإصابات والإنذارات الكاذبة، وتتعامل مع الإدانات الخاطئة على أنها مسألة مستحيلة، كما لو كان المحكِّمون معصومين عن الخطأ. يصل الأمر إلى أنَّ العديد من أنصار العدالة يدعون إلى الهبوط بمستوى المعيار الذي يؤدي إلى اتخاذ القرار. فهم يدعون إلى وضعِ المزيد من المجرمين وراء القضبان. يدعون إلى تصديق النساء. يدعون إلى مراقبةِ الإرهابيين وحبْسهم قبل أن يشنوا هجماتهم. إذا سلب أحد الأشخاص حياةَ آخر، فإنه يستحق أن تُسلب حياته هو أيضًا. لكن الضرورة الرياضية تعني أن خفض معيار الاستجابة لن يؤدي إلى شيء إلا أن يقايض ظلمًا بظلم آخر. يمكن إعادةُ صياغة الحجج على النحو التالي: ضع المزيد من الأبرياء خلف القضبان. اتَّهِم رجالًا بالاغتصاب لا ذنبَ لهم. احبس شبابًا مسالمين تحدَّثوا بطيشٍ على وسائل التواصل الاجتماعي. أعدم المزيدَ من الأبرياء.¹⁸ إنَّ إعادة الصياغة هذه، في حد ذاتها، لا تدحض الحجج. وقد يحدُث بالطبع في وقتٍ من الأوقات أن يميِّز أحدُ الأنظمةِ المتهمَ على حساب مَن يُحتمل أن يكونوا ضحاياه أو العكس، ويكون عندئذٍ بحاجة للإصلاح. وما دام مصير البشَر بمعرفتهم المحدودة أن يكون لديهم نظام قضائي، فلا بد أن يواجهوا الضرورةَ القاسية التي تنطوي على أنَّ بعض الأبرياء سيعاقبون.

بالرغم من ذلك، فإنَّ الوعي بالمقايضات المأساوية عند التمييز بين الإشارات والتشويش من الممكن أن يحقِّق قدرًا أكبرَ من العدالة. فهو يجبرنا على مواجهة جسامة العقوبات القاسية من قبيل حكم الإعدام والأحكام المطولة بالسَّجن، التي لا تتمثل جسامتها في أنها قاسية على المذنب فحسب، بل في أنها أيضًا ستنال البريء حتمًا. وهي تخبرنا بأن السعي الحقيقي لإقامة العدل لا بد أن ينطوي على زيادة حساسية النظام، وليس تحيُّزه: اللجوء إلى أساليبِ بحثٍ جنائي أدق، وبروتوكولات أكثرَ نزاهة في الاستجواب والشهادة، وتقييد تعصُّب الادعاء العام، وغيرها من الضمانات ضد أخطاء القضاء بنوعيها.

الكشف عن الإشارة والدلالة الإحصائية

إنَّ المقايضة بين النتائج الصحيحة والإنذارات الكاذبة أمرٌ جوهري في أي قرار يستند إلى أدلَّة ناقصة، مما يعني أنه يتهدَّد كل قرار بشري. وسوف أذكر شيئًا آخر أيضًا: تقرير ما إذا كان للنتيجة التجريبية أن تجيز استنتاجًا بشأن صحة الفرضية. في هذا المجال، تظهر نظرية الكشف عن الإشارة في ثوب نظرية القرار الإحصائي.¹⁹

سمِع أغلب المطلعين على العلم عن «الدلالة الإحصائية»، حيث إنها كثيرًا ما تُذكر في الأخبار التي تتناول اكتشافات في الطب وعلم الأوبئة والعلوم الاجتماعية. تستند هذه النظرية إلى حدٍّ كبير على نفس الأسس الرياضية التي تقوم عليها نظريةُ الكشف عن الإشارة، وقد قدَّمها عالِما الإحصاء جيرزي نيمان (١٨٩٤–١٩٨١) وإيجون بيرسون (١٨٩٥–١٩٨٠). وسوف تساعدك رؤية العلاقة على تجنُّب خطأ حتى العلماء يرتكبونه بصفة متكررة. إنَّ كل دارس للإحصاء يُحذَّر من أن «الدلالة الإحصائية» مصطلح تقني يجب عدم الخلط بينه وبين المعنى الدارج لمصطلح «الدلالة»، والذي يُستخدَم للإشارة إلى ما هو مهم وجدير بالملاحظة. بالرغم من ذلك، فإنَّ أغلب دارسي الإحصاء يفهمون هذا المصطلح على نحوٍ مغلوط.

لنفترض أنَّ عالمةً ما ترصد بعض الأشياء في العالم وتحوِّل قياساتها إلى بياناتٍ تعكس التأثيرَ الذي تُعنى برصده، مثل الاختلاف في الأعراض بين المجموعة التي تلقَّت العقار والمجموعة التي تلقَّت العلاج الوهمي، أو الاختلاف في المهارات اللفظية بين الصبية والفتيات، أو التحسُّن في درجات أحد الاختبارات بعد التحاق الطلاب ببرنامج تقوية. إذا كان الرقم صفرًا، فهذا معناه أنه لا يوجد أيُّ تأثير؛ وإذا كان أكثر من صفر، فمن المحتمل أن يكون ثمة اكتشاف. بالرغم من ذلك، فنظرًا لأن هذه التجارب تُجرى على البشَر، فسيشوب البيانات شيء من التشويش بطبيعة الحال، وقد يعني ارتفاع متوسط الدرجات عن صفر أن ثمة اختلافًا حقيقيًّا في الواقع، أو ربما يكون خطأً متعلقًا بالعينات، أو ربما تكون تلك صدفة فحسب. بنا نَعُد إلى منظور الإله ونرسم توزيع الدرجات الذي ستحصل عليه العالِمة إن لم يكن هناك اختلافٌ في الواقع، هو ما يُسمى الفرضية الصفرية، وتوزيع الدرجات التي ستحصل عليها إذا حدث شيء؛ أي تأثير بحجمٍ معيَّن. ستتداخل التوزيعات، وذلك ما يجعل العلم صعبًا. سيبدو هذا الشكل مألوفًا:

الفرضية الصفرية هي التشويش، والفرضية البديلة هي الإشارة. أما حجم التأثير، فمثله مثل الحساسية، وهو يحدِّد مدى سهولة معرفة الإشارة من التشويش. على العالِمة إذن أن تضع معيارًا أو تحيُّز استجابةٍ ما قبل الاحتفال، يُسمى القيمة الحرجة: إذا أتت النتيجة دون القيمة الحرجة، فلا يمكن للعالِمة رفض الفرضية الصفرية وعليها أن تقر بالفشل؛ وإذا أتت النتيجة فوق القيمة الحرجة، فيمكنها رفض الفرضية الصفرية والاحتفال بالنجاح، إذ يمكنها حينئذٍ أن تعلن أن التأثير «له دلالة إحصائية.»

لكن أين يجب وضعُ القيمة الحرجة؟ على العالمة المقايضة بين نوعين من الأخطاء. بإمكانها رفض الفرضية الصفرية حين تكون صحيحة، أي في حالة الإنذار الكاذب، أي في حالة وجود خطأ من النمط الأول بلغة نظرية القرار الإحصائي. يمكن للعالمة أيضًا أن تقبل الفرضية الصفرية في حالة الإخفاق؛ أي في حالة وجود خطأ من النمط الثاني باللغة المتخصصة. كلا الخطأين سيئ في واقع الأمر: فالخطأ من النمط الأول يُدخِل الزور إلى السجل العلمي، والخطأ من النمط الثاني يمثِّل إهدارًا للمجهود والمال. وهذا يحدُث حين لا تكون المنهجية مصمَّمة بما يكفي من «القوة» (معدَّل الإصابة، أو واحد ناقص معدَّل الخطأ من النمط الثاني) لتحديد التأثير.

هذا، وكان قد تقرَّر منذ زمن بعيد — وإن كان ليس من الواضح تمامًا مَن ذا الذي قرَّر — أن الخطأ من النمط الأول (الإشارة إلى وجودِ تأثير في حالة عدم وجوده) شديدُ الضرر بالمشروع العلمي، الذي لا يمكنه إلا تحمُّل عددٍ معيَّن فقط من هذا الخطأ: ٥ في المائة من الدراسات التي تكون الفرضية الصفرية صحيحة فيها، على وجه التحديد. وهكذا نشأ الاتفاق بأنه ينبغي على العلماء العمل بمستوًى من القيمة الحرجة يضمن أن يكون احتمالُ رفض الفرضية الصفرية حين تكون صحيحة أقل من ٥ في المائة: «القيمة الاحتمالية ٠٫٠٥» المأمولة. (رغم أننا قد نرى أنه لا بد من مراعاة خسائر خطأ النمط الثاني هي الأخرى، كما هو الأمر في نظرية الكشف عن الإشارة؛ فذلك لم يحدُث قط لسبب تاريخي لا يقلُّ غموضًا عمَّا أدَّى إلى مراعاة النمط الأول.)

هذا هو معنى «الدلالة الإحصائية» إذن: طريقة للحفاظ على معدَّل الادعاءات الكاذبة بالاكتشافات تحت سقف تعسفي. وبِناءً على هذا، إذا حصلت على نتيجةٍ ذات دلالة إحصائية بقيمة احتمالية ٠٫٠٥ فإنك تستطيع استنتاج التالي، أليس كذلك؟

احتمال أن تكون الفرضية الصفرية صحيحة أقل من ٠٫٠٥.
احتمال وجود تأثير ما يفوق ٠٫٩٥.
إذا رفضت الفرضية الصفرية، فهناك احتمال أقل من ٠٫٠٥ أنك قد اتخذت قرارًا خاطئًا.
إذا كرَّرت الدراسة، فاحتمال أنك ستنجح أكبر من ٠٫٩٥.

هذا ما يعتقده ٩٠ في المائة من أساتذة علم النفس، منهم ٨٠ في المائة يدرِّسون الإحصاء.²⁰ بالرغم من ذلك، فهم مخطئون، مخطئون، مخطئون، مخطئون. إذا كنت قد انتبهت للمناقشة في هذا الفصل والفصل الخامس، فسيمكنك أن ترى السبب. «الدلالة الإحصائية» هي «أرجحية» بايزية: احتمالية الحصول على البيانات في ظل الفرضية (الفرضية الصفرية في هذه الحالة).²¹ لكنَّ كلًّا من تلك العبارات «لاحقة» بايزية: احتمالية الفرضية بِناءً على البيانات. ذلك ما نريده في النهاية — إنه الغرض من إجراء الدراسة — لكنه ليس ما يقدِّمه اختبار الدلالة. إذا كنت تتذكَّر السببَ في أنَّ إروين ليس مصابًا بمرض في الكبد، والسبب في أنَّ المنازل الخاصة ليست خَطِرة بالضرورة، والسبب في أنَّ البابا ليس كائنًا فضائيًّا، فأنت تعلم أنه يجب عدم التبديل بين هذين الاحتمالين الشرطيين. لا يمكن للعالمة أن تستخدم اختبارَ الدلالة للتحقُّق مما إذا كانت النظرية الصفرية صحيحة أم خاطئة إلا إذا راعت السوابق كذلك؛ أي تخمينها لاحتمال أن تكون النظرية الصفرية صحيحةً قبل إجراء التجربة. غير أنَّ الحسابات المتعلِّقة باختبار دلالة الفرضية الصفرية، لا تتضمَّن السابقة البايزية على الإطلاق.

ينغمس غالبيةُ علماء الاجتماع في طقس اختبار الدلالة منذ بداية حياتهم العملية، حتى إنهم ينسون منطقه الفعلي. أدركت هذا الأمر حين تعاونت مع عالِمة اللغويات النظرية، جين جريمشو، التي تعلَّمت الإحصاء بنفسها وقالت لي: «دعني أستوضح هذا الأمر. الشيء الوحيد الذي تثبته هذه الاختبارات هو الحالات التي يغيب فيها التأثير، وكذبًا سيدَّعي واحد من بين كل ٢٠ عالمًا يبحثون عن التأثير أنه موجود. فما الذي يجعلك على يقين بالغ أنك لست بهذا العالم؟» الإجابة الصريحة هي: لا شيء. وقد جلب تشكُّكها تفسيرًا آخرَ لورطة قابلية التكرار. لنفترض أن ٢٠ عالمًا ذهبوا إلى مطاردةِ وهمٍ ما، على غرار صيَّادي حيوان السنارك في قصيدة لويس كارول. يتوصل ١٩ منهم إلى نتائجَ تفيد بعدم وجوده ولا ينشرونها، والوحيد الذي حالفه الحظ (أو لم يحالفه) بأن ارتكب النمط الأول من الخطأ نشر «اكتشافه».²² في كاريكاتير «إكس كيه سي دي» يختبر عالمان علاقةَ الارتباط بين حبَّات الهلام وحبِّ الشباب لكل لونٍ من ألوانها اﻟ ٢٠ على حدة، ويشتهران بربطهم بين حبات الهلام الخضراء وحب الشباب بقيمة احتمالية ٠٫٠٥.²³ العلماء الذين فهموا المزحةَ أخيرًا، بدءُوا ينشرون نتائجهم الصفرية، وتوصَّلوا إلى تقنيات للتعويض عن مشكلة الأبحاث التي لا تُنشر نتائجها عند مراجعة الأدبيات في تحليل تلوي؛ أي دراسة عن الدراسات. تظهر النتائج الصفرية واضحة بغيابها، ويستطيع المحلِّل أن يحدِّد اللاشيء غير الموجود وكذلك اللاشيء الموجود.²⁴

إنَّ سوء الفهم المخزي لاختبار الدلالة ينم عن لهفةٍ لدى البشر. لقد لاحظ الفلاسفة منذ هيوم أنَّ الاستقراء — التوصُّل إلى تعميمٍ ما من ملاحظات — هو في الأصل نوعٌ غير مؤكَّد من الاستدلال.²⁵ فمن الممكن رسم عدد لا حصر له من المنحنيات من خلال أي مجموعة محدودة من النقاط؛ ومن الممكن أن يتسق عددٌ غير محدود من النظريات اتساقًا منطقيًّا مع أي مجموعة من البيانات. غير أنَّ أدوات العقلانية المبيَّنة في هذه الفصول تقدِّم طرقًا مختلفة لمجابهة هذه المحنة الكونية. فصحيح أنَّ نظرية القرار الإحصائي لا تستطيع التأكُّد من الحقيقة، لكنها تستطيع الحد من الضرر الناجم عن نمطي الخطأ. وبالرغم من أنَّ الاستدلال البايزي يستطيع تعديل مدى تصديقنا للحقيقية، فلا بد أن يبدأ بسابقة، مع كلِّ ما ينطوي عليه ذلك من أحكام شخصية. إنَّ أيًّا منهما لا يمنح ما يتوق إليه الجميع: خوارزمية كاملة جاهزة لتحديد الحقيقة.