الارتباط والسببية
«من أول الأشياء التي تُدرس في الكتب الدراسية لعلم الإحصاء التمهيدي هو أن الارتباط لا يقتضي السببية. وهو أيضًا من أول الأشياء التي تُنسى.»
بما أن أغلبنا غيرُ مهدَّد بأن يُعتَقل في عشق آباد، فبإمكاننا تحديد الخلل في نصيحة معاليه. لقد ارتكب الرئيس أحدَ أشهر أخطاء الاستدلال، وهي الخلط بين الارتباط والسببية. فحتى إن كان صحيحًا أنَّ التركمان الهُتْم لم يكونوا يمضغون العظام، لا يجوز للرئيس أن يستنتج أن مضغ العظام هو ما يقوي الأسنان. ربما أصحاب الأسنان القوية هم وحدهم مَن يستطيعون مضغ العظام، وهي حالة علاقة سببية عكسية. أو ربما يوجد عامل ثالث، مثل أن تكون عضوية الحزب الشيوعي، تستلزم من التركمان مضغ العظام (لإثبات ولائهم لزعيمهم) وأن يتمتعوا بأسنان قوية (إذا كانت العناية بالأسنان شرطًا للعضوية)، وهي حالة تشويش.
إنَّ مفهوم السببية، وتناقضه مع محض الارتباط، هو قوام العلوم. ما الذي يسبِّب السرطان؟ أو تغيُّر المناخ؟ أو الفصام؟ إنه مفهوم متغلغل في لغتنا اليومية وتفكيرنا وحسنا الفكاهي. فالتناقض الدلالي بين «غرقت السفينة» و«أُغرِقت السفينة» يكمُن فيما إذا كان المتحدث يؤكد وجودَ عامل سببي وراء الحدث أم أنه كان واقعة تلقائية. إننا نستعين بالسببية متى تدبَّرنا ما يجب أن نفعله حيال تسريبٍ ما، أو تيار هواء، أو وجع، أو ألم. كانت إحدى النكات المفضَّلة لدى جَدي عن رجلٍ أفرط في تناول السخينة (يخنة من اللحم والفاصولياء تُطبخ بالطهي البطيء لمدة ١٢ ساعة خلال ليلة السبت) مع كوب شاي، ثم استلقى متألمًا يشكو أن الشاي قد سبَّب له الإعياء. ربما لو كنت وُلدت في بولندا عام ١٩٠٠ لوجدتها مضحكة جدًّا مثله، لكن إن كنت فهمت النكتة على الإطلاق، فسيمكنك أن ترى كيف أن الفرْق بين الارتباط والسببية جزءٌ من قدرتنا على التمييز.
بيد أن أوجه اللَّبس التي ارتكبها نيازوف شائعة في خطابنا العام. ويبحث هذا الفصل طبيعةَ الارتباط، وطبيعة السببية، وطرق معرفة الفرق بينهما.
ما الارتباط؟
يمكنك ملاحظة الارتباط في الحال: النقاط موزعة على امتداد محور مائل، يمثله خط رمادي متقطع متوارٍ في الزحام. كل نقطة يخترقها سهم يلخِّص مخطَّط تشتُّت مصغَّر للبشر «داخل» البلد. كلٌّ من المخطَّطات المصغَّرة والمكبَّرة تشير إلى أن السعادة مرتبطة بالدخل، وذلك لدى البشر داخل البلد (كل سهم) ولدى البشر على مستوى البلدان الأخرى (النقاط). وأنا أعلم أنك تقاوم، الآن على الأقل، إغراءَ استنتاج أن «الثراء يجعل المرء سعيدًا.»
ما مصدر ذلك الخط الرمادي المتقطع والأسهم التي تخترق كل النقاط؟ وكيف يمكننا أن نترجم انطباعنا البصري بانتشار النقاط على امتداد خط مائل إلى شيء أكثر موضوعية، كي لا نُخدَع بتخيُّل خط في أي كومة بالية من العيدان المتداخلة؟
تلك هي الطريقة الرياضية المسمَّاة «الانحدار»، عماد علم الأوبئة والعلوم الاجتماعية. تأمَّل مخطَّط التشتت على اليسار. تخيَّل أن كل نقطة بيانات مسمار، وأننا ربطناه إلى قضيب صلب بشريط مطاطي. تخيَّل أن الشرائط لا تتمدد إلا إلى الأعلى والأسفل، ولا تتمدَّد بزاوية مائلة، وأنك كلما شددتها، قاومت أكثر. بعد ربط كل الشرائط، اترك القضيب ودعه يرتد إلى مكانه (الشكل الأيمن):
يستقر القضيب في موقعٍ ما، ويتخذ زاويةً تقلِّل من تربيع المسافة بين كل مسمار ومكان ربطه. يُسمى القضيب، وقد اتخذ هذا الوضع، بخط انحدار، وهو يمثِّل العلاقة الخطية بين المتغيرين: «ص» الذي يمثِّله المحور الرأسي، و«س»، الذي يمثله المحور الأفقي. يُسمى طول شريط المطاط الذي يصل كل مسمار بالخط، البقية، وهو يمثل الجزء المتفرد من قيمة «ص» الخاصة بالوحدة؛ ذلك الجزء الذي يأبى أن تتوقَّعه من قيمة «س» للوحدة. بنا نَعُدْ إلى الرسم البياني للسعادة والدخل. لو كان الدخل يتوقَّع السعادة على أتم وجه، لأتت كل نقطة على امتداد خط الانحدار الرمادي بالضبط، لكن ذلك لا يحدث مطلقًا مع البيانات الواقعية. بعض النقاط تعلو على خط الانحدار الرمادي (لديها بقايا إيجابية كبيرة)، مثل جامايكا وفنزويلا وكوستاريكا والدنمارك. وإذا نحَّينا أخطاء القياس وغيرها من مصادر التشويش جانبًا، تبيَّنت الفروق أنه في عام ٢٠٠٦ (حين جُمعت البيانات) كانت شعوب هذه الدول أكثرَ سعادةً مما قد يتوقَّع المرء بالنظر إلى دخولهم، ربما بسبب سماتٍ أخرى يتمتَّع بها البلد مثل الطقس أو الثقافة. ثمَّة نقاط أخرى أسفل الخط، مثل توجو وبلغاريا وهونج كونج، مما يشير إلى أن ثمة شيئًا يجعل الناس في تلك الدول أقل سعادة مما يتيحها لهم مستوى دخلهم.
إضافةً إلى ذلك، تتيح لنا البقايا تقديرَ درجة الارتباط بين المتغيريْن: كلما قصرت الأشرطة، باعتبارها مقياس درجة انتشار المجموعة بأكملها من اليسار إلى اليمين ومن أعلى إلى أسفل، كانت النقاط أقرب للخط، وكان الارتباط أعلى. باستخدام بعض العمليات الجبرية، يمكن تحويل هذه الدرجة إلى رقم، «ر»، معامل الارتباط، الذي يتراوح من سالب واحد (غير موضَّح في الشكل)، حيث تسقط النقاط متقاربة على امتداد خط مائل من الشمال الغربي إلى الجنوب الشرقي؛ مرورًا بتسلسل من القيم السالبة حيث تنتشر بميل على امتداد ذلك المحور؛ مرورًا بصفر، حيث تكون مثل سرب مفكك من البعوض؛ مرورًا بقيم موجبة حيث تتناثر من الجنوب الغربي إلى الشمال الشرقي؛ إلى واحد، حيث تقع على امتداد الخط المائل بالضبط.
الانحدار نحو المتوسط
هذا لا يعني أن الأسَر الطويلة القامة ستظل تُرزق بأطفال أقصرَ فأقصر والعكس، حتى ليصير الأطفال كلهم ذات يوم بنفس الطول ولا يصير في العالم مراكز فروسية أو كرة سلة. ولا يعني هذا أيضًا أن السكان متجهون إلى معدَّل ذكاء متوسط يبلغ ١٠٠، حيث ينقرض العباقرة والأغبياء. والسبب في عدم اتجاه الجماعات السكانية إلى مستوًى متوسط موحد، رغم الانحدار نحو المتوسط، هو أن أذيال التوزيع تتغيَّر باستمرار؛ إذ يولد بين الحين والآخر طفلٌ طويل جدًّا لأبوين أطول من المتوسط وطفل قصير جدًّا لأبوين أقصر من المتوسط.
إنَّ الانحدار نحو المتوسط ظاهرة «إحصائية» محضة، وهو نتيجةٌ لواقع أنه في التوزيعات الجرسية الشكل، كلما زاد تطرُّف القيمة، قلَّ احتمال ظهورها. معنى هذا أنه حين تكون القيمة متطرفة جدًّا، يصبح من المستبعد لأي متغير آخر مقترن بها (مثل طفلٍ لاثنين بالغَي الطول) أن يجاريها في شذوذها، أو يماثلها في سلسلة انتصاراتها، أو أن يحالفه نفس الحظ الحسن، أو يعاني الحظَّ المتعسر نفسه، أو أن يجابه الظروف الصعبة نفسها؛ بل إنه سينحدر نحو العادي مرة أخرى. في حالة الطول أو معدَّل الذكاء، ستكون المؤامرة العجيبة هي أي ائتلاف استثنائي أيًّا كان يجتمع في الأبوين من الجينات والتجارب والأحداث البيولوجية. سيكون للعديد من عناصر تلك التوليفة حظوة في الأبناء، لكن التوليفة نفسها لن تُنتَج ثانية على النحو نفسه. (والعكس صحيح: لأن الانحدار ظاهرة إحصائية، وليست سببية، فالأبوان أيضًا ينحدران نحو متوسط الأطفال.)
في الرسومات البيانية، عند رسم قيم مرتبطة من منحنيين جرسيين مقابل أحدهما الآخر، دائمًا ما يبدو مخطَّط التشتيت مثل كرة قدم مائلة. لدينا هنا مجموعة بيانات افتراضية مشابهة لمجموعة بيانات جالتون، تبيِّن أطوال الآباء (متوسط كل زوج) وأطوال أبنائهم البالغين (معدَّلة بحيث يمكن وضع الأولاد والبنات على نفس المقياس).
يمثل الخط السميك المائل بزاوية ٤٥ درجة ما قد نتوقَّعه في المتوسط لو كان الأطفال استثنائيين مثل الأبوين بالضبط. أما خط الانحدار الرفيع فهو ما نجده في الواقع. إذا أمعنا النظر في إحدى القيم المتطرفة، مثل الأبوين البالغ متوسط طولهما ست أقدام مثلًا، فستجد أن مجموعة النقاط التي تمثِّل طول أبنائهم غالبًا ما تقع أسفل الخط السميك المائل ٤٥ درجة، وهو ما يمكنك التأكد منه باتباع السهم الصاعد على اليمين حتى خط الانحدار، ثم الاتجاه إلى اليسار، متبعًا السهم الأفقي المنقط للمحور الرأسي، حيث يشير إلى ما فوق خمس أقدام وتسع بوصات بقليل؛ أي أقصر من الأبوين. وإذا دققت النظر في الأبوين البالغ متوسط طولهما خمس أقدام (السهم المنقط على اليسار)، فسترى أن النقاط التي تمثل الأبناء تنتشر غالبًا أعلى الخط السميك، وسيأخذك الاتجاه يسارًا عند خط الانحدار لقيمة خمس أقدام وثلاث بوصات؛ أي أطول من الأبوين.
تسترعي الأحداث غير المألوفة انتباهَ الناس، وهم لا يتوقعون أن أيَّ شيء مرتبط بتلك الأحداث لن يكون على الأرجح بدرجة غرابة الأحداث نفسها. وهم يأتون بدلًا من ذلك بتفسيرات سببية خاطئة لما هو في الواقع حتمية إحصائية.
إنَّ عدم الوعي بالانحدار نحو المتوسط يهيئ الأجواء لعدة أوهام أخرى. تنظِّر جماهيرُ الرياضة للأسباب التي تجعل مصيرَ الفائزِ بجائزةِ أفضلِ لاعبٍ مبتدئ يعاني فيما بعدُ تعثُّرًا، واضطرار نجوم أغلفة المجلات الشهيرة إلى معايشة النحس الذي يلاحق نجوم الأغلفة بعد ذلك. (أهو الإفراط في الثقة؟ التوقعات المستحيلة؟ إلهاءات الشهرة؟) غير أنه إذا تميز الرياضي طوال أسبوع استثنائي أو سنة، فليس من المرجَّح أن يواتيه الحظ الحسن مرتين متتاليتين، ولن يتجه بعد ذلك إلا نحو الوسط. (ومن الأحداث التي تفتقر للدلالة بالقدْر نفسه أيضًا، أن يتحسَّن فريق متدهور بعد إقالة المدرب.) بعد انتشار سلسلة من الجرائم البشعة في الصحف، يتدخل السياسيون بفرقِ التدخل السريع، ومعدات عسكرية، ولافتات «الحي مراقب»، وغيرها من الخطط، ويهنئون أنفسهم في الشهر التالي بالطبع على أن معدَّل الجريمة لم يَعُد مرتفعًا. المعالجون النفسيون أيضًا، بغض النظر عن النوع الذي يتبعونه من العلاج بالحوار، من الممكن أن يعلنوا عن انتصار لا يستحقونه بعد علاج مريض جاء بنوبة من القلق أو الاكتئاب الحاد.
تنطبق لعنة الفائز على أي مغامرة بشرية تنجح نجاحًا غير عادي، وربما يكون عجزنا عن تعويض لحظات فريدة من الحظ السعيد من أسباب أن الحياة كثيرًا ما تأتي بإحباطات.
ما السببية؟
إننا لا نحتاج إلى وقت طويل لنرى الخطأ في وضع «الاقتران الثابت» نظريةً للسببية. دائمًا ما يصيح الديك قبل الفجر مباشرةً، لكننا لا ننسب له الفضلَ كسبب لشروق الشمس. وبالمثل أيضًا، كثيرًا ما يتبَع الرعدَ حرائقُ غابات، لكننا لا نقول إن الرعد يؤدي إلى الحرائق. إنها ظواهر ثانوية، تُعرف كذلك باسم عوامل تشويش أو متغيرات مقلِقة (هامشية)؛ فهي تصاحب الحدث لكنها لا تبعث عليه. الظواهر الثانوية هي آفة علم الأوبئة. لسنوات عديدة ظلت القهوة هي المتهم الأول في أمراض القلب؛ لأن شاربي القهوة أكثرُ إصابةً بالأزمات القلبية. لكن تبيَّن أن شاربي القهوة يميلون أيضًا إلى التدخين وتحاشي ممارسة الرياضة؛ كانت القهوة ظاهرة ثانوية.
توقَّع هيوم المشكلة واسترسل في نظريته: لا ينبغي فقط أن تسبق العلة المعلول دومًا، وإنما: «إذا لم يكن الغرض الأول موجودًا، فالثاني لم يوجد مطلقًا.» الشرط الحاسم «إذا لم يكن موجودًا» هو افتراض منافٍ للواقع، أو «سيناريو تخيُّلي». فهو يشير إلى ما قد يحدُث في عالَم محتمل، أو كون بديل، أو تجربة افتراضية، أو ربما في كونٍ موازٍ حيث لم تحدُث العلة، ولا المعلول. هذا التعريف للسببية المخالف للواقع يحل مشكلة الظواهر الثانوية. إننا نقول إن الديك لا يؤدي إلى شروق الشمس لأنه حتى إذا طهونا الديك ذات ليلة، فستشرق الشمس في الصباح التالي. ونقول إن البرق يؤدي إلى حرائق الغابات لا الرعد؛ لأنه إذا وقع برقٌ من دون رعد، فمن الممكن أن تشتعل الغابة، لكن العكس لا يحدث.
حتى عند التأكد من أن علةً ما تُحدِث اختلافًا معينًا في إحدى النتائج، فإنَّ أحدًا من العلماء أو حتى غير المتخصصين يقنع بأن يترك الحال على ما هو عليه. إننا نربط بين العلة والمعلول بآلية: تلك الآلية الكائنة خلف الكواليس وتسيِّر الأشياء. يشعر الناس بحَدْسهم أن العالَم ليس لعبة من ألعاب الفيديو بأنساق من البيكسلات التي تفضي إلى أنساق جديدة. فوراء كل حدث قوة خفية، أو طاقة، أو نشاط. وفي ضوء العلوم يتبيَّن أن العديد من أفكارنا الحَدْسية البدائية عن القوى السببية خاطئة، مثل «الدفع» الذي كانوا يعتقدون في العصور الوسطى أنه مجبول على تحريك الأشياء، والبساي والتشي والإنجرامات ومجالات الطاقة والوبالات في الطب التجانسي، وقوى البلورات، وسائر هراء الطب البديل. لكن بعض الآليات الحَدْسية، مثل الجاذبية، ما زالت موجودة في أشكال محترمة علميًّا. وطُرِحت العديد من الآليات الخفية الجديدة لتفسير الارتباطات في العالم، ومنها الجينات، ومسبِّبات الأمراض، والألواح التكتونية، والجسيمات الأولية. هذه الآليات السببية هي ما يتيح لنا التنبؤ بما سيحدث في سيناريوهات مخالفة للواقع، ناهضين بها من عالَم الخيال: إننا نقيم العالَم المزعوم ثم نحاكي الآليات، التي تستمر بعد ذلك.
•••
حتى مع فهْم السببية من حيث النتائج البديلة والآليات التي تسفر عنها، فإن أي مجهود لتحديد «العلة» وراء معلول يثير حجبًا كثيفة من الألغاز. أولها الاختلاف المراوغ بين العلة والشرط. إننا نقول إنَّ حَكَّ عودِ الثقاب يؤدي إلى اشتعاله؛ لأنه من دون الحك لن تشتعل النار. لكن من دون أكسجين، ومن دون أن يكون الورق جافًّا، ومن دون سكون الحجرة، لن تشتعل النار أيضًا. فلماذا إذن لا نقول: «تسبَّب الأكسجين في اشتعال النار»؟
اللغز الثاني هو الاستباق. لنفترض جدلًا أن لي هارفي أوزوالد كان معه شريك يقبع على الربوة المعشوشبة في دالاس عام ١٩٦٣، وأنهما قد تآمرا على أنه أيًّا كان مَن سيُتاح له مجال للتصويب منهما أولًا فسيغتنمه بينما يندمج الآخر في الحشود. في العالَم المخالف للواقع الذي لم يطلِق فيه أوزوالد النار، كان جيه إف كيه سيموت أيضًا، إلا أنه سيكون من الجنون أن ننكر أنه سبَّب موت كينيدي في العالَم الذي أطلق فيه النار قبل شريكه.
أما اللغز الثالث فهو التحديد المفرط. لنقل إن متهمًا مدانًا سيُعدَم رميًا بالرصاص، لكن فرقة إعدام كاملة ستنفِّذ الحكم بدلًا من منفِّذ واحد، كي لا يضطر واحد فقط من الرماة إلى تحمُّل العبء الشنيع لكونه مَن تسبَّب في الموت: حتى إن لم يطلق أحدهم النار، فسيموت السجين. لكنَّ أحدًا في هذه الحالة لم يتسبَّب في وفاته، وفقًا لمنطق الافتراضات المخالفة للواقع.
لا يمكننا أن نعقل هذه المفارقات التي تطرحها السببية إلا بنسيان كرات البلياردو وإدراك أنه لا يوجد حدَث بعلة واحدة. فالأحداث مدمجة في شبكة من العلل التي يبعث أحدها على الآخر، أو يمكِّنه أو يكبته أو يمنعه أو يعززه، وذلك كله في مسارات مترابطة ومتشعبة. وتصبح الألغاز الأربعة أقلَّ إلغازًا حين نضع خريطة طريق السببية في كل حالة.
يذكر مبتكر هذه الشبكات، عالِم الكمبيوتر جوديا بيرل، أنها مكوَّنة من ثلاثة أنساق بسيطة — التسلسل والتفرع والتصادم — يمثل كلٌّ منها سِمة أساسية للسببية بأكثر من علة واحدة، لكنها سمات مناقضة للبديهة.
تعكس الوصلات الاحتمالات الشرطية. ففي كل حالة، نرى أنَّ «أ» و«ج» لا يتصلان اتصالًا مباشرًا، مما يعني أن احتمال «أ» بشرط «ب» يمكن تحديده بمعزل عن احتمال «ج» بشرط «ب». ويعني أيضًا أنه يمكن في كل حالة أن نقول شيئًا مميزًا عن العلاقة بينهما.
التشعُّب السببي مألوف بالفعل؛ فهو يتناول العامل المشوش أو الظاهرة الثانوية، مع ما يصاحبه من خطر الخطأ في تحديد العلة الحقيقية. السن (ب) يؤثِّر على المفردات (أ) ومقاس الحذاء (ج)، بما أن الأطفال الأكبر سنًّا لديهم أقدام أكبر ويعرفون عددًا أكبر من الكلمات. هذا معناه أن المفردات مرتبطة بمقاس الحذاء. بالرغم من ذلك، فلن يكون من الحكمة لبرنامج «بداية مبكرة» (برنامج تابع لوزارة الصحة الأمريكية لرعاية الأطفال على مستوى الصحة والتعليم) أن يعد الأطفال للمدرسة بتوفير أحذيةٍ أكبر لهم.
يُعَد تسلسل التصادم على الدرجة نفسها من الخطورة، ويتمثَّل في اجتماع علل منفصلة على أثر واحد. الحق أنه أشد خطورة؛ إذ بينما يفهم أغلب الناس بالحَدْس مغالطة عامل التشويش (حتى البسطاء منهم يضحون من أمثلة هذه المغالطة)، فإنَّ «التحيز الانتقائي المترتَّب على التقسيم الطبقي للتصادم غير معروف تقريبًا. الفخ في التصادم السببي أنك بالتركيز على مجالٍ محدود من المعلولات، تدخل ترابطًا سالبًا مصطنعًا بين العلل، بما أن واحدة من العلل ستعوِّض عن الأخرى. تتساءل الكثيرات ممن لهن باع في المواعدة عن السبب في أنَّ الرجال الجذابين أوغاد. لكن ربما يكون ذلك افتراءً على الرجال الوسماء، وإنه إهدار للوقت أن نختلق نظرياتٍ لتفسير هذا الأمر، مثل القول بأن الرجال الحسني المظهر أفسدهم كثرةُ تملُّق الناس لهم. العديد من النساء لن يواعدن الرجل (ب) إلا إن كان جذابًا (أ) أو لطيفًا (ج). حتى إذا كان حُسن الطبع والمظهر غير مرتبطين في مجال المواعدة، فكلما كان الرجل متواضعَ الشكل كان عليه أن يكون حَسن الطبع وإلا فلن تواعده النساء أبدًا من الأساس، أما الرجال الجذابون فلم يُنتقَوا وفقًا لذلك المعيار. وبِناءً على هذا، فقد دخل ارتباط سالب وهمي نتيجةَ ما تقوم به النساء من انتقاء يقوم على الفصل.
من الارتباط إلى السببية: تجارب حقيقية وطبيعية
الآن وقد تعمَّقنا في طبيعة الارتباط وطبيعة السببية، حان الوقت لنرى كيف يمكن الانتقال من أحدهما إلى الآخر. ليست المشكلة هي أن «الارتباط لا يستلزم السببية». فهو يستلزمها عادةً، لأنه ما لم يكن الارتباط متوهمًا أو صدفة، لا بد أن شيئًا ما قد جعل متغيرًا يتوازى مع الآخر. المشكلة هي أنه حين يرتبط شيء بشيء آخر، فهذا لا يعني بالضرورة أن الأول سبَّب الثاني. فمثلما يقول الشعار: حين يرتبط «أ» ﺑ «ب»، فمن الممكن أن يكون «أ» سبَّب «ب»، أو «ب» سبَّب «أ»، أو أنَّ عاملًا ثالثًا ما، «ج»، سبَّب «أ» و«ب».
معنى هذه التشابكات أن أي استنتاج سببي تقريبًا تستخلصه من الارتباطات عبْر الدول أو عبْر الناس سيكون خطأً على الأرجح، أو غير مثبت في أفضل الحالات. هل تجعل الديمقراطية البلد أكثرَ سلامًا؛ لأن زعيمه لا يستطيع أن يحول المواطنين على الفور إلى وقود للمدافع؟ أم إن الدول التي لا تواجه تهديدات من جيرانها لديها رفاهية الانخراط في الديمقراطية؟ هل يزودك التعليم الجامعي بالمهارات التي تسمح لك بتحقيق دخل جيد؟ أم إن الأشخاص الأذكياء أو المنضبطين أو الموسرين، ممَن يستطيعون تحويل مواهبهم الطبيعية إلى موارد مالية، هم وحدهم مَن ينجحون في الجامعة؟
ليست التجارب العشوائية هي الحل لكل المشكلات (بما أنه لا يوجد حل لكل المشكلات، وهو سبب وجيه لإلغاء تلك الفكرة المبتذلة). إنَّ العلماء الذين يُجرون دراساتهم في المختبرات ينتقدون بعضهم بعضًا بقدرِ ما يفعل علماء البيانات الترابطية؛ إذ لا يمكن اختبار شيء واحد فحسب، حتى في التجارب. قد يعتقد القائمون بالتجارب أنهم قد باشروا العلاج وحدَه فقط للمجموعة التجريبية، لكن ثمة متغيرات أخرى قد تتداخل معه، وهي المشكلة المسمَّاة إمكانية الاستبعاد. ثمة مزحةٌ تحكي عن زوج وزوجة لا يشعران بالرضا الجمسي راحا يستشيران الحاخام في مشكلتهما، بما أنه مذكور في التلمود أن الزوج مسئول عن السعادة الجنسية لزوجته. مسَّد الحاخام لحيتَه وجاء بالحل: أن يستعينا بشاب وسيم متين البنيان ليلوِّح بمنشفة فوقهما وهما يمارسان الجنس في المرة القادمة، وسوف تساعد التخيلات المرأة على بلوغ لذة الجماع. اتبعا نصيحةَ الحكيم العظيم، لكنها لم تحقق النتيجة المرجوة، فالتمسا منه الإرشادَ مرة أخرى. فمسَّد لحيته وجاء بتغيير. هذه المرة، سيضاجع الشاب الزوجة وسيلوِّح الزوج بالمنشفة. فأخذا بنصيحته، وبالطبع استمتعت الزوجة بنشوة مثيرة اهتزَّ لها كِيانها. فقال الزوج للرجل: «أيها الأحمق! هكذا يكون التلويح بالمنشفة.»
المشكلة الأخرى التي تكتنف التدخلات التجريبية هي بالطبع أن العالَم ليس مختبرًا. فلا يمكن لعلماء السياسة إجراء قرعةٍ برمي العملة، ثم يفرضون الديمقراطية على بعض الدول والأوتوقراطية على دول أخرى، وينتظرون خمس سنوات ليروا أيُّ الدول ستدخل في حروب. تنطبق نفس المشكلات العملية والأخلاقية على الدراسات التي تُجرى على أفراد، كما يظهر في هذا الكاريكاتير.
من أمثلة ذلك، «انقطاع الانحدار». لنقل إنك تريد أن تحدِّد ما إذا كان ارتياد الجامعة يجعل الناس أثرى أم إن احتمالية التحاق المراهقين الذين قُدِّر لهم الثراء بالجامعة أكبر بالفعل. رغم أنك لا تستطيع جمْع عينة عشوائية من المراهقين وإجبار جامعة على قبول مجموعة ورفض الأخرى، فإن الجامعات الانتقائية تفعل ذلك عمليًّا بالطلاب الذين تقترب درجاتهم من الحد الأدنى للقبول بها. لا أحد يصدِّق بحق أن الطالب الذي تمكَّن بالكاد من الالتحاق إذ بلغ مجموع درجاته في الاختبار ١٧٢٠ درجة، أذكى من الطالب الذي تخلَّف قليلًا بمجموع درجات ١٧١٠. يكمُن الفرق في التشويش، وربما كان عشوائيًّا أيضًا. (نفس الشيء ينطبق على المؤهلات الأخرى مثل التقديرات وخطابات التوصية.) لنفترض أننا تابعنا المجموعتين على مدى عَقد كامل ورسمنا مخططًا للدخول التي يكسبونها مقابل درجاتهم في الاختبار. إذا رأينا تحولًا عند أدنى درجة للقبول، حيث يزيد الراتب عند الحد الفاصل بين القبول والرفض بدرجةٍ أكبر من تلك التي يزيد بها عند الفواصل المتماثلة الحجم على امتداد باقي المقياس، فمن الجائز أن نستنتج أن العصا السحرية للقبول شكَّلت فرقًا.
أصعب لكن ليس مستحيلًا. ثمة اكتشاف عبقري آخر يتخذ الاسم الصعب «انحدار المتغيِّر المساعد». لنفترض أنك أردت أن ترى ما إذا كان «أ» يسبِّب «ب» وتخشى العوامل المزعجة المعتادة من السببية العكسية («ب» يسبِّب «أ») والتشويش («ج» يسبِّب «أ» و«ب»). لنفترض الآن أنك وجدت متغيرًا رابعًا، «د» («المساعد»)، المرتبط بالعلة المفترضة، «أ»، لكنه لا يمكن أن يكون معلولها؛ لأنه مثلًا حدث في وقت سابق، ولا يمكن للمستقبل أن يؤثِّر على الماضي. ولنفترض أن هذا المتغيِّر البكر لا يرتبط أيضًا بعامل التشويش، «ج»، وأنه لا يمكن أن يسبِّب «ب» مباشرةً، بل من خلال «أ» فقط. رغم أنه لا يمكن توزيع «أ» عشوائيًّا، فلدينا البديل لذلك، ألا وهو «د». إذا تبيَّن أن «د»، البديل الخالص ﻟ «أ»، مرتبط ﺑ «ب»، فذلك يدل على أن «أ» يسبِّب «ب».
من الارتباط إلى السببية من دون تجارب
حين يجد عالِم بيانات انقطاعًا انحداريًّا أو متغيرًا مساعدًا، يكون ذلك من حسن حظه. لكنهم في أغلب الأحوال يضطرون إلى أن ينتزعوا من مثلث الارتباط المعتاد، كلَّ ما يقدرون على انتزاعه من سببية. يمكننا تدارك هذا الأمر رغم ذلك، فثمة سبل لتخفيف حدة الأسقام التي توهن الاستدلال السببي. صحيحٌ أنها ليست في كفاءة سحر التوزيع العشوائي، لكنها كثيرًا ما تكون أفضل ما يسعنا عمله في عالَم لم يُخلق في مصلحة العلماء.
لكن لنفترض أن كل متغيِّر قد دُوِّن «مرتين»، يفصل بين تاريخ كلٍّ منهما عَقد مثلًا. إذا كانت الديمقراطية تسبِّب السلام، فلا بد أن ترتبط درجة الديمقراطية في الزمن ١ بدرجة السلام في الزمن ٢. هذا أيضًا لا يثبت شيئًا؛ فما من تغيُّر كبير يحدُث خلال عَقد: النظام الديمقراطي السلمي يظل نظامًا ديمقراطيًّا سلميًّا. لكن يمكن النظر إلى الخط المائل الآخر باعتباره عاملَ ضبط: الارتباط بين الديمقراطية (درجة الديمقراطية) في الزمن ٢ والسلام (درجة السلام) في الزمن ١. يعبِّر هذا الارتباط عن أي سببية عكسية، إضافةً إلى عوامل التشويش التي ظلَّت ثابتة خلال العَقد. إذا كان الارتباط الأول (علة من الماضي بمعلول في الحاضر) أقوى من الثاني (معلول من الماضي بعلة في الحاضر)، فهذه إشارة إلى أن الديمقراطية تسبِّب السلام لا العكس. يُسمى هذا الأسلوب، الارتباط بين البيانات المجمَّعة على فتراتٍ زمنية منفصلة، حيث «البيانات المجمَّعة» هي اللفظة المخصَّصة لمجموعة بيانات تضم قياسات في مراحل زمنية مختلفة.
توجد طريقة أخرى هي الأعم، وتُسمى الانحدار المتعدِّد، وتستفيد هذه الطريقة من حقيقة أن عامل التشويش لا يرتبط بالعلة المفترضة ارتباطًا «تامًّا» مطلقًا. ويتبين أن الفروق بينهما ليست محض صخب مزعج، بل معلومات يمكن الاستفادة منها. وسأسوق إليكم الآن كيفيةَ تطبيقه على الديمقراطية والسلام ونصيب الفرد من الناتج المحلي الإجمالي. نرسم أولًا العلةَ المفترضة، درجة الديمقراطية، مقابل المتغيِّر الخارجي (الشكل أعلى اليسار)، نقطة لكل دولة. (البيانات غير حقيقية، بل اختُلِقت لتمثيل المنطق.) سنضع خط الانحدار، وننتبه إلى البقايا: المسافة الرأسية بين كل نقطة والخط، التي تمثل الفرق بين درجة الديمقراطية التي ينبغي أن يكون عليها البلد إذا كان الدخل يتنبأ بالديمقراطية تمامًا ودرجة ديمقراطيته في الواقع. الآن سننحي درجة الديمقراطية الأصلية لكل بلد ونضع مكانها البقايا: مقياس الديمقراطية لديها، مع تثبيت دخلها.
الآن سنفعل نفس الشيء مع المعلول المفترض؛ أي السلام. سنرسم درجة السلام مقابل المتغيِّر الخارجي (الشكل أعلى اليمين)، ونقيس البقايا، ونتخلص من بيانات السلام الأصلية، ونضع مكانها البقايا؛ أي درجة السلام التي سيكون عليها كل بلد وفقًا لما تتوقَّعه من دخله. الخطوة الأخيرة بديهية: الربط بين بقايا السلام وبقايا الديمقراطية (الشكل السفلي). إذا اختلف الارتباط عن صفر بدرجة كبيرة، فيجوز لنا الإقدام على قول إن الديمقراطية تسبِّب السلام، مع ثبات الازدهار.
ما رأيته للتو هو جوهر الجزء الأكبر من الممارسات الإحصائية المستخدَمة في علم الأوبئة والعلوم الاجتماعية، ويُعرَف باسم النموذج الخطي العام. وعند تطبيق هذا النموذج، نحصل على معادلة تتيح توقُّع التأثير بِناءً على مجموع مرجَّح للمتنبئات (يُفترض أن بعضًا منها علل). إذا كنت تجيد التفكيرَ البصري، فبإمكانك تخيُّل التنبؤ سطحًا مائلًا، بدلًا من خط، وهو يرتفع عن الأرض ويحدُّه متنبئان. يمكن إدراج أي عدد من المتنبئات، لإقامة سطح متشعب في فضاء متشعب؛ صحيحٌ أنَّ قدرات التخيل البصري الضعيفة لدينا (التي تعاني صعوبةً مع الأبعاد الثلاثية) لن تلبث أن ترتبك أمام هذا الأمر، لكن من ناحية المعادلة يقتصر الأمر على إضافة المزيد من الأجزاء للمتتالية. في حالة السلام، من الممكن أن تكون المعادلة هكذا: السلام = («أ» × الديمقراطية) + («ب» × نصيب الفرد من الناتج المحلي الإجمالي) + («ج» × التجارة) + («د» × العضوية في معاهدة + («ﻫ» × التعليم)، مع افتراض أن أيًّا من الخمسة قد يكون عامل دفع أو جذب للسلام. يخبرنا تحليل الانحدار أيًّا من المتغيرات المحتملة له نصيب في التنبؤ بالنتيجة، مع تثبيت كل من الآخرين. ليس تحليل الانحدار بوسيلة جاهزة لإثبات السببية — فما زال على الفرد تفسير المتغيرات ومدى إمكانية ارتباطها، والانتباه إلى العديد من الفخاخ — لكنه الأداة الأكثر استخدامًا لفك الاشتباك بين العلل وعوامل التشويش المتعددة.
تعدُّد العلل: جمع وتفاعل
إنَّ العمليات الجبرية في معادلة الانحدار أقلُّ أهمية من الفكرة المهمة التي تمثلها صيغة هذه المعادلة: للأحداث أكثرُ من علة واحدة، وكلها إحصائية. تبدو الفكرة بسيطة، لكن أوجه الإخلال بها حاضرة باستمرار في الخطاب العام. ففي كثير من الأحيان، يبدو توجُّه الأشخاص في الكتابة وكأن كل نتيجة لها علة واحدة لا تخطئ: إذا بدا أن «أ» تؤثِّر على «ب»، فهذا يثبت أن «ج» لا يمكن أن تؤثِّر عليها. المَهَرة من الناس يقضون عشرة آلاف ساعة يمارسون حِرفتهم؛ هذا معناه أن النجاح مسألة ممارسة، وليس موهبة. تبلغ وتيرة بكاء الرجال في الزمن الحاضر ضعفَ الوتيرة التي كان يبكي بها آباؤهم؛ هذا يدل على أن الاختلاف في البكاء بين الرجال والنساء اجتماعي وليس بيولوجيًّا. أما احتمال تعدُّد العلل: الطبيعة والتربية، الموهبة والممارسة؛ فذلك احتمال مستبعَد.
الأدهى من ذلك أنَّ تعدُّد العلل ليس بالفكرة الأصعب على الإدراك، بل تتخذ هذه المكانة فكرةَ تفاعل العلل: احتمال أن تأثير علةٍ ما قد يتوقَّف على علة أخرى. ربما تكون الممارسة مفيدة للكل، لكنَّ الموهوبين يستفيدون منها أكثر. ما نحتاج إليه هو مفردات للحديث عن العلل المتعدِّدة والتفكير فيها. وها هو ذا مجال آخر يمكن لتقديم بضعة مفاهيم بسيطة من علم الإحصاء أن يجعل الجميع أكثرَ فطنة بشأنه. تلك المفاهيم الكاشفة هي التأثير الرئيسي والتفاعل.
سأوضح هذين المفهومين من خلال بيانات مختلقة. لنفترض أننا نريد معرفةَ ما يجعل القرود خائفة: الوراثة، النوع الذي تنتمي إليه (كابوتشين أو مارموسيت)، أم البيئة التي نشأت فيها (وحدها مع أمهاتها، أو في مأوًى كبير مع العديد من أسَرِ القردة الأخرى). لنفترض أن لدينا طريقةً لقياس الخوف، مثل مدى اقتراب القرد من ثعبان من المطاط. مع وجود علتين محتملتين ومعلول واحد، من الممكن حدوث ستة أشياء مختلفة. يبدو الأمر معقَّدًا، لكن الاحتمالات تتجلى واضحةً فور أن نضعها في رسم بياني. هيا نبدأ بأبسط ثلاثة.
يوضح الشكل الوارد على اليسار عدم وجود أي تأثير بالمرة: القرد هو القرد. لا يشكل النوع أيَّ فارق (جاء الخطان أحدهما فوق الآخر)؛ ولا تشكل البيئة أيَّ فارق أيضًا (كلا الخطين مستويان). الشكل الأوسط هو ما نراه إذا كان للنوع تأثير (الكابوتشين فزعة بدرجة أكبر من المارموسيت، كما يبدو من ارتفاع خطها في الرسم البياني)، بينما لا يكون للبيئة أيُّ تأثير (فالنوعان يخافان بنفس القدر سواء أَنَشأ أفرادهما في عزلةٍ أم مع قردة أخرى، كما يبدو من استواء كلا الخطين). باللغة المتخصصة، نقول إن ثمة تأثيرًا رئيسيًّا للنوع، أي إننا نرى التأثير ثابتًا في النوع، بغض النظر عن البيئة. يمثِّل الرسم البياني الموجود على اليمين النتيجةَ المقابلة: تأثير رئيسي للبيئة من دون تأثير للنوع. النشأة المنعزلة تجعل القردةَ أشد خوفًا (كما يبدو في ميل الخطين)، لكنها تفعل ذلك بالكابوتشين والمارموسيت على حدٍّ سواء (كما يبدو من ظهور الخطين أحدهما فوق الآخر).
لنتعلم الآن كيف نصبح أكثرَ فطنة من خلال استيعاب تعدُّد العلل. مرة أخرى لدينا احتمالات ثلاثة. كيف سيبدو المخطَّط إذا كان النوع والبيئة كلاهما مؤثِّرين: إذا كان الكابوتشين بطبيعته أشد خوفًا من المارموسيت، وإذا كانت النشأة المنعزلة تجعل القردة أشد خوفًا؟ يمثِّل الرسم البياني الوارد أقصى اليسار هذا الاحتمال: وجود تأثيرين رئيسيين. يتخذ هذا الاحتمال شكل خطين متوازيين لهما الميل نفسه، ويرتفع أحدهما فوق الآخر.
أخيرًا، من الممكن أن يوجد التفاعل مع تأثير رئيسي أو أكثر. في الرسم أقصى اليمين، تجعل التربية المنعزلة الكابوتشين أشد خوفًا، لكنها لا تؤثِّر على المارموسيت الهادئ دائمًا. بما أن التأثير على المارموسيت لا يلغي التأثير على الكابوتشين تمامًا، فإننا نرى تأثيرًا رئيسيًّا للنوع (خط الكابوتشين أعلى) وتأثيرًا رئيسيًّا للبيئة (نقطة الوسط بين الحدين أقصى اليسار أدنى من نقطة الوسط بين الحدين أقصى اليمين). لكننا متى فسَّرنا ظاهرة بعلتين أو أكثر، حل التفاعل محلَّ التأثيرات الرئيسية؛ إذ يقدِّم رؤيةً أوضح لما يجري. عادةً ما يشير التفاعل إلى أن العلتين تتشابكان في حلقة واحدة في السلسلة السببية، وليس أنهما تقعان في حلقتين مختلفتين ثم تجتمعان معًا فحسب. في ظل هذه البيانات، قد يكون الرابط المشترك هو اللوزة الدماغية، هذا الجزء من المخ الذي يستجيب للتجارب المخيفة، والذي قد يكون مرنًا في حالة الكابوتشين وثابتًا في حالة المارموسيت.
بهذه الأدوات المعرفية، صرنا مستعدِّين لفهم تعدُّد العلل في الواقع، ويمكننا الآن أن نتجاوز مبدأ «الطبيعة مقابل التربية» وما إذا كانت العبقرية «أصيلة أم مكتسبة». فلنتناول إذن بعض البيانات الحقيقية.
تضم العينة نساءً عُرِّضن لضغوط شديدة، مثل طلاق أو اعتداء أو وفاة قريب عزيز (النقاط التي على اليمين)، ونساء لم يُعرَّضن لمثل هذه الأحداث (النقاط التي على اليسار). اطلاعًا على الخطوط من أعلى لأسفل، الخط الأول للنساء اللواتي قد يكون لديهن استعداد وراثي مرتفع للإصابة باكتئاب؛ لأن توائمَهن المتطابقات، اللواتي يشاركهن كل جيناتهن، عانين منه. الخط التالي تحته هو للنساء اللواتي لديهن فقط بعض الاستعداد للإصابة باكتئاب؛ لأن توائمَهن غير المتطابقات، اللواتي تشاركهن نصف جيناتهن، عانين منه. لدينا تحته خط لنساء ليس لديهن استعداد كبير؛ لأن توائمَهن غير المتطابقات لم يعانين اكتئابًا. في الأسفل نجد خطًّا للنساء اللواتي لديهن أدنى قابلية؛ لأن توائمَهن المتطابقات لم يعانين منه.
يخبرنا النسق في هذا الرسم البياني بثلاثة أشياء. للخبرة الحياتية دور كبير: نرى تأثيرًا رئيسيًّا للإجهاد في الانحراف التصاعدي للخطوط، مما يدل على أن المرور بأحداث مجهدة يرتفع باحتمال الإصابة باكتئاب. للجينات أيضًا دورٌ كبير في العموم: فالخطوط الأربعة تعلو بارتفاعات مختلفة، لتبرهن على أنه كلما زاد الاستعداد الوراثي للفرد، زاد احتمال أن يعاني نوبةَ اكتئاب. لكن العبرة الحقيقية هي التفاعل: فالخطوط ليست متوازية. (بعبارة أخرى تقع النقاط بعضها فوق بعض على اليسار لكنها تتوزَّع على اليمين.) إذا كنت لا تعاني حدثًا مجهِدًا، فلن تشكِّل جيناتك إلا فرقًا طفيفًا: بغض النظر عن جينومك، فإن احتمال المرور بنوبة اكتئاب أقلُّ من واحد في المائة. لكن إذا كنت تواجه حدثًا مجهدًا، فإن جيناتك تُحدِث اختلافًا كبيرًا: الجينات المقترنة بأكملها بتفادي الاكتئاب تهبط باحتمال الإصابة باكتئاب إلى ٦ في المائة (الخط الأدنى)؛ والجينات المقترنة بأكملها بالإصابة بالاكتئاب ترفع الاحتمال إلى أكثر من الضعف بنسبة ١٤ في المائة (الخط الأعلى). لا يقتصر ما يخبرنا به التفاعل على أهمية الجينات والبيئة كليهما فحسب، بل يخبرنا أيضًا أنَّ تأثيراتهما تحدُث، على ما يبدو، على الحلقة نفسها في السلسلة السببية. الجينات التي يتشارك فيها هؤلاء التوائم بدرجات مختلفة ليست جينات للاكتئاب في حد ذاته؛ إنها جينات الهشاشة أمام التجارب المجهدة أو الصلابة تجاهها.
الشبكات السببية والبشر
لنفترض أنك تريد التكهن بنتيجة تأتي في صورة كمية للأسئلة التالية مثلًا: كم سيعيش مريض سرطان؛ ما إذا كان تشخيص مريض نفسي هو إصابة بعصاب خفيف أم ذهان حاد؛ ما إذا كان متهمًا جنائيًّا سيتخلف عن حضور المحاكمة، أو لا يلتزم بالإفراج المشروط، أو يعود إلى الإجرام؛ كيف سيكون أداء طالب في الدراسات العليا؛ ما إذا كان أحد المشاريع سينجح أو يفلس؛ مقدار الأرباح التي سيعود بها صندوق أسهم. ولديك مجموعة من المتنبئات: قائمة مرجعية للأعراض، ومجموعة من السمات الديموغرافية، وسجل للسلوك السابق، وبيان بعلامات الطلاب أو درجاتهم في الاختبارات، وأي شيء قد يمت لتحدي التكهن بصلة. فلتعرض البيانات على خبير — طبيب نفساني، محلل استثمارات، وما إلى ذلك — وفي الوقت نفسه ضعها في تحليل انحداري قياسي للحصول على معادلة التكهن. مَن الأدق في التنبؤ، الخبير أم المعادلة؟
الفائز، في كل مرة تقريبًا، هو المعادلة. الحق أنَّ الخبير الذي يُعطى المعادلة ويُسمح له بإضافتها لحكمه كثيرًا ما يكون عمله أسوأ من المعادلة وحدها. يرجع هذا إلى أن الخبراء يتعجلون في رؤية ظروف مخفِّفة يعتقدون أنها تجعل المعادلة غير قابلة للتطبيق. هذا ما يُسمى غالبًا مشكلة الساق المكسورة، المستقاة من فكرة أن الخبير البشري، على عكس الخوارزم، لديه الحس ليدرك أن الرَّجل الذي كُسرت ساقه للتو لن يذهب إلى الرقص في المساء، حتى إن كانت الصيغة تتوقَّع أن يفعل ذلك كل أسبوع. المشكلة هي أن المعادلة تراعي احتمال أن الظروف المخفِّفة ستغيِّر النتيجة وتضعها في التوليفة مع سائر المؤثرات الأخرى، في حين أن الخبير البشري يذهل ذهولًا شديدًا بالتفاصيل الجاذبة للانتباه ويتسرع بتجاهل معدَّلات الأساس. بل إن بعض المتنبئات التي يعتمد عليها الخبراء من البشر بدرجة كبيرة، مثل المقابلات المباشرة وجهًا لوجه، قد كشفت التحاليل الانحدارية عن أنها بلا أي فائدة.
ليس المقصود بهذا أنَّ تدخُّل البشر بلا أهمية. فلم يزل البشر عاملًا أساسيًّا في توفير المتنبئات التي تحتاج إلى استيعاب حقيقي، مثل فهم اللغة وتصنيف السلوك. كل ما هنالك أن الإنسان غير بارع في دمجها، في حين أن هذا هو تخصص خوارزم الانحدار. وكما عبَّر ميل عن الأمر، فإننا لا نقول للموظف بينما ندفع الحساب في المتجر: «يبدو لي أن إجمالي الحساب ٧٦ دولارًا؛ هل ذلك مناسب؟» غير أن هذا ما نفعله حين نستخدم حَدْسنا في دمج مجموعة من العلل المحتملة.
وبمناسبة الحديث عن التواضع، فقد بلغنا نهايةَ سبعة فصول هدفت إلى تزويدكم بما أعتقد أنه أهمُّ أدوات العقلانية. إن كنت قد نجحت في ذلك، فسوف تفهم هذه الكلمة الأخيرة من كاريكاتير «إكس كيه سي دي».