الفصل الحادي عشر

المقارنة: انتبِه للفجوة

إذا شبَّهناك — مِثلما شبَّه شيكسبير محبوبتَه — بيومٍ صيفي، فقد تعتبر ذلك مجاملة، لكنها لا تُعتبر أساسًا لجدول تصنيف. فالناس والطقس عنصران مختلفان تمامًا، كما هو واضح. ويستحيل عقدُ هذه المقارنات بدون الكثير من التعريفات المُكمِّلة، مع الاعتذار لشيكسبير. ففي سونيَّتاته، نَقبَل هذه المقارنة، ونعتبرها تشبيهًا، أما في السياسة فذلك شأنٌ آخر.

ومع ذلك يَهوى أهل السياسة المقارنات. وهي عنصرٌ ثابت في الحُجج. وكل المفاضلات بين أمرَين تُعتبر مقارنات. وفي الآونة الأخيرة، انتشر هذا الحماس للمقارنات، فاستحثَّنا على استخدامها في الحديث عن المدارس والمستشفيات والجرائم وأشياء أخرى كثيرة، وذلك عن طريق أداة هي جداول التصنيف أو الترتيب، والمادة الخام لها التي هي تقييمات الأداء، حيث تُعقَد المقارنة بين عنصر وسائر العناصر الأخرى، أيُّها ارتفع وأيُّها انخفض، ومن الذي يحتلُّ الصدارة ومَن يَقبع في قاع الترتيب، ومَن الجيِّد ومن السيئ، ومن يُعَد متوسط المستوى أو مُخفقًا ومن الذي يظهر لنا اتباعُه «الممارسات المثلى». لقد باتت المقارنة لغةً سائدة في شئون الحكم. وتُعَد الآن، من عدة مناظير، عصَبَ السياسة العامة، وأساسًا للاختيار المُستنير الذي يتردد ذِكره في كل مكان.

لكن للسياسة عادةً سيئة في تشويه المقارنة المذكورة بين الناس والطقس، والتغاضي عن الاختلافات في التعريف. والمبدأ الذي ينبغي إبقاؤه في الذهن لاكتشاف هذا الخلط هو مبدأٌ جميعنا يعرفه بالفعل، لكن فرط استخدامه أضعفه. ومع ذلك لا يزال صالحًا وصحيحًا كأي وقت مضى، مهما تخفَّى في ثنايا جداول التصنيف ومؤشرات الأداء، وهذا المبدأ هو: هل المقارنة بين شيئين من نفس النوع؟

•••

نجا رودولف جولياني، المرشَّح السابق للرئاسة وحاكم نيويورك، من إصابته بسرطان البروستاتا. وفي أغسطس ٢٠٠٧، عندما بدأت حملة الانتخابات الرئاسية التمهيدية، استخدم تجربة مرضه في إعلانٍ إذاعي عقَد فيه مقارنةً سياسية مُذهلة، إذ قال: «كنتُ مُصابًا بسرطان البروستاتا منذ خمس أو ست سنوات. واحتمال التعافي من سرطان البروستاتا — الذي أشكر الربَّ على شفائي منه — تبلُغ في الولايات المتحدة ٨٢ في المائة. أما في إنجلترا، فاحتمال التعافي منه يبلغ ٤٤ في المائة فقط؛ وَفقًا لنظام الرعاية الطبية الاشتراكية.»

لو صحَّ هذا التصريح لمثَّل صدمةً مُزلزِلة. فنظام الرعاية الصحية البريطاني — الذي كثيرًا ما يُنظر إليه باعتباره أفضلَ من الأمريكي — كان مستواه في علاج السرطان في الواقع نصفَ مستوى الأمريكي فحسب. وبدا أن رسمًا بيانيًّا (قديمًا نوعًا ما)، أعدَّته مؤسسةٌ بَحثية تُسمَّى صندوق الكومونويلث، يؤيِّد صحة هذا الزعم القائل بأن خدمة الرعاية الصحية الوطنية في المملكة المتحدة كانت، بالمقارنة بغيرها، قاتلة.

فهل كان رودي مُحقًّا؟ وهل المقارنة عادلة؟ تبرَّأ صندوق الكومونويلث من تفسيره لبياناته، ودفع بتفسيرٍ مُضاد، وهناك سؤالٌ بسيط يُظهِر السبب: هل من المحتمل أن يكون معدل انتشار سرطان البروستاتا في الولايات المتحدة أكبر بمعدل ٢٫٨ مرة منه في بريطانيا، ربما تحتوي الجِعَة البريطانية على إكسيرٍ واقٍ منه مثلًا؟ فهذا ما تُوحي به الأرقام؛ فهناك ١٣٦ مُصابًا من بين كل ١٠٠٠٠٠ رجل في الولايات المتحدة، في مُقابل ٤٩ مُصابًا من بين كل ١٠٠٠٠٠ رجل في المملكة المتحدة. فلو صحَّ ذلك التصريح، لكان علينا أن نُفسِّر لماذا يُصاب الرجال الأمريكيون بهذا المرض بمعدلٍ أكبر كثيرًا من معدَّل إصابة رجال أي بلد مُتقدم آخر في العالم لدينا بيانات عنه.

كل هذا يبدو من غير المرجَّح. فهل يوجد أيُّ تفسير أكثر معقوليةً؟ أحد الاحتمالات البسيطة أن الإصابة بالمرض شيء، وتشخصيه شيءٌ آخر (إذ لا يقصد الجميع الطبيبَ في نفس المرحلة). ربما تكون الحقيقة أنه لا يوجد في الولايات المتحدة ثلاثةُ أمثال عدد المُصابين، بل إن نحو ثلاثة أمثال العدد تقريبًا يجري تشخيص المرض لديهم.

شكل ١١-١: انتشار سرطان البروستاتا والوفَيات الناجمة عنه لكل ١٠٠٠٠٠ ذكر في العام.

يُعَد انتفاءُ وجه المقارنة من المخاطر الخفيَّة فيها. كانت مقارنة رودي عبقريةً، لكنها لا تستند إلى الأرقام. ارفع عدد التشخيصات مع ثبوت عدد الوفَيات، وهكذا يُصبح لديك «معدل التعافي» الأعلى بكثير. هذا الرسم لا يُفيد إلا بالقليل عن فعالية علاج سرطان البروستاتا في البلدَين، لكن ما يُفيد به بدرجةٍ أكبر هو الاتجاه إلى التشخيص المُبكر في الولايات المتحدة.

وفي واقع الأمر، لدى الولايات المتحدة أسبابٌ فِعلية للارتياح؛ إذ تتفوَّق على المملكة المتحدة في معظم المقارنات الدولية للعلاج من السرطان، على قدر موثوقية هذه المقارنات. وحتى هذه المقارنة تُفيد بأن عدد الرجال الذين يموتون بسبب سرطان البروستاتا في الولايات المتحدة أقلُّ منه في المملكة المتحدة؛ فهو ٢٦ حالة وفاة من كل ١٠٠٠٠٠ رجل، في مقابل ٢٨ حالة وفاة من كل ١٠٠٠٠٠ رجل. ليس مستوى العلاج في الولايات المتحدة ضِعف المستوى في المملكة المتحدة كما زعم رودي، ولا يقترب ذلك الزعم من الصواب، لكن المستوى في الولايات المتحدة أفضلُ منه في المملكة المتحدة على أي حال، وهذه النتيجة ربما تُعزى إلى ارتفاع معدلات التشخيص والاتجاه في الولايات المتحدة إلى إجراء الفحوص الطبية في أعمارٍ أصغر. وربما يكون ذلك أيضًا بسبب أن النجاة من المرض تُعرَّف بأنها مواصلة العيش بعد التشخيص لمدة خمس سنوات. ولهذا فإذا شُخِّص المرض في مرحلةٍ أبكر، فأغلب الظن أن يكون المتبقِّي من سنوات عمر المريض أكبر على أي حال، فيبدو معدل النجاة من المرض أكبر حتى إذا لم يتدخل الأطباء على الإطلاق.

قد تتَّفق معنا في أن هذه الحجة معقَّدة. فكلما زادت الشروط والاستدراكات، أثارت الممارسات الثقافية المختلفة أسئلةً لا إجابة لها. لكن هذا هو بيت القصيد. فالمقارنات نادرًا ما تبدو واضحة عندما يبدأ المرء في البحث فيما وراءها.

وعلى كل الأحوال، نظرًا إلى وجود بعض الأدلة على أن الأمريكيِّين يبدو أنهم حقًّا يُصابون بالسرطان بمعدلٍ أكبر من الآخرين، حتى بعد مراعاة عامل التشخيص المبكِّر لديهم، فربما يكون التعامل معه في الولايات المتحدة بالفعل أفضلَ منه في معظم البُلدان الأخرى، لكن بفارقٍ بسيط. ومع ذلك، فمن الجدير بالذِّكر أن التشخيص لا يكون دومًا مِيزة. فإذا أدَّى إلى العلاج، فقد تشمل الأعراض الجانبية فقدانَ الخصوبة، والعُنَّة، وسلَس البول. ونظرًا إلى أن عدد من يموتون وهم مُصابون بسرطان البروستاتا أكبرُ من عدد من يموتون بسببه، فقد لا يُسبب عدمُ التدخل في أحوالٍ كثيرة أيَّ ضرر، بل قد يمنع بعضَ الأضرار.

«ثمانية من كل عشَرة يَنْجون»، و«أربعة من كل خمسة يفضلون»، و«واحد من كل أربعة يفعلون هذا»، و«٩٩ في المائة يفعلون ذاك» … كل العبارات السابقة أشكالٌ بسيطة من العد، تتحول إلى مقارنات عندما تستخدم عبارات مِثل: «على عكس ما يحدُث هناك، حيث ٧٠ في المائة فقط …» وما إلى ذلك.

لكن «٨ من كل ١٠» من ماذا؟ من كل المُصابين بسرطان البروستاتا أم ممَّن يكتشف أحدُ الأطبَّاء السرطان لديهم؟ مقارنة رودي داحضة لأنه ينتقي الناجين من مجموعتَين مختلفتين؛ مجموعة الولايات المتَّحدة التي يجري تشخيصها بمعدَّلٍ أكبر، ومجموعة المملكة المتحدة التي يجري تشخيصها بمعدَّلٍ أقل. وهي حيلةٌ صغيرة مُغْرية، ومن يعلم ما إذا كانت عرَضية أم متعمدة في هذه الحالة؟

كثيرًا ما يستغرق الأمر وهلةً لاكتشاف مَوطن الخطأ في المقارنة الفاسدة، لكنَّ بعضًا من مَواطن الخطأ هذه تكون واضحةً لدرجة تُهين ذكاء العامة، وتُصعِّب على الجمهور تصوُّرَ كيف ظن عاقدو تلك المقارنات أنها ستنطلي عليهم؟

في سبتمبر ٢٠٠٣، أقدمَ مُراهقٌ يُدعى بيتر ويليامز على مهاجمة فيكتور بيتس بعتَلةٍ مَعدِنية في متجر المجوهرات الذي تَملِكه الأسرة، في حين أطلق شريكُه في الجريمة النارَ على ماريان، زوجة السيد بيتس، فأرْداها قتيلةً وهي تحمي ابنتَها. وقبل ذلك بعشرين يومًا، كان ويليامز قد أُطلِق سراحه من مؤسسة للأحداث المُجرِمين. وبعد ذلك بعشرين شهرًا، أُدين باشتراكه في القتل. وكان المفترَض أنه قيدُ أمرٍ بحظر التجول وموسوم بجهاز إلكتروني مُثبَّت على كاحله عندما ارتُكبت الجريمة، ولكنه في المدة القصيرة التي تلَت إطلاق سراحه اخترقَ أمرَ حظر التجول عِدَّة مرَّات.

في خريف عام ٢٠٠٦، كشفت تقاريرُ المكتب الوطني لمراجعة الحسابات ولجنة الحسابات العامة التابعة لمجلس العموم أنه منذ عام ١٩٩٩، ارتكب المُدانون الموسومون — كما اصطُلح على تسميتهم — ١٠٠٠ جريمة عنيفة وقتلوا خمسة أشخاص. واعتبر قطاع من وسائل الإعلام الوسم بأجهزة المراقبة بديلًا غيرَ فعَّال ولا آمِن للسجن، يُعرِّض العامة للخطر، بل زعم البعض أنه لا يستخدم إلا لأنه أقل كُلفة.

كان ويليامز خاضعًا لأمر بالمراقبة والإشراف المكثَّفَين يلزمه بارتداء جهاز المراقبة. والاستخدام الأكثر شيوعًا للوسم بهذه الأجهزة هو فيما يُسمى بالاحتجاز المنزلي، المصمَّم للمُجرِمين غير العنيفين، حيث يسمح بإطلاق سراحهم من السجن قبل المَوعد المحدَّد بمدةٍ تُقارب الأربعة أشهُر ونصفًا.

نشِط المُدافعون عن الوسم بأجهزة المراقبة بشدة، وأصرُّوا على رأيهم، معتمدين اعتمادًا تامًّا على مقارنةٍ فاسدة. فقد زُعِم أنه من بين ١٣٠٠٠٠ شخص خضَعوا لهذا البرنامج، كانت نسبة مَن ارتكبوا جرائمَ وهم موسومون بأجهزة المراقبة ٤ في المائة تقريبًا، وقال وزير الداخلية، وأحدُ كبار مفتِّشي السجون السابقين في لقاءَين مُنفصلين، إن هذه النسبة أفضلُ بكثير من نسبة العودة إلى الإجرام بين المسجونين المُطلَق سراحهم حديثًا بدون وسم المراقبة التي تبلُغ ٦٧ في المائة. لذا اعتُبر أن الوسم بأجهزة المراقبة قد نجح نجاحًا باهرًا، وأنه رغم كل جريمة تُعَد مَبعثًا لقلقٍ شديد، فإن هذا البرنامج يستحقُّ الثناء، لا اللوم.

المقارنة من الأدوات الأساسية للقياس، وللحكم بِناءً عليه. فإذا أرَدنا أن نعرف جودة العنصر (أ) نُقارنه بالعنصر (ب). وفي حالة العدالة الجنائية، تُعقَد المقارنة بوجهٍ عام بين التبِعات الإحصائية المُترتبة على البدائل المُتاحة؛ ما الذي كان من الممكن أن يحدُث، وإلى أي مدًى كانت الجريمة ستقلُّ أو تَزيد إذا استخدمنا العنصر (ﺟ) بدلًا من العنصر (ب)؟

لكن المقارنة تعترضها عقباتٌ لا حصر لها، منها العرَضي ومنها المتعمَّد. المشكلة الأساسية معروفة: لتكون أيُّ مقارنة عادلةً ينبغي أن تُعقَد بين الشيء ومثيله. وهذه المقارنة على وجه الخصوص، المعقودة بين معاودة الإجرام بين المَدِينين الموسومين بأجهزة مراقبةٍ مقارنة بالمَدِينين الآخَرين، كانت مثالًا لما ينبغي الحذر منه، وللطريقة التي لا ينبغي أن تُعقَد بها المقارنة، على الأقل إن ابتُغيَ الإنصاف؛ وهي درسٌ عمَّا يمكن تسميته بالمقارنة الفاسدة.

لنُحاول أن نُوضِّح أمر المجموعتَين اللتين نعقد المقارنة بينهما بالتعريفات. بأن نسأل «من»، و«متى»، و«ماذا».

أولًا: «من»؟ المجموعة الأولى من المساجين السابقين، والمجموعة الموسومة بأجهزة المراقبة ليستا من النوع نفسِه، فمَن وُسِموا بأجهزة المقاربة قد استقرَّ الرأي فيهم على أنهم مُناسبون لذلك، ورأى مُديرو السجون أن احتمال معاودتهم للجُرم أقلُّ من الجميع. واعتُبر الآخرون أشدَّ خطرًا منهم. فهل كان الوسم بأجهزة المراقبة هو ما أدَّى لتقليل معدل معاودة الجرم أم اختيار الأشخاص الذين سيتمُّ وسمهم؟ لقد كان ادِّعاء نجاح البرنامج في ظل اختلاف الأشخاص إلى هذا الحد، بل اختيارهم أيضًا بِناءً على هذا الاختلاف، يفتقد إلى الدقة، إذا تجنَّبنا الأوصاف الأكثر حِدَّة.

ثانيًا: «متى»؟ لم يحدُث قطُّ أن تجاوزت المدةُ التي ارتكب فيها أشخاصٌ جرائمَ جديدة وهم موسومون بأجهزة المراقبة أربعةَ أشهُر، بل قلَّت عن ذلك في أحيانٍ كثيرة، أما المدة التي يشملها إحصاء وزارة الداخلية لعدد الجرائم الجديدة التي يرتكبها المسجونون السابقون غير الموسومين فهي عامان؛ أي أكثر من خمسة أمثال المدة الأولى. وهذا هو السبب الثاني الذي قد يجعلنا نتوقَّع رؤيةَ فارق في معدل معاودة الإجرام لدى كلِّ مجموعة في مرحلة القياس، وهو ما لا يقدح البتةَ في مزايا عمَلية الوسم بأجهزة المراقبة في حد ذاتها.

ثالثًا: «ماذا»؟ إذا أردتَ أن تُقارن بين نجاح عملية الوسم بأجهزة المراقبة وبين بديلها، فعليك أن تفهمَ أن بديل الوسم بأجهزة المراقبة هو البقاء في السجن. وليس الانطلاق إلى الشارع بحُرية (ليت مسئولي وزارة الداخلية يفهمون ذلك). فإما أن يُطلَق سراحُك مُبكرًا وأنت ترتدي الجهاز، أو لا يُطلَق سراحك على الإطلاق. هاتان هما المجموعتان اللتان تنبغي المقارنة بينهما، وهذان هما البديلان. ويرتكب أفراد المجموعة الثانية القابعون في السجون جرائم قليلة جدًّا ضد العامة (لكنهم يرتكبون جرائمَ أكثر ضدَّ حُراسهم وضد بعضِهم بعضًا).

كانت هذه المقارنة جنايةً إحصائية متكاملةَ الأركان، واستفزَّت هجومًا مباشرًا نادرًا من الجمعية الملَكية للإحصاء، رغم تحفُّظها المُعتاد. فإما أن نُقارن بين من كانوا موسومين في السابق وبين من كانوا مسجونين ثم أصبح الفريقان مُطلَقي السراح الآن؛ وإما أن نُقارن بين الطُّرق المختلفة التي لا يزال الفريقان يقضيان بها مدة العقوبة؛ أي بين الموسومين حاليًّا والمسجونين حاليًّا.

من الغريب أن وزارة الداخلية لم تكُن قد حاولت رصد معاودة الجرم وقياس معدَّله، خاصةً بين من كانوا موسومين في أوقاتٍ سابقة ثم نُزِع عنهم جَهاز المراقبة؛ لذا لم تكُن لدينا أدنى فكرة — شأننا شأن وزراء الداخلية، أو كبير مفتِّشي السجون — عما إذا كان الوسمُ بأجهزة المراقبة أكثرَ فعالية من استمرار السَّجن أم لا في منع معاودة الجرم عند انقضاء مدة الحكم.

قد يكون الوسم بأجهزة المراقبة إجراءً عقلانيًّا، لكن أساس الدفاع عنه كان أبعدَ ما يكون عن العقلانية، وهو المقارنة بين سلوك فئتَين مختلفتين من المُجرِمين، خلال مدَّتين مختلفتين في الطول، في مكانَين مُتناقضين تمامًا، لا تتشابهان إلا وفقًا للدراسة الأكثر سطحيةً ومُجافاة للعقل حيث زُعِم — رغم كل هذه الاختلافات — أن برنامج الوسم بأجهزة المراقبة هو ما أحدثَ الفارق في معدلات ارتكاب الجرائم. وقد جاء هذا الإعلان على لسان وزراء في وزارة من وزارات الدولة التي تُدير أيضًا جهاز الشرطة والمحاكم، والتي نأمُل أن تكون على دراية بما يُشكل دليلًا.

•••

في حالة المقارنة، يتضاعف عدد الاشتراطات والتعريفات المُرتبطة بالعد؛ لأننا نضع التعريفات من جديد كلما أردنا عقْدَ أيِّ مقارنة. ونُكرِّر هنا أصل المشكلة الذي بات واضحًا، هل نُقارن الشيء بشبيهه من كل الجوانب المهمَّة؟ فمقارنة المدارس أو المستشفيات أو قوات الشرطة أو المجالس أو أيٍّ من الأشياء الكثيرة التي تُصنَّف ويُقيَّم فيها الأداء ينبغي أن تكون مقارنةً عادلة. لكن ذلك لا يحدُث إلا نادرًا، بل لا يمكن أن يتحقَّق إلا في أحيانٍ نادرة. فالحياة كلها أكثرُ فوضويةً من ذلك، ودائمًا ما تفوق الاختلافاتُ التوقُّعاتِ كمًّا ونوعًا. لذا علينا أن نُقرِّر — قبل أن نتجاهل هذه الاختلافات — ما إذا كانت المواءمات تُرضينا بالإنصاف النِّسبي الذي تُحقِّقه. قد تظلُّ مِثل هذه المقارنة مُفيدة، ولكن قبل أن نتَّخذ هذا القرارَ علينا أن نفهم المقايضات التي تنطوي عليها. فحتى إذا سلِمَت النوايا تظلُّ العملية نفسُها مُخادِعة.

على وقعِ المفاجأة الكبرى التي مثَّلها التغيير الجذري في السياسة العامة من خلال المقارنات التي تُعقَد باستخدام جداول التصنيف ومؤشرات الأداء وما إلى ذلك من أدوات تُعَد — في مُجمَلها — فيَضانًا من المقارنات لا مثيلَ له في تاريخ الإدارة البريطانية، شرَع المُتابعون يستكشفون فئات المقارنات التي بدا أنها لا تكفُّ عن التكاثر. فالأشياء لن تسكُنَ في مكانها ليُحصيَها الساسة ويضمُّوها في فئةٍ واحدة كما يأمُلون، لكنها تكشف عما تنطوي عليه من تعقيد وتشعُّب ومخالفة للمألوف. والإحصاء في مِثل هذه الظروف يفتح المجال للكثير من الشكوك حول إجابة السؤال: ما الذي يجري إحصاؤه بالفعل؟

على سبيل المثال، بدأت الحكومة في معاملة كلِّ المدارس كما لو كانت مُتماثلةً تقريبًا عندما وضعتها في جداول تصنيف.

•••

واليوم يتطلب الرصدُ في جداول التصنيف هذه حساباتٍ دقيقةً يصعُب على أغلب الآباء إجراؤها، يتم فيها ضبطُ النتائج التي تُحققها كل مدرسة في عموم البلاد بِناءً على السِّمات المُميزة لطُلابها. وعلى الرغم من أن المقارنة تبدو للوهلة الأولى تقييمًا لجدارة هذه المدارس، فإنها سُرعانَ ما تتحوَّل إلى جدلٍ مُحتدِم حول الاختلافات الكامنة بينها.

في عام ١٩٩٢، استُحدثت جداول أداء المدارس في المملكة المتَّحدة. فهل توقَّعَت الحكومة أن تُواصل إجراء مراجعات دقيقة لها بعد ذلك بأكثرَ من خمسة عشر عامًا؟ المؤكَّد تقريبًا أنها لم تتوقَّع ذلك. ففي عام ٢٠٠٧، خضعت جداول أداء المدارس لتطويرٍ شامل ثالث، فانعكس تصنيف بعض المدراس والجودة الظاهرية للتعليم الذي تُقدمه. وبدون حدوث أي تغييرات في نتائج اختبارات هذه المدارس، ساء تصنيف الكثير من المدارس الجيِّدة، وبدا على البعض الآخر التفوقُ المُفاجئ. وانتهى النظام القديم للقياس، وبدأ النظام الجديد. وفجأةً تغيَّرت المعلومات المقدَّمة للجمهور مما اعتادوه لسنوات إلى شيءٍ آخر. ووصفت الحكومة هذه العمليةَ بالتحسين.

يُعَد تاريخ جداول تصنيف المدارس (الذي نُقدِّم نسخةً مختصَرة له أدناه) درسًا عمره خمسةَ عشر عامًا عن التعقيد الشديد الذي تنطوي عليه عملية تطويع قياس واضح لخدمة هدف سياسي يبدو للوهلة الأولى واضحًا، وهو إعلام الآباء بالفوارق بين المدارس المحليَّة. حينئذٍ رأى الساسة هذه العمليةَ «بسيطة». ومن ذلك نستنتج أن الحكومات أيضًا عُرضة للفشل في التمييز بين الأفكار المجرَّدة والحياة الفعلية، خاصةً عندما تُصرُّ على أن العد لا يَعْدو كونه لَهْو أطفال.

كانت جداول التصنيف الأولى التي صدَرَت عام ١٩٩٢ واضحة؛ فقد أُدرجت كلُّ المدارس في قائمةٍ تشمل أيضًا عدد طلابها الذين نجَحوا في خمس موادَّ وحصَلوا فيها على الشهادة العامة للتعليم الثانوي بتقديرٍ لا يقلُّ عن جيِّد. ورغم البساطة الحقيقية التي اتَّسمَت بها هذه المهمة، فقد اتَّضح بعد مدةٍ قصيرة أن المدارس التي تستقبل من البداية طلابًا مُتفوقين دراسيًّا تُحقق نتائجَ أفضل، ولم يتَّضح أيُّ تأثير لجودة التدريس في المدرسة على تصنيفها في الجداول، إن كان لهذا التأثير وجود.

وبالنسبة إلى المدارس التي يُنظَر إليها باعتبارها الأفضلَ من غيرها، والنموذج الواجب السعيُ لاستنساخه، لم يَعنِ هذا الخطأُ شيئًا. أما بالنسبة إلى المدارس التي تُوصَم بأنها الأسوأ، خاصةً التي يشمل مُرتادوها طلابًا من ذوي الاحتياجات الخاصة أو طلابًا ليست الإنجليزيةُ لُغتَهم الأولى، فقد كان الأمر أشبهَ بالإدانة الظالمة بسبب سوء تقدير الجهات الرسمية، وأثار سخطًا بالغًا.

علاوةً على ذلك، فقد كانت النتائج التي تُحققها كلُّ مدرسة تتغيَّر من عام إلى عام، فيؤثر تغيُّرها على مرتبة المدرسة في جدول التصنيف. البروفيسور هارفي جولدستاين، الذي عمِل سابقًا في معهد التعليم، ويعمل الآن في جامعة بريستول، قال لنا: «لا يمكن تحديد ترتيب أي مدرسة في أي جدول أو تصنيف بدقة. لأن كل ما لديك في أي سنة دراسية تتَّخذها مِقياسًا للحكم على المدرسة هو عددٌ صغير نسبيًّا من الطلاب، وأي تقدير عددي قد تُقدِّمه سيُحيط به الكثير من الشك (الذي نُسميه بفاصل الشك). وقد تبيَّن أن هذه الفواصل كبيرة جدًّا، لدرجة أن ثُلثَي المدارس الثانوية إلى ثلاثة أرباعها لا يمكن فصلُها عن المتوسط الوطني العام، ما دمت تحكم من خلال نتائج الشهادة العامة للتعليم الثانوي. بعبارةٍ أخرى، ليس لديك في حقيقة الأمر أي شيء يُمكِّنك من الحكم على كون مستوى المدرسة أعلى من متوسط مستوى جميع الطلاب أم أدنى منه.»

إذَن فقد كانت الجداول تُقارَن في أحيانٍ كثيرة بين مدارس يختلف بعضها عن بعض نوعيًّا، وتَلوي عُنق البيانات لتُنتِج اختلافات قد لا يكون لها وجود. كان العدُّ يجري بسذاجة، وكانت المقارنة بين الأعداد تتمُّ مع إهمال ماهيَّة ما يجري عدُّه بالفعل. ولما أدركت بعض المدارس تأثير الجداول على سمعتها، فقد بدأت تتلاعب بالنظام، وتختار من المواد الدراسية ما تعتبره الأسهل، وتتجنَّب الرياضياتِ واللغةَ الإنجليزية، بل تتجنَّب — ما استطاعت — قَبول الطلاب الذين يُخشى رُسوبهم، وتُركِّز على الطلاب المُتوسطين، وتُهمل أضعفهم دراسيًّا وكذلك أقواهم، الذين لا يُجدي المجهود المبذول معهم نفعًا كبيرًا في التصنيف.

وبعد أن كانت المقارنةُ العنصرَ الأساسي في السياسات التعليمية لحكومتَين، فقد جرَت مراجعتها ليتَّضح عدد الطلاب الذين تحسَّن مُستواهم بالمقارنة بالمستوى القياسي للأداء الذي كانوا عليه في سنِّ الحادية عشرة. وكانت هذه محاولةً لقياس القيمة التي تُضيفها المدرسة إلى أيِّ مواهب كانت لدى الطلاب في أول الأمر. لكن ما أُطلِق عليها جداول القيمة المُضافة لم تكُن كذلك على الإطلاق، ولم تكُن جديرةً بهذه التسمية. (ووصفها لنا ديفيد بلانكيت، وزير التعليم حينئذٍ، بأنها «غير مُرضية».) كان المستوى القياسيُّ المستخدَم في سنِّ الحادية عشرة هو متوسط كل الطلاب في كل الفصول. وتمكَّنت الكثير من المدارس الانتقائية من اقتناص الطلاب الذين يفوق مستواهم متوسطَ مستوى صفِّهم الدراسي، وعندما بلَغ هؤلاء الطلاب السادسة عشرة من عمرهم وخضَعوا للتقييم من جديد، بدت هذه المدارس كأنها أضافت لهم قيمةً كبيرة. لكن الواقع أن القيمة كانت كامنةً لدى الطلاب من البداية. ورغم أن هذه الجداول مُضلِّلة وليست جديرةً بتسميتها، فقد نُشِرت لمدة أربع سنوات.

ثم أُعلِن عن إجراء مراجعة أخرى، كانت من نتائجها هذه المرَّة أن اشتُرط أن تتضمن نتائجُ المدارس مادَّتَي الرياضيات واللغة الإنجليزية في مواد الشهادة العامة للتعليم الثانوي، وهو ما أدَّى في إحدى الحالات إلى هبوط تصنيف مدرسة في شرق لندن، فبعد أن كان ٨٠ في المائة من الطلاب ينجحون في خمس مواد، أصبح معدل النجاح لديهم ٢٦ في المائة.

وجرَت بعد ذلك مراجعةٌ ثالثة كبيرة، عُرِفت باسم القيمة المُضافة السياقية، وأقرَّت بأوجُه القصور في نظام القيمة المُضافة المُعتاد، وسعَت إلى معالجتها بمراعاة كلِّ ما قد يؤثِّر سلبًا على مستوى الطلاب من عوامل خارجة عن سيطرة المدرسة، مثل الانتماء إلى طبقةٍ فقيرة، أو كون اللغة الأولى للطالب لغةً غير الإنجليزية، أو كونه من ذوي الاحتياجات الخاصة، أو كونه صبيًّا، وعوامل أخرى. يُقارن نظام القيمة المضافة السياقية مستوى الطالب بمستوًى قياسي أدق، وهو قدرات الطالب نفسِه في السابق.

في عام ٢٠٠٦، وقبل التطبيق الكامل لنظام القيمة المضافة السياقية الذي تم في ٢٠٠٧، طُبِّقت العملية الحسابية الجديدة على عيِّنة من المدارس. فكيف تأثَّر ترتيبها في الجداول بسبب العملية الحسابية الجديدة؟ إحدى المدارس، وهي مدرسة كيستيفين آند جرانثام للبنات، هبطت من المركز ٣٠ في جداول الشهادة العامة للتعليم الثانوي إلى المركز ٣١٧ من أصل ٣٧٠ مدرسة في العيِّنة. في حين انتقلت مدرسةٌ أخرى، هي مدرسة سينت ألبانز سي أوف إي في برمنجهام، في الاتجاه المُعاكس، فصعِدت من المركز ٣٤٤ إلى المركز ١٦. وفي ضوء كل هذه التغيرات، لا لوم على الآباء إن تساءلوا عما كانت المقارنات تُخبرهم به طَوال الخمسة عشر عامًا السابقة.

وإلى هذا الحد توقَّف تاريخ جداول تصنيف المدارس، غير أن الجدل الذي تُثيره لم يتوقَّف. فقد ابتعدت جداول القيمة المضافة السياقية — بما تنطوي عليه من تعقيد ومجال للحكم الشخصي — مسافةً كبيرة عن الفكرة المثالية المتصوَّرة لها في أول الأمر، التي كان أساسها المساءلةَ والشفافية. وقد تبيَّن أيضًا أن فواصل الثقة (الاتساع الذي يجب أن يبلُغه نطاقُ الترتيبات المحتملة لأي مدرسة في جدول التصنيف قبل أن نتيقَّن بنسبة ٩٥٪ من أن الترتيب الصحيح يقع ضِمن هذا النطاق) لا تزال كبيرةً لدرجة أننا لا يمكننا التمييزُ بين ترتيب معظم المدارس، حتى عندما تتنقل تنقلاتٍ دراميةً جدًّا في الجداول المنشورة بين كل عام والتالي له. ولما جالت القيمةُ المُضافة في الأذهان، تبيَّن للجميع تقريبًا أن معظم المدارس تُجيد إضافةَ أنواع مختلفة من القيمة — بعضها للفتَيات والبعض الآخر للفِتيان، وبعضها للمُتفوقين والبعض الآخر للمُتعثرين، وبعضها في مادة الفيزياء والبعض الآخر في اللغة الإنجليزية — تبيَّن أيضًا أن الرقم الأوحد المُعبِّر عن كل مدرسة لا بد أن يكون مُتوسطًا لكلِّ هذه الفروق. إلا أن قلةً قليلة من الآباء هم من يَعولون طفلًا مُتوسطًا لدرجة أنه صبيٌّ بنسبة ٥٠٪ وفتاة بنسبة ٥٠٪.

يبدو أن ذلك الحل الفعَّال يُعقِّد الأمور، فإذا شهِد المرء ثلاث عمليات تجديد شاملة في خمسةَ عشر عامًا فسيُغيِّر رأيه تمامًا فيما كان يسعى إليه. إلا إذا لم تكُن المقارنة العادلة هي المَسعى الحقيقي، بل كان المَسعى في حقيقة الأمر هو الحصولَ على دليلٍ بسيط يُحدِّد المدارس التي يوجد بها الطلاب الأكثر تفوقًا.

يُبلِّغ بعضُ كبار المُعلمين عن تحقُّق الكثير من المنافع من التركيز على قياس الأداء الذي استحثَّته جداولُ التصنيف، خاصةً مع التركيز في الآونة الأخيرة على قياس القيمة المضافة. وقد تشجَّعوا على جمع البيانات عن طلابهم واستخدامها في تحفيزهم والتناقش معهم حول سُبُل التحسُّن المُمكِنة. وقالوا إنهم أصبَحوا يُركِّزون بدرجةٍ أكبر على التطور الفردي، ويُقدِّرون هذا المَسعى بأكمله تقديرًا كبيرًا. ولا شك أن هذه تطوراتٌ محمودة وجيِّدة.

سيكون من العبث أن نتحدَّى البيانات. لكن القياس شيء، وليُّ عنق الأرقام للخروج بنتيجة زائفة شيءٌ آخر. قال الوزراء في مرَّاتٍ عديدة إن جداول التصنيف ينبغي ألا تكون المصدرَ الوحيد للمعلومات عن أي مدرسة، لكن لا يتَّضح كيف أسهمَت جداول التصنيف بأي شيء على الإطلاق في المقارنة العادلة بين أداء المدارس أو جودة التدريس بها. إذا عُقِدت المقارنة باستهانة، وتيقَّنَّا من صِحتها إلى حدٍّ زائد، تتحول المعلومات إلى ما يُشبِه بطاقاتِ اليانصيب. وكما نُقِل عن أينشتاين عدةَ مرَّات: «المعلومات تختلف عن المعرفة».

لماذا حدث ذلك؟ هناك سببٌ أساسي هو الثِّقة المُفرِطة في سهولة العد. الكثير من الأشياء في الحياة ليست صحيحة إلا إلى حدٍّ ما، لكن الأرقام لا تعرف عبارة «إلى حدٍّ ما» هذه. فهي ثابتة ولا مجال فيها للمُواءمات، أو على الأقل هكذا تُستخدَم. فلا تغفل أبدًا عن المواءمات الكبيرة التي نُجْريها مع الحياة عندما نُحاول إحصاء عناصرها.

•••

رغم خطورة المقارنة حتى في حدود البلد الواحد، فإن المقارنة بين بلد وآخر أخطرُ بكثير. حيث تتخطَّى التعريفات الحدود، ونخوض في جوفٍ مستنقَع المقارنات. لكننا لا نُدرك ذلك، بسبب طريقة عرض التقارير عن هذه المقارنات.

لنأخذ لمحةً عن احتمالات الخطأ، لنفترض أننا نُقارن مستويات البراعة الرياضية، وهذه مقارنةٌ صعبة، أليست كذلك؟ ولنتَّفقْ على أن إحراز ١٠٠ نقطة في بطولة كريكيت المقاطعات يدلُّ على براعةٍ رياضية. ولنتَّفقْ أيضًا على أن فشل زين الدين زيدان — الذي تم اختياره أفضلَ لاعب كرة قدم في العالم ثلاث مرات — في إحراز ١٠٠ نقطة في كريكيت المقاطعات يدلُّ على مستوًى رياضي سيئ. هذه المقارنة سخيفة شكلًا، لكنها شائعةٌ عند المقارنة بين بلد وآخر.

أيُّ البلاد لديه نظامٌ صِحي أفضل، أو تعليم أفضل؟ وأيُّها لديه أفضلُ حوكمة، أو أقلُّ حالات هروب من السجن؟ كلما قِيست الأشياء أو عُقِدت المقارنة بينها بنفس المِقياس، يظهر الإصرار على أنها من نفس النوع؛ فهؤلاء لديهم نظامٌ صِحي، ولدينا نظامٌ صِحي، ونظامهم أسوأ من نظامنا. وهم يدرُسون الرياضيات، ونحن ندرس الرياضيات، لكن انظر إلى مدى تفوُّق نتائجهم على نتائجنا. وهم لديهم سُجون، ونحن لدينا سجون، وهكذا دوالَيك.

عندما زار الأكاديميُّ في جامعة إراسماس كريستوفر بوليت فنلندا، فاجأه أن اكتشفَ أن السِّجلَّات الرسمية تذكُر فئةً من السجون لم يهرُب منها أحدٌ قط، رغم مرور السنين. فهل كان هذا أعلى مستويات تأمين السجون وأكثرها فعالية؟ سأل بوليت موظَّفًا عموميًّا فنلنديًّا: «كيف تتمكَّنون من إبقاء عدد الهاربين من السجن صفرًا كل عام؟»

ردَّ الموظَّف: «الحل بسيط؛ فهذه السجون سجونٌ مفتوحة.»

عمَّ بريطانيا ذُعرٌ أخلاقي في بداية عام ٢٠٠٦ عندما اكتُشف معدل هروب السُّجناء من السجون المفتوحة، حيث كانوا يخرجون كما لو كانوا في نُزهة في العطلة الأسبوعية. وبالمقارنة بالحال في بريطانيا، بدا الوضع في فنلندا مُذهلًا. فماذا كان السرُّ الفنلندي؟

قال بوليت: «سجونٌ مفتوحة؟ لا يهرُب عندكم أحد من أيِّ سجن مفتوح؟»

ردَّ الموظَّف: «ليس الأمر كذلك! ولكن نظرًا إلى كونها سجونًا مفتوحة، فنحن لا نُطلِق عليه هروبًا، بل نُصنِّفه على أنه غيابٌ دون إذن.»

يقول كريستوفر بوليت إن هذه المقارنة هي المقارنة الدولية المفضَّلة لديه. ويقول أيضًا إنه عند التعمُّق في التفاصيل، يجد المرء المئات من مِثل هذه الأخطاء. إذ تبيَّن أن فنلندا ليس لديها أقوى تأمين للسجون في العالم، وعلى خلاف ما حاوَل البعضُ استنتاجه من مقارنة عدد «حالات الهروب» وحدها، لم يتجمَّع في سجونها — بفضل الثقة المُثلِجة للصدور والمنظومة الإنسانية — نُزلاء يتميزون بأرفع صور التعاون.

على الأقل لا نظنُّ ذلك، على الرغم من أن الأمانة تُحتِّم علينا إيضاحَ أننا لسنا مُتأكدين على الإطلاق. والتفسيرات لا يزيد تماسكُها عن البيانات التي بُنيت عليها. من العبث أن نُخصِّص كل هذا الوقت لهذه المسألة، لكن يبدو أن لدينا رغبةً مُلحَّة للتوصل إلى تفسيرات للفوارق بين الدول؛ أي لأن نعرف لماذا نُجيد هذا الأمر أو ذاك ولا يُجيده الآخرون، أو العكس، رغم أننا لو أنعَمْنا النظرَ لوجَدنا أسبابًا للشك في وجود الفوارق من الأصل على النحو الذي يُصوِّره البعض.

•••

تبدأ المشكلة من أبسط الأسباب الجغرافية؛ لا تنسَ أبدًا كلمة «هناك» المستخدَمة في السؤال: «كم عدد ما يوجَد من كذا هناك؟» فكلُّ عمليات العد تجري في مكانٍ آخر، ويُعَد تحديد المكان جزءًا من عبء وضع التعريفات. وكما يكون عليه الحالُ عندما نسأل عن عدد الخِراف في الحقل، يُستحسن أن يكون الحقل الذي نُفكر فيه مُسيَّجًا.

وعندما لا يكون ذلك الحقل مُسيَّجًا، يكون الأمر أشبهَ بالمثال الآتي من عمل منظَّمة التعاون والتنمية في ميدان الاقتصاد، وهي تجمُّعٌ بارز للدول المُتقدمة في العالم، بها فريقٌ مرموق من الباحثين والاقتصاديِّين. سعَت المنظَّمة — ويا له من مَسعًى بسيط! — لاكتشاف عدد المُمرضين لكلِّ شخص في المملكة المتحدة، ومقارنة ذلك بالدول الأخرى.

والظاهر حتى الآن أن «المُمرض» له تعريفٌ مستقر وواضح في بُلدان المنظَّمة. تواصَل أحدُ الباحثين مع وزارة الصحة في لندن وطرحَ سؤالًا بما معناه: «كم عددُ المُمرضين لديكم؟» وأجابته وزارةُ الصحة. ثم قسَّمت المنظَّمة عددَ المُمرضين على عدد سكان المملكة المتحدة للتوصل إلى عدد المُمرضين لكلِّ شخص.

ومن سوء حظِّ المنظَّمة أن الصحة الآن وظيفةٌ لا مركزية في اسكتلندا، تتولَّى مسئوليتَها الحكومةُ الاسكتلندية في إدنبرة، وليس برلمان ويستمنستر. ومن ثَم اعتبرت وزارة الصحة في لندن أن كلمة «هناك» تعني إنجلترا وويلز وأيرلندا الشمالية، وهي المناطق التي لم تزَل مسئولة عنها مسئوليةً كاملة. لكن المنظَّمة استخدمت عدد سكان المملكة المتحدة كلها. وبهذه السهولة حاد الحسابُ عن طريق الصواب.

لم تكُن مُفاجأةً أن يتَّضح أن عدد العاملين في خدمة الصحة لدينا بدا مُنخفضًا. عدد المُمرضين في إنجلترا وويلز وأيرلندا الشمالية مقسومًا على عدد السكان الذي شمِل سكانَ اسكتلندا، بدا سيئًا للغاية مقارنةً بالدول المُتقدمة الأخرى.

•••

التصنيفات الدولية تتزايد. ويُمكننا أن نقرأ الآن عن الفارق بين المملكة المتحدة والبُلدان الأخرى في جودة الحَوكمة ومناخ الأعمال والصحة والتعليم والنقل والابتكار، من بين أمورٍ أخرى، كما يُمكننا أن نقرأ عن مُسوح أقلَّ شأنًا مِثل المؤشِّر الدولي للسعادة، الذي أطلقَت عليه إحدى الصحف «التصنيف العالمي للغاضبين». يقول الأكاديمي في جامعة أوكسفورد، كريستوفر هود، الذي يقود فريق البحث في مشروعٍ بَحثي يتناول المقارنات بين الدول: «مرحبًا بكم في عالم التصنيفات.» ويقول إن عدد التصنيفات الدولية للحَوكمة ظلَّ يتضاعف تقريبًا كل عَقْد منذ ستينيَّات القرن العشرين.

وبالطبع تريد أن تعرف تقييمات بريطانيا في هذه التصنيفات؛ فمن الصعب مقاومةُ الرغبة في عقد هذه المقارنات، وحتى المُتشكِّك المُتسلِّح بالمعلومات مِثل كريستوفر هوود يستمتع بقراءتها. سنُخبرك بالإجابة في نهاية الفصل. أما الآن، فإليك شيئًا من الدفاع عن النفس ندحضُ به البساطة الخادعة التي يتَّسم بها عالم التصنيفات.

«بضربة رأس في الدقيقة ٢٧، وضربة رأس أخرى في الوقت بدل الضائع من الشوط الأول، زلزل صانعُ الألعاب زين الدين زيدان خصومه البرازيليِّين بصدمة لم يتعافَوا منها قط. لم تكتفِ القلعة الفرنسية بالصمود أمام الهجوم البرازيلي قربَ نهاية المباراة، بل أحرز الفريق هدفًا آخرَ في الدقيقة الأخيرة.»

هذه الكلمات مقتبَسة من وصف الفيفا — الهيئة العالمية الحاكمة لكرة القدم — لفوز فرنسا في المباراة النهائية لكأس العالم عام ١٩٩٨، وهو وصفٌ لا يتأتَّى إلا لمُشجِّع كرة قدم مُتحمِّس. وبعد ذلك بعامَين، صدم الموسيقيون الفرنسيون — كما وصفتهم الفيفا — العالمَ مجدَّدًا، وتصدَّروا العالم في تصنيف أفضل نُظُم الرعاية الصحية في العالم الذي وضعته منظمةُ الصحة العالمية.

واحتلَّت بريطانيا مركزًا مُتدنِّيًا هو المركز ١٨ — في تصنيفات منظمة الصحة العالمة، وليس في كأس العالم — وهو مستوًى مُنخفض بالنسبة إلى بلدٍ غني. أما الولايات المتحدة — البلد الأكثر ثراءً — فقد احتلَّت المرتبة ٥٠، وهو ترتيبٌ مُهين، إذا أُخِذ تصنيف منظمة الصحة العالمية على مَحمِل الجِد. وعلى الرغم من أن منظمة الصحة العالمية منظمةٌ دولية مرموقة تَكثُر التقارير الصحفية عن جداول التصنيف التي تُصدرها، فقد أحجم الكثير من البُلدان — أهمها الولايات المتحدة — عن نشر تلك التقارير التي أصدرتها.

المِيزة الكبرى التي تتفوَّق بها تصنيفاتُ كرة القدم عن تصنيفات الرعاية الصحية هي أنه في كرة القدم هناك اتفاقٌ واسع النِّطاق على كيفية وضع التصنيفات. فالفوز يُكسِب الفريقَ نقاطًا، على عكس الخَسارة، ولا حاجة إلى قول الكثير بعد ذلك (بصرف النظر عن تحليل المباريات بعد انتهائها والتمحيص في أمر الأهداف التي أُلغيَت بدون وجه حق، وغير ذلك من تدخُّلات التحكيم التي يُخشى منها). ولما كان الأمر بهذه السهولة، ونظرًا إلى أن النتائج تُذاع على التلفاز بعد ظُهر أيام السبت، فقد يميل المرء إلى الاعتقاد أن هذا هو شأن جداول التصنيف؛ ففي خيال المرء، يظهر زيدان والكرةُ في الشبكة والنتيجة بدون أي مشكلة.

أما فيما يتعلق بتصنيفات المنتخَبات الوطنية، فحتى الفيفا تُقرُّ بالحاجة إلى بعض التريُّث. ففي المباريات الدولية، كل نتيجة تُقيَّم بِناءً على ثمانية عوامل؛ عدد النقاط يتغيَّر حسَب قوة المنتخب الخَصم، وحسَب كون المباراة مباراةَ ذَهاب أم عودة، وحسَب أهمية المباراة (تتصدر مباريات كأس العالم ترتيب الأهمية)، وحسَب عدد الأهداف التي يُحرِزها المنتخب والتي تتلقَّاها شِباكه.

وهكذا تنتفي بساطةُ التصنيفات المحلية. فالتصنيفات العالمية هي نتيجةُ نظام لاحتساب النِّقاط يُراعي كل هذه العوامل، فضلًا عن عوامل أخرى، وعندما تُنشَر جداول التصنيف كلَّ ثلاثة أشهُر حسب العادة، لا يتَّفق الجميع على صِحتها. وهذا مثال على تعقيد المقارنة، وصعوبة المفاضلة بين براعةِ فريق مُقابلَ فريق آخر، في حالةٍ يبدو فيها القياسُ سهلًا.

عند تأمَّل أندرو ستريت — الأكاديمي في جامعة يورك — وجون أبلباي — الذي يعمل في مؤسَّسة «كينجز فاند» البحثية — الانتصارَ المزدوج الذي حقَّقته فرنسا في كرة القدم وفي الصحة، شرَعا — في شيء من اللهو — في استكشاف ما إذا كانت هناك علاقة بين تصدُّر تصنيفات نظم الرعاية الصحية، وبين تصدُّر تصنيفات الفيفا لمنتخبات كرة القدم.

وبالفعل اكتشفا وجود علاقة. فكلما كان البلد أكثرَ براعةً في كرة القدم، كان نظام الرعاية الصحية فيه أفضل. فهل يعني ذلك أن المُدير الفني لمنتخب إنجلترا كان مسئولًا عن مستوى الصحة في بلده، أم إن وزير الدولة للصحة ينبغي أن يُشجع المُمارسين العموميين على نُصح مَرضاهم بممارسة المزيد من كرة القدم؟ الأمر ليس كذلك بالضبط؛ فقد كانت المقارنة وسيلةً للنِّكاية المحسوبة والمصمَّمة لإظهار ضعف تصنيفات منظمة الصحة العالمية، وكان الارتباط عاريًا تمامًا عن الصحة.

الحقيقة أنهما مَن لفَّقا ذلك وأقرَّا به؛ وذلك بالتغاضي عن كل ما لا يؤدي إلى النتيجة التي أراداها، والتلاعب في الأرقام بإجراء التعديلات حسَب عدد السكان أو الخصائص الجغرافية حتى يتوصَّلا إلى النتيجة التي أراداها. وكانا يقصدان بذلك التدليلَ على أن أي نظام للتصنيف — وخاصةً إذا كان يتعلق بأمرٍ معقَّد مِثل الرعاية الصحية — يشمل نطاقًا من العوامل التي يمكن التلاعبُ به بسهولة للتوصل إلى إجابةٍ مختلفة.

ومن العوامل التي تُؤخذ في الحُسبان في جمع جداول التصنيف الخاصة بمنظَّمة الصحة العالمية الآتي: متوسط عمر الفرد، ومعدَّل وفَيات الرضَّع، وعدد سنوات الإعاقة، والمدى الذي يبلُغه النظام في «تعزيز الاحترام الشخصي» بصَون الكرامة والحفاظ على السِّرية، وإشراك المرضى في اختيارات الرعاية الصحية، وما إذا كان النظام «يتمركز حول العميل»، ومدى المُساواة في تشارُك عبء تدهوُر الصحة من الناحية المالية، وجدوى الإنفاق على الرعاية الصحية (وهو ما يشمل تقديرًا لأفضلِ ما يُمكِن للنظام فِعله مقارنةً بما يُحقِّقه بالفعل). يتَّفق معظم الناس على أهمية معظم هذه العوامل، ولكن أيُّها الأهم؟ وهل هناك عواملُ أخرى أُغفلت ها هنا رغم أنها أكثرُ أهمية؟

هذا التعقيد الشديد — حيث يمكن أن يُعطى كلُّ عامل وزنًا مختلفًا في التقييم الكلِّي، وتُحدَّد الكثيرُ من الأشياء تقديريًّا، ويسهُل تخيلُ استخدام عوامل مختلفة تمامًا — يجعلنا قادرين أن نُنتِج تصنيفاتٍ مختلفةً إذا أردنا. لذا قرَّر ستريت وأبلباي اختبارَ تأثير تغيير الافتراضات على التصنيفات. كانت منظمة الصحة العالمية قد ادَّعت تميُّزَ تصنيفاتها باستقرارٍ نِسبي مهما تغيَّرت الافتراضات. لكن ستريت وأبلباي اكتشفا نقيضَ ذلك تمامًا. فقد أخذا أحد القياسات الأكثر خِداعًا لنظام الرعاية الصحية الجيد، وهو الكفاءة، ورجعا إلى بيانات عام ١٩٩٧ التي استُخدمت في قياسها، وغيَّرا بعض التفاصيل المُحدِّدة لمفهوم الكفاءة، فوجدا أنه وَفقًا للنموذج الذي يُقرِّران استخدامه، يتصدَّر بلدٌ مختلف التصنيفات. ونجحا — على سبيل المثال — في نقل دولة مالطا من المركز الأول إلى المركز الأخير من بين ١٩١ بلدًا. وتأرجحَ ترتيبُ عُمان بين المركز الأول والمركز ١٦٩، وتنقَّلَت فرنسا وَفقًا لهذا القياس بين المركز الثاني والمركز ١٦٠، في حينِ جاءت اليابان بين المركز الأول والمركز ١٠٣. لكن البُلدان التي كانت في المراكز الأخيرة ظلَّت تُراوح مكانها في التصنيف مهما تغيَّرت مُحدِّدات الكفاءة.

واستنتجا أن: «اختيار منظَّمة الصحة العالمية لأبعاد الأداء والأوزان النسبية التي تُعطى لكلِّ بُعدٍ منها ذاتيةٌ — أي غير موضوعية — إلى حدٍّ كبير، حيث تُجْري المنظَّمة مُسوحَها لفئاتٍ مختلفة من «المُستجيبين الأساسيين» لرصد آرائهم. والبيانات التي يستند إليها كلُّ بُعد جودتها مُتفاوتة، وعلى وجه الخصوص، يصعُب تقييم موضوعية وضع القياسات المحددة لعدم المساواة.»

باختصار، ما يُمثِّل نظامًا جيدًا للرعاية الصحية هي مسألةٌ سياسية، وليست مسألةً كَمِّية بَحتة. والولايات المتحدة تتعمَّد إحاطة إدارتها لقطاعاتٍ كبيرة من نظامها الصِّحي بإزار من السِّرية لعِلمها بكونه نظامًا سيئًا بالمقارنة ببُلدانٍ أخرى. وهي تفعل ذلك لأنها ترى أنه الأفضل لصالحها. قد نختلف في الرأي، لكن الإصرار على خفض تصنيف الولايات المتحدة بسبب الخيارات التي تتَّخذها يُعَد حُكمًا على قِيَمها السياسية وليس نظامها الصِّحي.

ومرةً أخرى، قد يجد المرء في نفسه ميلًا إلى إهمال كل المقارنات لتأثُّرها بتنوُّع لا حصرَ له في الظروف المحلية. لكنَّنا قد نُفرِط في التشاؤم. فعدد الأطفال في كل أسرة أو عدد سنوات التعليم الرسمي أو حتى دَخْل الأسرة على سبيل المثال هي قياساتٌ مُهمة للتنمية البشرية، ويُمكننا تسجيلها بدرجةٍ كافية من الدقة في معظم البُلدان؛ وبذلك تُصبح المقارنات سهلة ومُثْرية بالمعلومات. ومِيزة هذه القياسات في بساطتها، وأنها تقيس شيئًا واحدًا فقط، بدون الخوض في جدل التعريفات. وهذه المقارنات بوجهٍ عامٍّ يمكن الثقة في كونها تحملُ معلوماتٍ معقولة، وإن لم تتَّسم بالدقة الكاملة.

المشكلات الأخطر تنشأ مما يُسمى بالمؤشِّرات المركَّبة، مِثل جودة النظام الصحي، التي تعتمد على الجمع بين عدد كبير من القياسات المختلفة لما يجري في النظام الصحي، مِثل جودة تعامُل طبيبك معك في الجِراحة، ومدة انتظارك، وجودة العلاج في المستشفيات، ومستوى الراحة، والسهولة، والغلاء وما إلى ذلك، كذلك عندما يكون المعنى المقصودُ من وصف شيءٍ ما بأنه «جيد» هو أنه يُحقق الأهداف السياسية. إذا أراد سكان أحد البلاد اختياراتٍ متعددةً لعلاج المرضى، ولم يكترث سكان بلد آخر بذلك واعتبَروه ضربًا من الإسراف، فلأي العوامل تكون الأولوية في تحديد النظام الصِّحي الأفضل؟

على سبيل المثال، ما الموضوعاتُ التي يُعَد تعلُّم الأطفال لها في مادة الرياضيات مهمًّا؟ في أحد التصنيفات عام ٢٠٠٦، كانت ألمانيا مُتقدمةً عن المملكة المتحدة، وفي عامٍ آخر كانت المملكة المتحدة مُتقدمةً على ألمانيا. قد تتوقع أن يكون رصد نتائج الرياضيات على وجه التحديد أسهلَ من أي شيء، فما سبب الاختلاف؟

حدث الاختلاف نظرًا إلى أن كل اختبار كان يمتحن نوعًا مختلفًا من مهارات الرياضيات. لكن الميل المُشار له في البداية إلى افتراض تطابق الأشياء التي تُعقَد المقارنة بينها يُوحي في هذه الحالة بأن «الرياضيات» باعتبارها عُنوانًا موحَّدًا هي مادةٌ واحدة غيرُ قابلة للتجزئة. والحقيقة أنه قد تبيَّن أن طلاب الرياضيات البريطانيِّين يُظهِرون براعة في التطبيقات العملية لمهارات الرياضيات، مِثل تحديد سعر لتذكرة حضور فعاليةٍ ما بحيث يشمل السعر التكاليفَ ويُتيح فرصةً معقولة لتحقيق الربح، في حين أن الطلاب الألمان أكثرُ براعةً في الرياضيات التقليدية مِثل التعامل مع الكسور. إذا وُضِع اختباران مختلفان يُركز كلٌّ منهما على جانب محدَّد دون الآخر، خمِّن ما قد يحدُث؟ يستحثُّ الأداء المُتدنِّي للألمان (ولْندَع الأداء الجيد جانبًا) ردَّ فعلٍ يُناهز الذُّعر العام. ويَعقُب ذلك مرحلةٌ من مراجعة الذات ودراسة الإخفاق الوطني ثم تعديل مناهج الرياضيات بالكامل.

•••

على الرغم من أن الحاجة إلى العثور على بياناتٍ للشيء ومثيله قد تجعل المقارنة خادعة، فهناك الكثير من المقارنات التي نعقدها وهي تفتقد إلى البيانات تمامًا. منها المقارنة بين الاقتصاد الأمريكي والفرنسي. التصوُّر العام السائد في أجزاء من المملكة المتحدة هو أن فرنسا بلدُ استراحات الغداء الطويلة والقطاع العام المُهيمِن ذي العاملين المُتكاسلين والمُزارعين الذين يمتلك كلٌّ منهم بقرة، وينتفض في أعمال شغب كلما تجرَّأ أحدٌ على ذِكر المُنافسين.

أما أمريكا — على النقيض — فهي بلد الرأسمالية الكاسحة، الذي لا ينقطع هَديرُ ماكيناته ولا يعرف أهلُه الإجازات أو النوم. وإذا قِستَ متوسط معدل النمو الأمريكي خلال السنوات الأخيرة، فستجده أكبرَ من مثيله الفرنسي بنسبة ١ في المائة. فارقٌ كبير.

ولكن إن أنعمتَ النظر فسيَتبيَّن لك أن عدد سكان الولايات المتحدة أيضًا آخذٌ في النمو بوتيرةٍ أسرع من سكان فرنسا بنسبة ١ في المائة. فليس صحيحًا أن الأمريكيِّين يعملون بديناميةٍ أكبر، ولكن عدد العاملين منهم أكبر بكثير. وعندما نلتفت إلى إنتاجية كل عامل في الساعة يتَّضح أن الفرنسيين يُنتِجون أكثرَ من الأمريكيين منذ سنوات عديدة؛ فقد حافَظوا على تفوُّقهم في هذا الصدد. وحتى البورصة الفرنسية تفوَّقت على الأمريكية؛ فالدولار الواحد المُستثمَر منذ ثلاثين عامًا يُساوي الآن في أمريكا نحو ٣٦ دولارًا، بينما يُساوي في فرنسا ٧٢ دولارًا «في أكتوبر ٢٠٠٦».

لا يوجد من بين هذه الأرقام ما يُعتبر حاسمًا، بل يمكن ربطها جميعًا بالمزيد من المُحدِّدات، منها البطالة في فرنسا على سبيل المثال. المقارنات الموجَزة للأشياء المعقَّدة لا يمكن أن تعتمد على رقمٍ واحد. فعند مقارنة اقتصادات كاملة بحجمها المَهول وتعقيدها البالغ، تذكَّر مرةً أخرى مدى صعوبة رؤية الفيل بأكمله.

يَندُر أن تحمل أرقامٌ مُنفردة مقارناتٍ ذاتَ مَغزًى. وتُستثنى من ذلك الحالات التي تنطبق فيها الأرقام على مؤشرٍ مُنفرد وليس مركَّبًا، حيث يكاد اللغطُ حول التعريفات ينعدم، وتكون البيانات على قدرٍ معقول من الموثوقية. ومن هذه المؤشِّرات معدَّل وفَيات الأطفال. فلا جدال حول ماهية الموت، ويمكننا وضع تعريف متَّسِق للطفل. يَصعُب في بعض البُلدان جمع البيانات؛ لذا تكون الأرقام تقريبية، كالمُعتاد. لكنَّنا مع ذلك نستطيع عقد مقارنة فعَّالة بين معدَّل وفَيات الأطفال حول العالم، وأن نعلم — على سبيل المثال — أن المُعدَّل يَبلُغ في سنغافورة وأيسلندا ٣ أطفال من كل ١٠٠٠ طفل دون الخامسة، وفي سيراليون ٢٨٣ طفلًا من كل ١٠٠٠ (حالة أطفال العالم، اليونيسيف، ٢٠٠٦)؛ وبذلك يكون للذُّعر الذي تبعثه فينا المقارنة مُبرِّر.

•••

المقارنات الأكثر تعقيدًا تتطلب مزيدًا من الحرص. بيدَ أن عقدَها مُمكنٌ إذا ما تُوُخِّي الحرصُ الكافي. في سجن إيلزبيري، عام ١٩٩٨، أُعطِيت مجموعةٌ من المساجين مجموعةً من المُكمِّلات الغذائية، في حين أُعطيت مجموعةٌ أخرى عقارًا وهميًّا. وواصَل أفراد المجموعتَين تناوُل الطعام نفسِه. فظهر على المجموعة التي أُعطيت المُكمِّلات الحقيقية تحسنٌ ملحوظ في السلوك. واستنتج الباحثون أن تحسُّن التغذية هو على الأرجح ما أحدثَ الفارق. قبل جيمي أوليفر بسنوات، كان للنتائج تبِعاتٌ كبيرة على العدالة الجنائية والسلوك بوجهٍ عام، لكن يبدو أن وزارة الداخلية أهملَتها، ورفضت أن تُفسِّر لنا عدم رغبتها في دعم التجرِبة المُكملة، ولم تكفَّ عن عنادها وتُوافق على دراسةٍ جديدة إلا هذا العام.

ومع ذلك، كان لهذه المقارنة وجاهتُها. فقد كان هناك حرصٌ على أن تكون المجموعتان مُتماثلتَين بقدر المُستطاع بحيث يقلُّ إلى أقصى حدٍّ خطرُ وجود اختلاف كامن، وهو ما يُطلَق عليه أحيانًا مُتغيِّر الخلط. فقد قُسِّم المساجين المُختارون على المجموعتَين عشوائيًّا، بدون أن يعرف الباحثون ولا أفراد المجموعتين مَن تلقَّى المُكملات الحقيقية ومن تلقَّى العقار الوهمي إلا في وقتٍ لاحق؛ لمنع تأثير أي توقُّعات ربما كانت لديهم على النتيجة. وهذا هو ما يُعرَف بتجرِبة العلاج الوهمي المُسيطر عليها المزدوجة التعمية. ونظرًا إلى أن التجرِبة جرَت في السجن، فقد كان من الممكن السيطرةُ التامة على ظروفها.

من البداية وُضِع تعريفٌ واضح لكيفية قياس إساءة السلوك، وقد جرى هذا القياس في مستويات مختلفة من الشدَّة. واشترك في التجربة عددٌ معقول من الأشخاص (نحو ٤٠٠ شخص) بحيث يقلُّ احتمال تسبُّب التغيُّرات العرَضية التي قد تطرأ على واحد أو اثنين من المساجين في تغيير النتيجة. وكان الفارق النهائيُّ بين المجموعتَين كبيرًا إلى الحدِّ الذي سمح بدرجةٍ من التيقُّن من ضعف احتمال حدوثه بفعل المصادفة.

هذا هو علمُ الإحصاء بكل دقائقه، حيث تُعامَل الأرقام باحترام. والمفارقة أنه كان من الضروري أن يتم تعقيدُ التجرِبة للتأكُّد من بساطةِ ما يجري قياسه. فقد اضطُرُّوا إلى التوصل إلى طريقة لاستبعاد أي شيء قد يُسبب تغيير السلوك، وإيلاء عناية بالغة لما يمكن للأرقام أن تفعله وما لا يمكن لها، والتحلِّي بإدراكٍ ثاقب لقدرة تقلُّبات الحياة العادية على تغييرِ ما قد يتبيَّن من النتائج، وتحديد السؤال جيدًا؛ وبذلك ربما توصَّل الباحثون إلى نتيجةٍ ذات مَغزًى.

وبينما تغصُّ السجون بنُزلائها، وتَحُوم ظِلال الشك حول استراتيجيات منع معاودة الجُرم حول العالم، غالبًا بسبب الفشل في قياس تأثيرها بعناية، تظلُّ هذه الاستراتيجية مُهمَلة، رغم انخفاض تكلفتها واحتمال إحداثها تحوُّلًا واستنادها لقياسٍ دقيق. أليس ذلك غريبًا بعض الشيء؟ بالطبع لم تزَل هناك احتماليةُ تأثُّر النتائج بعاملِ خلطٍ جامح أو خطأ في القياس، لكن العملية بدَت فيها درجةٌ كافية من المسئولية. وعندما وجدنا هذه النتائج لأول مرة، بعد صدورها بتِسع سنوات، كان الإحجام عن تقفِّي أثر هذه النتائج أو محاولة تَكرار التجربة للتأكُّد من استبعاد المصادفة، أمرًا مُحيرًا. فالأرقام الضعيفة والزائفة يُلقى بها اعتباطًا في مقارناتٍ عِدَّة. أما في هذه التجرِبة، حيث للأرقام دلالةٌ قوية، وجرى استخدامها بمسئولية، فيَتمُّ تجاهلها. التجرِبة الجديدة ستكون رائعة.

•••

وختامًا، للوفاء بعهدنا، إليك إجابة السؤال عن تصنيف بريطانيا دوليًّا. فعند الجمع بين التصنيفات الأكثر جِدِّية، فإن بريطانيا — وفقًا لكريستوفر هود — في الثلث السُّفلي من قائمة دول منظَّمة التعاون والتنمية في الميدان الاقتصادي؛ فترتيبها في الحقيقة هو الحادي عشر من بين ١٣ دولة. لكنَّك الآن لا تكترثُ بهذه المقارنة البيزنطية الآن، ألستَ كذلك؟