الحوسبة الإحصائية
السحر الحقيقي يأتي من فريق التحليل الإحصائي لدينا.
(١) الإحصاء يغير تركيزه
رأينا في المناقشات السابقة كيف أن الإفراط في المطابقة يمكن أن يمثل مشكلة، لكننا لم نتطرق أيضًا إلى الحل؛ إذ إننا ببساطة أشرنا إلى أنه كان من الضروري اختيار نماذج ليست معقدة للغاية ولا بسيطة للغاية. وبدون امتلاك خبرة كبيرة في مجال النمذجة الإحصائية، ليست هذه نصيحة مفيدة جدًّا، وتوجد حاجة إلى مزيد من الطرق الموضوعية. وتستند إحدى هذه الطرق إلى مبدأ «التحقُّق المتبادل».
كما رأينا أنه — بصفة عامة — بينما يزداد تعقيد النموذج، تواصِل جودةُ مطابقته مع البيانات المتاحة التحسنَ، إلَّا أن جودة مطابقته مع عينات أخرى مستمَدَّة من التوزيع نفسه (أو «أدائه خارج العينة») تتحسن عادة في البداية، ولكنْ بعد ذلك تبدأ في التدهور. هنا تكون «العينات الأخرى» تمثيلًا للبيانات الجديدة، وهي ما نحن مهتمون به حقًّا. والنقطة التي يكون فيها النموذج مطابقًا على نحو أفضل مع بيانات «عينة أخرى» يبدو أن من شأنها أن تمنحنا نموذجًا ذا مستوًى مناسب من التعقيد. وهذا هو مفتاح الحل؛ فيجب علينا تقدير معلمات النموذج باستخدام عينة واحدة، وتقييم أدائه باستخدام عينة أخرى.
للأسف، عادةً ما نمتلك عينة واحدة فقط. وإحدى طرق مواجهة ذلك تتمثل في تقسيم هذه العينة (عشوائيًّا) إلى عينتين فرعيتين. وتستخدم عينة فرعية واحدة (تُسمَّى «عينة التدريب» أو «عينة التصميم») لتقدير المعلمة، وتستخدم الأخرى (تُسمَّى «عينة التحقق») لتقييم الأداء واختيار النموذج. وهذا هو أسلوب التحقق المتبادل. وفي العادة، لتخفيف أي مشاكل ناجمة عن كون العينة الفرعية المستخدمة لتقدير المعلمات ليست هي مجمل العينة الأصلية، يُكرر هذا الإجراء عدة مرات؛ يعني هذا أن العينة الأصلية تُقسَّم عشوائيًّا إلى عينتين، وتُقدَّر المعلمات باستخدام عينة فرعية واحدة، ويُقيَّم النموذج باستخدام الأخرى. ويُكرَّر هذا بتقسيمات عشوائية مختلفة للعينة. وأخيرًا، يُحسب متوسط نتائج تقييم كل التقسيمات، لكي يَنتُج قياسٌ عامٌّ للأداء المستقبلي المرجح.
يُعَدُّ التحقق المتبادَل مثالًا على نهج «مكثَّف حاسوبيًّا»؛ وسُمِّي هكذا للسبب الواضح المتمثل في ضرورة بناء نماذج متعددة. وتوجد فئة أخرى مهمة من هذه الأساليب هي «تقنية إعادة المعاينة»، ولهذه الطريقة مجموعة متنوعة من الاستخدامات، ولكنَّ أحد استخداماتها المهمة يتمثل في تقدير عدم اليقين المرتبط بالنماذج المعقدة؛ أي تحديد مدى الاختلاف الذي يمكننا أن نتوقع أن يصبح عليه النموذج إذا كنَّا قد أخذنا عينة بيانات مختلفة. وتعمل طرق إعادة المعاينة من خلال أخذ عينات فرعية عشوائية بحجم العينة الأصلية نفسها من العينة الأصلية (وهو ما يعني أن بعض نقاط البيانات ستستخدم أكثر من مرة). ويبنى نموذج جديد، بالشكل نفسه للنموذج الذي يجري تقييمه، لكل عينة من هذه العينات الفرعية. يبدو الأمر كما لو كان لدينا عينات متعددة، وكلها بالحجم نفسه، من التوزيع الأصلي، وتُنتج كلٌّ منها نموذجًا مُقدَّرًا. ويمكن بعد ذلك استخدام مجموعة النماذج تلك لمعرفة كيف كان يمكن أن يختلف هذا النموذج إذا كنَّا قد أخذنا عينة مختلفة.
أحد أقوى الأمثلة التوضيحية للكيفية التي غيَّرت بها قوة الكمبيوتر علم الإحصاء الحديث، يَظهر في تأثير الأساليب الكثيفة حاسوبيًّا على طرق الاستدلال البايزية المذكورة في الفصل الخامس. فمن أجْل استخدام الطرق البايزية عمليًّا، من الضروري حساب دوالِّ التوزيع المعقدة (بمصطلحات رياضية، توجد حاجة إلى تكامل عالي الأبعاد). وقد ساعدت أجهزة الكمبيوتر على تجنب هذه المشكلة؛ فبدلًا من تقييم التوزيعات رياضيًّا، يأخذ جهاز الكمبيوتر أعدادًا كبيرة من العينات العشوائية منها. ويمكن تقدير خصائص التوزيعات من هذه العينات العشوائية، بالطريقة نفسها لاستخدامنا لمتوسط العينة لتقدير متوسط المجموعة الخاضعة للدراسة بأكملها. وأحدثت طريقة «مونت كارلو المستندة إلى سلسلة ماركوف» ثورة في ممارسة الإحصاء البايزية؛ إذ حوَّلتْها جوهريًّا من مجموعة من الأفكار الجذَّابة من الناحية النظرية، ولكنها قاصرة على النحو العملي إلى تقنية قوية لتحليل البيانات.
وبما أن الإحصاء يُستخدَم على مستوًى عالمي، ولأن الكمبيوتر يلعب مثل هذا الدور المحوري، فإنه ليس من المستغرَب أن تُطوَّر حزم برامج إحصائية سهلة الاستعمال. ويُعَدُّ بعض منها مهمًّا لدرجة أنها أصبحتْ معايير في مجالات تطبيق معينة. ولكن هذا لا ينبغي أن يُنسِينا أن التطبيق الفعَّال للأدوات الإحصائية يتطلب تفكيرًا متأنِّيًا؛ ففي الواقع، في الأيام الأولى لتطوير البرمجيات الإحصائية، خَشِيَ البعض من أنَّ توافُر مثل هذه الأدوات من شأنه أن يزيل الحاجة للإحصائيين؛ حيث إنه «يمكن لأي شخص أن يقوم بالتحليل الإحصائي؛ فكل ما عليه القيام به هو إعطاء التعليمات المناسبة للكمبيوتر.» مع ذلك، ثبت أن العكس تمامًا هو الصحيح؛ وهناك مزيد من الطلب على الإحصائيين بمرور الوقت. وتوجد عدة أسباب لذلك.
أحد الأسباب هو أن البيانات تُسجَّل تلقائيًّا على نحو متزايد؛ ففي الحياة اليومية، في كل مرة تقوم فيها بإجراء عملية شراء ببطاقة الائتمان أو تتسوق في متجر، تُخزَّن تفاصيل العملية تلقائيًّا؛ وفي العلوم الطبيعية، تسجِّل الأدوات الرقمية الخواص الفيزيائية والكيميائية دون الحاجة إلى تدخل بشري؛ وفي المستشفيات، تراقب الأجهزة الإلكترونية المرضى تلقائيًّا؛ وما إلى ذلك. إننا نواجه سيلًا من البيانات. وهذا يمثل فرصة هائلة، ولكنْ يلزم وجود مهارات إحصائية للاستفادة منها.
السبب الثاني هو ظهور نطاقات جديدة تتطلب مهارات إحصائية؛ فالمعلوماتية الحيوية وعلم الجينوم يفككان التعقيد المُذهِل للجسم البشري من خلال البيانات التجريبية والرصدية، ويقومان على الاستدلال الإحصائي. وقد وُصف قطاع صناديق التحوط بأنه «قطاع مبني على الإحصاء»، وهو يستخدم الأدوات الإحصائية لوضع نماذج لسلوك الأسهم ومؤشرات الأسعار الأخرى.
السبب الثالث هو أن إعطاء الأوامر لجهاز كمبيوتر شيء، ومعرفة الأوامر التي ينبغي إعطاؤها وفهم النتائج شيء آخر تمامًا؛ فمِن المؤكَّد أن الأمر ليس مجرد مسألة اختيار الأداة المناسبة للوظيفة وترك الكمبيوتر يقوم ببقية العمل، بل الأمر يتطلب خبرة إحصائية وفهمًا. وبالنسبة للهُواة، من المهم أن يعرف المرء حدوده، ومتى يجب عليه طلب النصيحة من خبير إحصائي. وللأسف، تعرض وسائل الأعلام كل أسبوع أناسًا يتطرَّقون لأمور أكبر من فهمهم الإحصائي.
ولهذه الأسباب وأكثر، يشهد علم الإحصاء عصرًا ذهبيًّا.
وصلنا الآن إلى نهاية هذا الكتاب الموجَز. لقد رأَيْنا قدْرًا من التوسع غير العادي الذي يتسم به الإحصاء؛ إذ إنه يُطبَّق في معظم مناحي الحياة. ورأينا شيئًا من طُرُقه؛ الأدوات والمقاييس المتطورة التي يستخدمها. كما رأينا أيضًا أنه مجال ديناميكي، لا يَزَال ينمو ويتطور. ومع ذلك، قبل كل شيء، أرجو أن أكون قد أوضحتُ أن علم الإحصاء الحديث، المستنِد إلى الأسس الفلسفية العميقة، هو فن الاكتشاف؛ فعلم الإحصاء الحديث يمكننا من استخلاص أسرار الكون من حولنا؛ أي إنه يمكننا من الفهم.