الاحتمالات
كونك إحصائيًّا يعني أنك لن تُضطر أبدًا إلى القول بأنك متأكد.
(١) جوهر المصادفة
أحد التعريفات التي قدمت في الفصل الأول حول الإحصاء هو أنه علم التعامل مع عدم اليقين. وبما أنه من الواضح للغاية أن العالم مليء بعدم اليقين، فإن هذا أحد أسباب هيمنة الأفكار والأساليب الإحصائية. إن المستقبل مجهول ولا نستطيع أن نكون واثقين بشأن ما سيحدث. وبالفعل يحدث ما هو غير متوقَّع؛ فتتعطل السيارات ونقع في حوادث ويضرب البرق، وخشية أن أقدم انطباعًا بأن كل الأمور سيئة، أقول إن هناك مَن يفوزون حتى باليانصيب. وفي أبسط الحالات، نحن لا نعلم يقينًا أي حصان سيفوز بالسباق أو أي عدد سوف يَظهَر عند إلقاء نرد. وفوق ذلك كله، لا نستطيع التنبؤ بطول الحياة التي سنعيشها.
لكن على الرغم من كل هذا، يتمثل أحد أعظم الاكتشافات التي توصلت إليها البشرية في أنه يوجد مبادئ معينة تحكم سَيْر المصادفة وعدم اليقين. ربما يبدو هذا تناقضًا في المصطلحات؛ فالأحداث غير اليقينية بطبيعتها لا تنطوي على يقين؛ فكيف إذن توجد قوانين طبيعية تحكم سير هذه الأمور؟
إحدى الإجابات على هذا السؤال هي أنه في حين أن الأحداث الفردية ربما تكون غامضة وغير قابلة للتنبؤ بها، فإنه غالبًا ما يكون من الممكن الخروج بتعميم ينطبق على مجموعة من الأحداث. المثال الكلاسيكي لذلك هو إلقاء العملة؛ فرغم أنني لا أستطيع أن أقول ما إذا كانت العملة ستظهر وجه الصورة أم الكتابة بعد أي عملية إلقاء منفردة، يمكنني أن أقول بثقة كبيرة إنه إذا أُلقيت العملة عدة مرات فإنها ستظهر وجه الصورة في حوالي نصف عدد المرات ووجه الكتابة في حوالي نصف عدد المرات. (أفترض هنا أن العملة «عملة متزنة»، وأنه لا تُستخدم أي خدعة بالأيدي أثناء إلقائها.) وثمة مثال آخر في هذا النطاق هو تحديد ما إذا كان المولود ذكرًا أم أنثى؛ فتحديد الجنس خلال عملية الحمل أمر خاضع للمصادفة البحتة ولا يمكن التنبؤ به. ولكننا نعرف أنه على مدار العديد من حالات الولادة فإن أكثر من نصف عدد المواليد بقليل سيكونون ذكورًا.
تُعَدُّ هذه السمة الطبيعية القابلة للملاحظة مثالًا للقوانين التي تحكم عدم اليقين، ويطلق عليها اسم «قانون الأعداد الكبيرة» بسبب حقيقة أن النسبة تقترب أكثر وأكثر من قيمة معينة (النصف في حالات العملة المتزنة ونوع جنس المواليد) كلما زاد عدد الحالات التي ننظر فيها. لهذا القانون تبعات متعددة، وهو واحد من أقوى الأدوات الإحصائية في ترويض عدم اليقين والسيطرة عليه والسماح لنا بالاستفادة منه. وسنعود إليه لاحقًا في هذا الفصل، وعلى نحو متكرر خلال الكتاب.
(٢) فهم الاحتمالات
لكي نتمكن من مناقشة مسائل عدم اليقين وعدم القدرة على التنبؤ دون غموض، فإن علم الإحصاء يستخدم — مثل أي علم آخَر — لغة دقيقة؛ وهي لغة «الاحتمالات». وإذا كان هذا هو أول تعرُّض لك للغة الاحتمالات، إذن يجب أن أحذرك من أنك سوف تكون بحاجة لبذل بعض الجهد من أجل فهمها، كما هي الحال مع أول تعرض للمرء لأي لغة جديدة. وبوضع ذلك في الاعتبار، ربما تجد في الواقع أن هذا الفصل يتطلب القراءة أكثر من مرة واحدة؛ فربما ترغب في إعادة قراءة هذا الفصل مرة أخرى عندما تصل إلى نهاية الكتاب.
ازدهر تطور لغة الاحتمالات في القرن السابع عشر. وقد أرسى قواعدها علماء الرياضيات أمثال بليز باسكال وبيير دي فيرما وكريستيان هيجنز وجاكوب برنولي، ومن بعدهم بيير سيمون لابلاس وأبراهام دي موافر وسيميون-دنيس بواسون وأنطوان كورنو وجون فين، وغيرهم. وبحلول أوائل القرن العشرين، كانت كل الأفكار اللازمة لعلم احتمالات قوي متوافرة. وفي عام ١٩٣٣، قدَّم عالِم الرياضيات الروسي أندريه كولموجوروف مجموعة من البديهيات التي قدمت «حسابًا» رياضيًّا رسميًّا كاملًّا للاحتمالات. ومنذ ذلك الحين، اعتُمد نظام البديهيات هذا عالميًّا تقريبًا.
توفِّر بديهيات كولموجوروف آليةً يمكن من خلالها التعامل مع الاحتمالات، لكنها بنية رياضية. ولاستخدام هذه البنية لتقديم بيانات حول العالم الحقيقي، من الضروري الإشارة إلى ما تمثِّله الرموز الموجودة في الآلية الرياضية الموجودة في هذا العالم؛ أي إننا بحاجة إلى قول ما «تعنيه» الرياضيات.
يعين حساب الاحتمالات أرقامًا بين ٠ و١ للأحداث غير المؤكدة لتمثيل احتمالية حدوثها. يعني الاحتمال ١ أن هذا الحدث مؤكد (على سبيل المثال، احتمال أنه لو أن أحدهم نظر من نافذة حجرة مكتبي بينما كنتُ أكتب هذا الكتاب، لرآني جالسًا إلى مكتبي). والاحتمال ٠ يعني أن الحدث مستحيل (على سبيل المثال، احتمال أن شخصًا ما سوف ينهي سباق ماراثون في عشر دقائق). وبالنسبة لحدثٍ ما «يمكن» أن يحدث ولكنه ليس مؤكدًا ولا مستحيلًا، فإن رقمًا بين ٠ و١ يمثل «احتمال» حدوثه.
إحدى طرق النظر إلى هذا الرقم هي أنه يمثل «درجة اعتقاد» المرء أن الحدث سوف يحدث. سوف يمتلك الأشخاص المختلفون معلومات أكثر أو أقل متعلقة بكون الحدث سيقع أم لا؛ لذلك ربما يُتوقع أن يمتلك الأشخاص المختلفون درجات مختلفة من الاعتقاد؛ وهذا يعني احتمالات مختلفة لهذا الحدث. ولهذا السبب، تُسمَّى وجهة النظر تلك حيال الاحتمال الاحتمالَ «الذاتي» أو «الشخصي»؛ فهي تعتمد على مَن يقيِّم الاحتمال. ومن الواضح أيضًا أن الاحتمال لدى الشخص ربما يتغير مع توافر المزيد من المعلومات. فربما تبدأ باحتمال — درجة اعتقاد — تبلغ ١ / ٢ أن عملة معينة سوف تستقر ووجه الصورة لأعلى (على أساس تجربتك السابقة مع قذف عملات معدنية أخرى)، ولكن بعد مراقبة استقرار العملة ووجه الصورة لأعلى ١٠٠ مرة متتالية دون استقرارها على وجه الكتابة قط، ربما تصبح متشككًا وتغير احتمالاتك الشخصية بأن تستقر هذه العملة على وجه الصورة لأعلى.
وقد طُورت أدوات لتقدير الاحتمالات الذاتية للأفراد على أساس استراتيجيات المراهنة، ولكن كما هي الحال مع أي إجراء للقياس، ثمة قيود عملية على مدى دقة تقدير الاحتمالات.
تتمثل وجهة نظر مختلفة لاحتمالات وقوع حدثٍ ما في أنها عدد مرات وقوع هذا الحدث إذا تكررت الظروف على نحو متطابق لعدد لا نهائي من المرات. ويُعَدُّ مثال قذف العملة المتزنة السابق توضيحًا لهذا؛ فقد رأينا أنه بينما تقذف العملة، فإن نسبة ظهور الصورة تقترب أكثر وأكثر من قيمة محددة. وتعرَّف هذه القيمة على أنها احتمال استقرار العملة على وجه الصورة لأعلى في أي عملية قذف واحدة. ونظرًا لدور التكرارات، أو عدد المرات، في تحديد هذا التفسير للاحتمالات، فإنه يسمى التفسير «التكراري».
وتمامًا كما هي الحال مع النهج الذاتي، توجد قيود عملية تمنعنا من إيجاد الاحتمالات التكرارية بالضبط؛ فعمليتا قذفٍ لعملةٍ ما لا يمكن أن تمتلكا حقًّا ظروفًا متطابقة تمامًا؛ فسوف تبلى بعض الجزيئات من العملة في الرمية الأولى، وستختلف تيارات الهواء، وسترتفع درجة حرارة العملة قليلًا جراء التَّماسِّ مع الأصابع في المرة الأولى. وعلى أي حال سيكون علينا وقف قذف العملة في وقتٍ ما؛ لذلك لا يمكننا قذفها فعليًّا لعدد لا نهائي من المرات.
هذان التفسيران المختلفان لما تعنيه الاحتمالات لهما خصائص مختلفة. فيمكن استخدام النهج الذاتي لتعيين احتمال معين لحدثٍ فريد من نوعه؛ حدثٍ يكون التفكير في تكراره في ظل ظروف مماثلة لعدد لا نهائي — أو حتى عدد كبير — من المرات لا معنى له؛ على سبيل المثال، ليس هناك معنًى لاقتراح عمل سلسلة لا نهائية من المحاولات المتطابقة لاغتيال الرئيس المقبل للولايات المتحدة، بحيث يؤدي بعضها لنتيجةٍ ما والبعض الآخر لنتيجة أخرى؛ لذلك يبدو من الصعب تطبيق التفسير التكراري على مثل هذا الحدث. من ناحية أخرى، فإن النهج الذاتي ينقل الاحتمالات من كونها خاصية موضوعية للعالم الخارجي (مثل الكتلة أو الطول) إلى كونها خاصية للتفاعل بين الراصد والعالم؛ فالاحتمالات الذاتية تجعل الراصد هو الأساس. قد يشعر البعض أن هذا نقطة ضعف؛ فهذا يعني أن الأشخاص المختلفين يمكنهم استخلاص استنتاجات مختلفة من التحليل نفسه للبيانات نفسها. وقد يعتبره البعض الآخر نقطة قوة؛ إذ إن الاستنتاجات تتأثر بمعرفتك السابقة.
مع ذلك، توجد تفسيرات أخرى للاحتمال؛ فعلى سبيل المثال، يفترض النهج «الكلاسيكي» أن جميع الأحداث تتكون من مجموعة من الأحداث الابتدائية المتساوية الاحتمال؛ فعلى سبيل المثال، رمي النرد قد ينتج الرقم ١ أو ٢ أو ٣ أو ٤ أو ٥ أو ٦، وتماثل النرد يشير إلى تَساوي احتمالية ظهور هذه النتائج الست، وهكذا كل رقم لديه احتمال يبلغ ١ / ٦ (يجب أن يكون مجموعها ١، نظرًا لأنه من «المؤكد» أن واحدًا من الأرقام ١ أو ٢ أو ٣ أو ٤ أو ٥ أو ٦ سوف يظهر). واحتمال الحصول على عدد زوجي — على سبيل المثال — هو مجموع الاحتمالات المتساوية لكل أحداث الحصول على ٢ أو ٤ أو ٦؛ ومن ثَمَّ فهو يساوي ١ / ٢. ومع ذلك، في ظروف أقل اصطناعية، توجد صعوبات في تحديد ماهية هذه الأحداث «المتساوية الاحتمال»؛ على سبيل المثال، إذا كنتُ أريد معرفة احتمال أن تستغرق رحلتِي الصباحية للعمل أقل من ساعة واحدة، فإنه ليس من الواضح على الإطلاق ما ينبغي أن تكون عليه الأحداث الابتدائية المتساوية الاحتمال. لا يوجد تماثُل واضح في هذا الموقف مشابه للتماثل الموجود في حالة النرد. وعلاوة على ذلك، إذا تطلبنا أن تكون الأحداث الابتدائية «متساوية الاحتمال» فسنقع في فخ التعريف الدائري؛ إذ يبدو أننا هكذا نعرِّف الاحتمال باحتمال.
ويجدر التأكيد هنا على أن كل هذه التفسيرات المختلفة للاحتمالات تتوافق مع البديهيات نفسها ويتم معالجتها بالآلية الرياضية نفسها. ما يختلف ببساطة هو طريقة رسم خريطة العالم الحقيقي؛ أي تعريف ما «يعنيه» الكائن الرياضي. أحيانًا أقول إن «الحساب» هو نفسه، ولكن «النظرية» مختلفة. وفي التطبيقات الإحصائية — كما سنرى في الفصل الخامس — يمكن للتفسيرات المختلفة أن تؤدي في بعض الأحيان إلى استخلاص استنتاجات مختلفة.
(٣) قوانين المصادفة
ذكرنا بالفعل قانونًا واحدًا من قوانين الاحتمالات؛ وهو قانون الأعداد الكبيرة. وهذا القانون يربط رياضيات الاحتمالات بالملاحظات التجريبية في العالم الحقيقي. وثمة قوانين أخرى للاحتمالات متضمنة في بديهيات الاحتمالات. وتتضمن بعض هذه القوانين المهمة للغاية مفهوم «الاستقلال».
يقال إن الحدثين مستقلان إذا كان وقوع أحدهما لا يؤثر على احتمالات وقوع الآخر؛ فحقيقة أن العملة التي قذفتُها بيدي اليسرى سوف تستقر ووجه الكتابة لأعلى بدلًا من وجه الصورة لا تؤثر على نتائج قذف العملة بيدي اليمنى، فعمليتا قذف العملة هاتان مستقلتان. وإذا كان احتمال أن العملة الموجودة في يدي اليسرى سوف تستقر ووجه الصورة لأعلى هو ١ / ٢، واحتمال أن العملة في يدي اليمنى سوف تستقر ووجه الصورة لأعلى هو ١ / ٢، فإن احتمال أن كلتا العملتين سوف تقع على وجه الصورة هو ١ / ٢ × ١ / ٢ = ١ / ٤. يسهل إدراك هذا حيث إننا نتوقع أنه في كثير من تكرارات تجربة القذف المزدوج سوف تستقر القطعة النقدية في اليد اليسرى ووجه الصورة لأعلى فيما يقرب من نصف مرات قذفها، وأنه من بين هذه الحالات، سوف تستقر القطعة النقدية في اليد اليمنى ووجه الصورة لأعلى فيما يقرب من نصف مرات قذفها لأن نتائج عملية القذف الأولى لا تؤثر على الثانية. وبوجه عام، فإن حوالي ١ / ٤ عدد مرات القذف المزدوج من شأنه أن ينتج عنه صورة. وبالمثل، فإن حوالي ١ / ٤ عدد المرات سينتج عنه كتابة في عملة اليد اليسرى، وصورة في عملة اليد اليمنى، وحوالي ١ / ٤ عدد المرات سينتج عنه صورة في عملة اليد اليسرى، وكتابة في عملة اليد اليمنى، وحوالي ١ / ٤ عدد المرات سينتج عنه كتابة في كلتا العملتين.
في المقابل، فإن احتمال التعثر والسقوط في الشارع بالتأكيد ليس مستقلًّا عمَّا إذا كان الشارع مغطًّى بالثلوج أم لا؛ فهذان الحدثان «غير مستقلين». رأينا مثالًا آخَر للأحداث غير المستقلة في الفصل الأول؛ في حالة لسالي كلارك المأساوية التي توفي فيها طفلان في الأسرة نفسها. عندما يكون الحدثان غير مستقلين، فإننا لا نستطيع حساب احتمال وقوع كلٍّ منهما ببساطة عن طريق ضرب احتمالَي وقوعهما المنفصلين معًا. وفي الواقع، كان هذا هو الخطأ الذي كان يكمن في جوهر قضية سالي كلارك. لإدراك ذلك، دعنا نأخذ الموقف الأكثر تطرفًا لحدثين غير مستقلين تمامًا؛ وهو عندما «تحدِّد» نتائجُ أحد الحدثين «على نحو تام» نتائجَ الحدث الآخر؛ على سبيل المثال، تأمَّلْ عملية قذف عملة واحدة، والحدثان «وجه الصورة للعملة لأعلى» و«وجه الكتابة للعملة لأسفل». كلٌّ من هذين الحدثين لديه احتمال يبلغ النصف؛ فاحتمال أن العملة سوف تستقر ووجه الصورة لأعلى هو ١ / ٢، واحتمال أن العملة سوف تستقر ووجه الكتابة لأسفل هو ١ / ٢. ولكن من الواضح أنهما ليسا حدثين مستقلين. في الواقع، هما مرتبطان ارتباطًا تامًّا. فعلى أي حال، إذا كان الحدث الأول صحيحًا (الصورة لأعلى) «يجب» أن يكون الثاني صحيحًا (الكتابة لأسفل). ولأنهما مرتبطان ارتباطًا تامًّا، فإن احتمال أن يحدث كلاهما يساوي ببساطة احتمال حدوث الأول؛ وهو احتمال يبلغ النصف. وليس هذا ما نحصل عليه إذا ضربنا الاحتمالين المنفصلين البالغ كلٌّ منهما نصفًا معًا.
بصفة عامة، يعني عدم الاستقلال بين حدثين أن احتمال أن أحدهما سيحدث يعتمد على كون الآخر قد حدث أم لا.
يطلق الإحصائيون على احتمال وقوع حدثين معًا اسم «الاحتمال المشترك» لهذين الحدثين؛ على سبيل المثال، يمكننا أن نتحدث عن الاحتمال المشترك بأنني سوف أنزلق وأن الطريق مغطًّى بالثلوج. والاحتمال المشترك بين حدثين يرتبط ارتباطًا وثيقًا باحتمال أن يقع حدثٌ ما «إذا» وقع حدثٌ آخر. هذا يسمى «الاحتمال الشرطي»؛ أي احتمال أن حدثًا ما سوف يقع نظرًا لوقوع حدث آخر. وهكذا يمكننا أن نتحدث عن الاحتمال الشرطي بأنني سوف أنزلق لأن الطريق مغطًّى بالثلوج.
إن الاحتمال (المشترك) لوقوع كلا الحدثين «أ» و«ب» هو ببساطة احتمال وقوع الحدث «أ» مضروبًا في احتمال وقوع الحدث «ب» (المشروط) نظرًا لوقوع «أ»؛ فالاحتمال (المشترك) أن الثلوج تتساقط وأنني سأنزلق هو احتمال أن الثلوج تتساقط مضروبًا في الاحتمال (المشروط) أنني سأنزلق إذا كانت الثلوج قد تساقطت.
وللتوضيح، تأمَّلْ رمية واحدة لحجر نرد وحدثين. الحدث «أ» هو أن الرقم الظاهر يقبل القسمة على ٢، والحدث «ب» هو أن الرقم الظاهر يقبل القسمة على ٣. الاحتمال المشترك لهذين الحدثين «أ» و«ب» هو احتمال أن نحصل على عدد يقبل القسمة على ٢ و٣، وهذا الاحتمال يبلغ ١ / ٦ فقط؛ إذ إن واحدًا فقط من الأرقام ١، ٢، ٣، ٤، ٥، ٦ يقبل القسمة على كل من ٢ و٣. والاحتمال المشروط للحدث «ب» نظرًا لوقوع «أ» هو احتمال الحصول على رقم يقبل القسمة على ٣ من بين الأرقام التي تقبل القسمة على ٢. حسنًا، من بين جميع الأرقام التي تقبل القسمة على ٢ (وهذا يعني، من بين ٢، ٤، ٦) رقم واحد فقط يقبل القسمة على ٣، لذلك يبلغ هذا الاحتمال الشرطي ١ / ٣. وأخيرًا، فإن احتمال الحدث «أ» هو ١ / ٢ (نصف الأرقام ١، ٢، ٣، ٤، ٥، ٦ يقبل القسمة على ٢). ومن ثَمَّ نجد أن احتمال «أ» (١ / ٢) مضروبًا في الاحتمال (الشرطي) للحدث «ب» نظرًا لوقوع «أ» (١ / ٣) هو ١ / ٦. وهو يبلغ نفس قيمة الاحتمال المشترك بالحصول على عدد يقبل القسمة على كل من ٢ و٣؛ أي الاحتمال المشترك لوقوع الحدثين «أ» و«ب».
في الواقع، الْتَقَيْنا سابقًا مفهوم الاحتمال الشرطي في الفصل الأول، في صورة مغالطة المدعي. وأشار هذا إلى أن احتمال وقوع الحدث «أ» نظرًا إلى حدوث «ب» ليس هو الاحتمال نفسه بوقوع الحدث «ب» نظرًا لوقوع «أ»؛ على سبيل المثال، احتمال أن شخصًا ما يُدِير شركة كبرى يستطيع قيادة سيارة ليس هو الاحتمال نفسه بأن الشخص الذي يستطيع قيادة سيارة يدير شركة كبرى. وهذا يقودنا إلى قانون آخَر مهمٍّ للغاية من قوانين الاحتمالات؛ وهو «مبرهنة بايز» (أو «قاعدة بايز»). تساعدنا مبرهنة بايز في ربط هذين الاحتمالين الشرطيين؛ الاحتمال الشرطي للحدث «أ» نظرًا لوقوع «ب»، والاحتمال الشرطي للحدث «ب» نظرًا لوقوع «أ».
رأينا للتوِّ أن احتمال وقوع كلا الحدثين «أ» و«ب» يساوي احتمال أن «أ» سيَقَع مضروبًا في الاحتمال (المشروط) بأن «ب» سيقع نظرًا لوقوع «أ». ولكن يمكن أيضًا كتابة هذا على نحو معكوس؛ احتمال أن كلا الحدثين «أ» و«ب» سوف يقعان يساوي أيضًا احتمال أن «ب» سيقع مضروبًا في احتمال أن «أ» سيقع نظرًا لوقوع «ب». وتنص نظرية بايز (على الرغم من أنه عادة ما يُعبر عن ذلك على نحو مختلف) على أن هاتين الطريقتين ببساطة طريقتان بديلتان لكتابة الاحتمال المشترك للحدثين «أ» و«ب»؛ أي إن احتمال «أ» مضروبًا في احتمال «ب» نظرًا لوقوع الحدث «أ» يساوي احتمال «ب» مضروبًا في احتمال «أ» نظرًا لوقوع الحدث «ب». وكلاهما يساوي الاحتمال المشترك بين «أ» و«ب». في مثال «رئيس الشركة الذي يقود سيارة»، تكافئ نظرية بايز قول إن احتمال إدارتك لشركة كبرى نظرًا إلى أنك تستطيع قيادة سيارة، مضروبًا في احتمال أن تتمكن من قيادة سيارة، يساوي احتمال أنك تستطيع قيادة سيارة نظرًا إلى أنك رئيس شركة، مضروبًا في احتمال كونك رئيس شركة. وكلاهما يساوي الاحتمال المشترك لكونك رئيس شركة وقادرًا على قيادة سيارة.
ينص قانون آخر للاحتمالات على أنه إذا كان يمكن وقوع أحد الحدثين، ولكن لا يمكن أن يقع كلاهما معًا، فإن احتمال أن أحدهما سيقع هو مجموع الاحتمالين المنفصلين لوقوع كلٍّ منهما. إذا قذفتَ عملة — ومن المؤكد أنها لا يمكن أن تظهر وجه الكتابة والصورة في الوقت ذاته — فإن احتمال ظهور وجه الصورة «أو» وجه الكتابة هو مجموع احتمال أن وجه الصورة سوف يظهر واحتمال أن وجه الكتابة سوف يظهر. إذا كانت العملة متزنة، فإن كلا هذين الاحتمالين المنفصلين هو النصف، وهكذا فإن الاحتمال الكلي لظهور وجه الصورة ووجه الكتابة هو ١. هذا الأمر يبدو معقولًا تمامًا؛ إذ يتوافق الرقم ١ مع اليقين، ومن المؤكد أنه يجب أن يَظهَر وجه الصورة أو وجه الكتابة (أفترض أنه لا يمكن أن ينتهي الأمر بوقوف العملة على حافتها!) وبالعودة إلى مثال رمي النرد: كان احتمال الحصول على عدد زوجي هو مجموع احتمالات الحصول على أيٍّ من الأرقام ٢ أو ٤ أو ٦؛ لأنه لا يمكن أن يقع أي من هذه الأحداث معًا (ولا توجد أي طرق أخرى للحصول على عدد زوجي برمية واحدة للنرد).
(٤) المتغيرات العشوائية وتوزيعاتها
رأينا في الفصل الثاني كيف يمكن استخدام الملخصات الإحصائية البسيطة لاستخراج المعلومات من مجموعة كبيرة من قِيَم متغيِّرٍ ما، بحيث تكثف المجموعة ليكون توزيع القِيَم سهلَ الفهم. إن أي مجموعة بيانات حقيقية تكون محدودة في الحجم؛ فلا يمكن أن تحتوي إلا على عدد محدود من القِيَم. هذه المجموعة المحدودة قد تمثل قيم كافة الأشياء من النوع الذي نُخضعه للدراسة (مثل درجات جميع لاعبي دوري كرة القدم في سنة معينة) أو قد تمثل قيم بعض الأشياء فحسب؛ أيْ إنها «عينة». ورأينا أمثلة على هذا عندما تناولنا مسح العينات.
العينة هي مجموعة فرعية من «مجموعة القيم» الكاملة الخاضعة للدراسة. في بعض الحالات، تكون المجموعة الكاملة غيرَ واضحة التعريف، وربما تكون ضخمة أو حتى لا نهائية؛ لذلك لا يكون لدينا خيار اللجوء إلى عينة؛ على سبيل المثال، في تجارب قياس سرعة الضوء، في كل مرة آخذ فيها القياس أتوقع الحصول على قيمة مختلفة قليلًا؛ وذلك ببساطة بسبب عدم الدقة في عملية القياس. ويمكنني — على الأقل من حيث المبدأ — المضي قدمًا في أخذ القياسات إلى الأبد؛ وهذا يعني أن مجموعة القياسات المحتملة الكاملة لا نهائية. وبما أن هذا أمر مستحيل، يجب أن أرضى بعينة محدودة من القياسات. وسوف تُستخرَج هذه القياسات من المجموعة الكاملة للقيم التي يحتمل أن أحصل عليها. وفي حالات أخرى، تكون المجموعة الكاملة محدودة؛ على سبيل المثال، في دراسة للسِّمْنة بين الذكور في بلدة معينة، تكون مجموعة الخاضعين للدراسة محدودة، ورغم أنني من حيث المبدأ أستطيع وزن كل واحد منهم في المدينة، ففي الممارسة العملية ربما لن أريد ذلك، وسوف أستخدم عينة. ومرة أخرى، كل قيمة في عينتي مأخوذة من المجموعة الكاملة للقيم الممكنة.
في كلٍّ من هذه الأمثلة، كل ما أعرفه قبل أن آخذ كل قياس هو أنه سيكون له قيمةٌ ما من مجموعة القيم الكاملة الممكنة. ستحدث كل قيمة باحتمال معين، ولكني لا أستطيع أن أحدده أكثر من ذلك، وربما لا أعرف ما هو هذا الاحتمال. وبالتأكيد لا أستطيع أن أحدد بالضبط القيمة التي سوف أحصل عليها في القياس التالي لسرعة الضوء أو ماذا سيكون وزن الرجل التالي الذي سأقيسه. وبالمثل، في رمي النرد، أعلم أن النتيجة يمكن أن تكون ١ أو ٢ أو ٣ أو ٤ أو ٥ أو ٦، وهنا أعرف أن هذه الاحتمالات متساوية (فنردي مكعب مثالي)، ولكن بخلاف ذلك لا أستطيع أن أحدد العدد الذي سيَظهَر. وعلى غرار قياسات السرعة والوزن، فإن النتيجة عشوائية؛ ولهذا السبب تُسمَّى هذه المتغيرات «متغيرات عشوائية».
يوجد اسم لمجموعة مُؤَيَّات التوزيع الكاملة؛ إذ يطلق عليها اسم «توزيع الاحتمال التراكمي»، وهو «توزيع احتمال» لأنه يخبرنا «باحتمال» الحصول على قيمة أقل من أي قيمة نختارها، وهو «تراكمي» لأنه من الواضح أن احتمال الحصول على قيمة أقل من القيمة «س» يزداد كلما زادت «س». في مثال أوزان الذكور، لو كنتُ أعرف أن احتمال اختيار رجل وزنه أقل من ٧٠ كيلوجرامًا هو ١ / ٢، فإنني حينها سأعلم أن احتمال اختيار رجل وزنه أقل من ٨٠ كيلوجرامًا هو أكثر من ١ / ٢ لأنه يمكنني أن أختار من بين كل أولئك الذين يقلُّ وزنهم عن ٧٠ كيلوجرامًا، وكذلك أولئك الذين يكون وزنهم بين ٧٠ كيلوجرامًا و٨٠ كيلوجرامًا. وعند الحد الأقصى، فإن احتمال الحصول على قيمة أقل من أو تساوي أكبر قيمة في مجموعة القيم الكاملة هو ١؛ أي إنه حدث مؤكد.
تمتلك منحنيات التوزيع للمتغيرات العشوائية أشكالًا مختلفة؛ فاحتمال أن امرأة مختارة عشوائيًّا سوف يكون وزنها بين ٧٠ كيلوجرامًا و٨٠ كيلوجرامًا عادة لا يكون هو نفسه احتمال أن رجلًا مختارًا عشوائيًّا سيكون وزنه بين هاتين القيمتين. وربما نتوقَّع أن منحنى توزيع أوزان النساء سيأخذ قِيَمًا كبيرة في الأوزان الأصغر مما هي الحال بالنسبة لمنحنى الرجال.
تمتلك بعض الأشكال أهمية خاصة، وتوجد أسباب عديدة لذلك؛ ففي بعض الحالات، تظهر أشكال معينة، أو أشكال مقاربة للغاية لهذه الأشكال، على نحو طبيعي. بينما في حالات أخرى، تنشأ التوزيعات كنتائج لقوانين الاحتمالات.
يوسع «التوزيع ذو الحدين» توزيع برنولي؛ فإذا قذفنا عملة ثلاث مرات، ربما يظهر وجه الصورة مرة أو مرتين أو ثلاث مرات أو لا يظهر أبدًا. وإذا كان لدينا ثلاثة موظفين في مركز اتصالات يجيبون على نحو مستقلٍّ على المكالمات عندما تَرِدُ، فإنه من الممكن أن يكون واحد أو اثنان أو الثلاثة مشغولين أو لا يكون أحدهم مشغولًا في أي لحظة معينة. يخبرنا التوزيع ذو الحدين باحتمال حصولنا على كل رقم من هذه الأرقام ٠، أو ١، أو ٢، أو ٣. وبطبيعة الحال، فإنه يطبق على نحو عام، وليس فقط على المجموع الكلي لثلاثة أحداث. فإذا قذفنا عملة مائة مرة، فإن التوزيع ذا الحدَّيْن يخبرنا أيضًا باحتمالات أننا سنحصل على كلٍّ من ٠، ١، ٢، …، ١٠٠ وجه صورة.
تصل رسائل البريد الإلكتروني إلى جهاز الكمبيوتر الخاص بي عشوائيًّا. وتصل خلال العمل الصباحي — في المتوسط — (مثلًا) بمعدل خمس رسائل في الساعة، ولكن عدد الرسائل التي تصل في كل ساعة يمكن أن ينحرف عن هذا المعدل على نحو كبير جدًّا؛ إذ يصل في بعض الأحيان عشر رسائل، وفي أحيان أخرى لا تصل أي رسالة. يمكن استخدام «توزيع بواسون» لوصف التوزيع الاحتمالي لعدد رسائل البريد الإلكتروني التي تصل في كل ساعة. ويمكن أن يخبرنا باحتمال (إذا كانت رسائل البريد الإلكتروني تصل على نحو مستقل وكان المعدل العام لوصولها ثابتًا) عدم وصول أي رسالة، أو وصول رسالة واحدة، أو رسالتين، وما إلى ذلك. وهذا التوزيع يختلف عن التوزيع ذي الحدين؛ لأنه على الأقل من حيث المبدأ لا يوجد حد أعلى للعدد الذي يمكن أن يصل في أي ساعة. ففي حالة قذف العملة مائة مرة، لا يمكننا رؤية أكثر من ١٠٠ وجه صورة، ولكن يمكن أن يصلني (في يوم سيئ للغاية!) أكثر من ١٠٠ رسالة بريد إلكتروني في ساعة واحدة.
حتى الآن، كل التوزيعات الاحتمالية التي ذكرتُها هي لمتغيرات عشوائية «منفصلة» (أو متقطعة)؛ أي إن المتغيرات العشوائية لا تأخذ سوى قيمٍ معينة (قيمتين في حالة توزيع برنولي، عدد من القيم يعتمد على عدد مرات قذف العملة/عدد المشغلين في حالة التوزيع ذي الحدين، والأعداد الصحيحة ٠، ١، ٢، ٣، … في حالة توزيع بواسون). ثمة متغيرات عشوائية أخرى «متصلة» (أو مستمرة)، ويمكن أن تأخذ أي قيمة من النطاق؛ فعلى سبيل المثال، الطول يمكن أن يأخذ أي قيمة داخل نطاق معين (رهنًا بدقة أداة القياس)، ولا يقتصر، مثلًا، على ٤ أو ٥ أو ٦ أقدام.
إذا كان المتغير العشوائي يمكن أن يأخذ قيمًا ضمن فترة محدودة فقط (على سبيل المثال بين ٠ و١) وإذا كان «من المحتمل على نحو متساوٍ» أن يأخذ أي قيمة من القيم في تلك الفترة، يقال إنه يتبع «توزيعًا منتظمًا»؛ على سبيل المثال، إذا كان ساعي البريد يصل دائمًا في الفترة من ١٠ صباحًا حتى ١١ صباحًا، ولكن بطريقة لا يمكن التنبؤ بها تمامًا (فمن المحتمل أن يصل في الفترة بين ٠٥ : ١٠ حتى ١٠ : ١٠ بالقدر نفسه لاحتمال وصوله في أي فترة خمس دقائق أخرى على سبيل المثال)، فإن توزيع وقت وصوله خلال هذه الفترة يكون منتظمًا.
يظهر التوزيع الطبيعي أيضًا في كثير من الأحيان بمَظهَر النموذج الجيد لشكل توزيع إحصائيات العينة (مثل الملخصات الإحصائية المذكورة في الفصل الثاني) عندما تنطوي على عينات كبيرة. على سبيل المثال، لنفترض أننا أخذنا على نحو متكرر عينات عشوائية من توزيعٍ ما، وحسبنا متوسط كل عينة من هذه العينات. بما أن كل عينة مختلفة، فإننا نتوقع أن يكون كل متوسط مختلفًا؛ أي سيكون لدينا توزيع للمتوسطات. وإذا كانت كل عينة كبيرة بما فيه الكفاية، فسيتضح أن هذا التوزيع للمتوسطات هو توزيع طبيعي تقريبًا.
أشرتُ في الفصل الثاني إلى أن الإحصاء ليس مجرد مجموعة من الأدوات المعزولة، ولكنه لغة متصلة. وتنطبق نقطة مماثلة على التوزيعات الاحتمالية. فعلى الرغم من أنني ذكرتُها كلًّا على حِدَة آنِفًا، فإن الحقيقة هي أن توزيع برنولي يمكن اعتباره حالة خاصة من التوزيع ذي الحدَّيْن (فهو توزيع ذو حدَّيْن عندما لا يوجد سوى نتيجتين محتملتين فحسب). وبالمثل، على الرغم من أن العمليات الرياضية التي تُظهِر هذا تتخطَّى حجم هذا الكتاب، فإن توزيع بواسون يمثِّل حالة متطرِّفة من التوزيع ذي الحدَّيْن، ويشكِّل توزيع بواسون والتوزيع الأُسِّي زوجًا طبيعيًّا، ويصبح التوزيع ذو الحدين أكثر وأكثر شبهًا بالتوزيع الطبيعي كلما زاد الحد الأقصى لعدد الأحداث، وهكذا. وهذه التوزيعات في حقيقتها جزء من وحدة رياضية كاملة متكاملة.
رأينا في مثال سابق أن التوزيع الأسي كان نموذجًا معقولًا «لعمر» المزهريات الزجاجية (تحت ظروف معينة)، والآن يمكننا أن نتصور أن لدينا مجموعتَين من هذه المزهريات؛ مجموعة تتكون من مزهريات صلبة مصنوعة من زجاج سميك للغاية، ومجموعة ثانية تتكون من مزهريات هَشَّة مصنوعة من زجاج رقيق للغاية. من الواضح أنه في المتوسط، مزهريات المجموعة الأولى من المرجح أن تعيش لفترة أطول من مزهريات المجموعة الثانية. كل مجموعة من المجموعتَين لها معلمة مختلفة.
يمكننا تحديد المعلمات الخاصة بالتوزيعات الأخرى على نحو مشابِهٍ؛ فنتصور حساب ملخصات إحصائية لعينات بحجم لا نهائي مستمدة من التوزيعات؛ على سبيل المثال، يمكننا أن نتصور حساب متوسطات عينات كبيرة لا نهائية مستمدة من أعضاء الأسرة العادية للتوزيعات. إلا أن الأمور أكثر تعقيدًا قليلًا هنا؛ لأن أعضاء هذه الأسرة من التوزيعات لا تتحدَّد على نحو فريد بواسطة معلمة واحدة؛ فهي تتطلب معلمتين. في الواقع، المتوسط والانحراف المعياري للتوزيعات سيكونان كافيَيْنِ؛ إذ سيعملان معًا على تحديد أي أعضاء العائلة نتحدث عنه على نحو فريد.
إليك مثالًا آخَر. في علم الفلك، تكون الأجرام السماوية البعيدة خافتة جدًّا، وتكون المشاهدات معقَّدة بسبب التقلبات العشوائية في الإشارات. ومع ذلك، إذا أخذنا العديد من الصور للجرم نفسه وراكَبْناها بعضها فوق بعض، فإن الأمر يُشبِه حساب متوسط العديد من القياسات للشيء نفسه، وكل قياس مستمد من التوزيع نفسه ولكن بوجود مكوِّن عشوائي إضافي. وباستخدام قوانين الاحتمالات المذكورة سابقًا يتم التخلص من العشوائية، وتبقى رؤية واضحة للإشارة الأساسية؛ أي الجرم السماوي.