الفصل الثاني

تعريفات بسيطة

البيانات أدلة الطبيعة.

مقدمة

أهدف في هذا الفصل إلى تقديم بعض المفاهيم والأدوات الأساسية التي تشكل أساس علم الإحصاء، والتي تمكِّنه من لعب أدوار كثيرة.

أشرتُ في الفصل الأول إلى أنَّ علم الإحصاء الحديث عانَى من كثير من المفاهيم الخاطئة وسوء الفهم. ومع ذلك، يروَّج سوء فهم آخَر في كثير من الأحيان (ربما عن غير قصد) عن طريق الكتب التي تشرح الأساليب الإحصائية للخبراء في تخصصات أخرى؛ وهو أن الإحصاء عبارة عن حقيبة من الأدوات، ويتمثل دور الإحصائي أو مستخدِم الإحصاء في اختيار أداة واحدة تتناسب مع مسألته، ثم تطبيقها.

تتمثل مشكلة هذه النظرة للإحصاء في أنها تعطي انطباعًا بأن مجال الإحصاء ببساطةٍ عبارة عن مجموعة من الطرق المنفصلة لمعالجة الأرقام؛ فهي تفشل في نقل حقيقة أن الإحصاءَ كلٌّ متصلٌ، مبني على مبادئ فلسفية عميقة، بحيث تكون أدوات تحليل البيانات مرتبطة ومتصلة؛ فبعضها قد يبدو شاملًا مقارنة بغيره، وربما يبدو البعض الآخر مختلفًا ببساطة لأنه يتعامل مع أنواع مختلفة من البيانات، على الرغم من أن هذه الأدوات تبحث عن النوع نفسه من البِنَى، وما إلى ذلك. وأظن أن انطباع مجموعة الطرق المعزولة هذا ربما يكون سببًا آخر يدفع المستجدِّين في مجال الإحصاء إلى الاعتقاد بأن هذا المجال مملٌّ نوعًا ما وصعب التعلم (بصرف النظر عن أي خوف من الأرقام قد يكون لديهم)؛ فتعلم مجموعة من الطرق المنفصلة التي تبدو شديدة التباين أصعب بكثير من تعلم هذه الطرق من خلال اشتقاقها من المبادئ الأساسية نفسها. الأمر يشبه في صعوبته تعلُّم مجموعة عشوائية من الكلمات غير المرتبطة، مقارنة بتعلم كلماتِ جملةٍ ذات معنًى. ولقد سعيتُ — في هذا الفصل وعلى مدار الكتاب — للتعبير عن العلاقات بين الأفكار الإحصائية، من أجل إيضاح أن مجال الإحصاء في الحقيقة وحدة متكاملة مترابطة.

(١) البيانات مرة أخرى

أيًّا كان ما يفعله علم الإحصاء، وبغضِّ النظر عن تفاصيل التعريف الذي نعتمده له، فإن علم الإحصاء يبدأ بالبيانات. تصف البيانات الكون الذي نرغب في دراسته، وأستخدم كلمة «الكون» هنا بمعنًى عام واسع؛ فيمكن أن يكون العالَم المادي الذي يدور حولنا، ويمكن أيضًا أن يكون عالَم معاملات بطاقات الائتمان، أو عالم تجارب المصفوفات الدقيقة في علم الوراثة، أو عالم المدارس والتدريس وأداء الامتحانات، أو عالم التجارة بين البلدان، أو عالم كيفية تصرف الأشخاص عند التعرض للإعلانات المختلفة، أو عالم الجسيمات دون الذرية، وما شابه ذلك. لا توجد نهاية للعوالم التي يمكن دراستها؛ ومن ثم لا نهاية للعوالم التي تمثلها البيانات.

بطبيعة الحال، لا يمكن لمجموعة محدودة من البيانات أن تُخبِرنا عن كل التعقيدات اللانهائية للعالَم الحقيقي، تمامًا كما لا يوجد وصفٌ لفظي — حتى إنْ كَتَبَه أفصح المؤلِّفين — يمكن أن ينقل كل شيء عن كل جانب من جوانب العالم من حولنا؛ وهذا يعني أننا يجب أن نكون واعِين للغاية بأي مَوَاطن ضعف أو ثغرات في البيانات لدينا، ويعني أنه عند جمع البيانات، نكون بحاجة لإيلاء عناية خاصة للتأكد من أنها تغطِّي بالفعل الجوانب التي نهتم بها، أو التي نرغب في استخلاص نتائج حولها. توجد أيضًا طريقة أكثر إيجابية للنظر إلى هذا الأمر؛ وهي أنه عن طريق جمع مجموعة محدودة من الجوانب الوصفية فحسب، فإننا نُضطر لإقصاء العناصر غير ذات الصلة؛ فعند دراسة سلامة تصميمات السيارات المختلفة، ربما نقرر عدم تسجيل لون القماش الذي يكسو المقاعد.

من الملائم عمومًا النظر للبيانات على أن لها جانبَيْن؛ يتعلَّق أحدهما بالكائنات التي نرغب في دراستها، ويتعلق الجانب الآخر بخصائص هذه الكائنات التي نرغب في دراستها؛ على سبيل المثال، ربما تتمثل هذه الكائنات في أطفال المدرسة وتتمثل خصائصهم في درجاتهم في الاختبار، أو ربما تتمثل الكائنات في الأطفال، ولكننا ندرس نظامهم الغذائي ونموَّهم البدني، وفي هذه الحالة ربما تتمثل الخصائص في طول الأطفال ووزنهم، أو ربما تكون هذه الكائنات موادَّ مادية، أما الخصائص ذات الأهمية فهي سماتها الكهربائية والمغناطيسية. من الشائع في مجال الإحصاء تسمية هذه الخصائص «متغيرات»، بحيث يمتلك كل كائن منها «قيمة» للمتغير (درجة الطفل في اختبار الإملاء تمثل قيمة متغير الاختبار، وكمية التوصيل الكهربي للمادة تمثل قيمة متغير القدرة على توصيل التيار، وما إلى ذلك). وفي مجالات تحليل البيانات الأخرى، تُستَخدَم كلمات بديلة في بعض الأحيان (مثل «ميزة» أو «سمة» أو «خاصية»)، ولكن عند مناقشة الجوانب التقنية، سألتزم عادة بكلمة «متغير».

في الواقع، في أي دراسة، ربما نكون مهتمين بأنواع متعددة من الكائنات. فربما لا نرغب في الفهم وتقديم النتائج عن أطفال المدارس فحسب، ولكن أيضًا عن المدارس نفسها وربما عن المعلمين وأساليب التدريس والأنواع المختلفة لهياكل الإدارة المدرسية، كل ذلك في دراسة واحدة. علاوة على ذلك، عادة لن نكون مهتمين بسمة واحدة للكائنات التي تخضع للدراسة، وإنما بالعلاقات بين السمات، وربما بالفعل بالعلاقات بين سمات الكائنات من الأنواع المختلفة وعلى المستويات المختلفة. وكما هو متوقَّع، نجد أن الأمور غالبًا ما تكون معقَّدة للغاية؛ نظرًا لتعقيد الموضوعات التي ندرسها.

يقاوم كثير من الناس فكرة أنه يمكن للبيانات الرقمية أن تنقل جمال العالم الحقيقي؛ فيشعرون بأن تحويل الأشياء إلى أرقام يُزِيل بطريقة أو بأخرى عنها سحرها. في الواقع، هم مخطئون حتى النخاع؛ فالأرقام لديها القدرة على السماح لنا بإدراك هذا الجمال — هذا السحر — على نحو أكثر وضوحًا وأكثر عمقًا، وتقديره حقَّ قدْره. وباعتراف الجميع، ربما يُزال «الغموض» عن طريق وصف الأشياء بصورة رقمية؛ فإذا قلتُ إنه يوجد أربعة أشخاص في الغرفة، فإنك تعرف بالضبط ما أَعنِيه، في حين أنني إذا قلتُ إن شخصًا ما جذَّاب، ربما لا تكون متأكدًا تمامًا ممَّا أعنِيه. وربما تختلف حتى مع وجهة نظري في أن ثمة شخصًا جذَّابًا في الغرفة، ولكن من غير المرجَّح أن تختلف مع وجهة نظري بأن هناك أربعة أشخاص في الغرفة (باستثناء أخطاء العدِّ بطبيعة الحال، ولكن هذا أمر مختلف). والأرقام مفهومة على نحو عالمي، بغض النظر عن الجنسية أو الدين أو الجنس أو العمر أو أي سِمَة بشرية أخرى. ويمكن أن تكون إزالة الغموض — ومعها إزالة خطر سوء الفهم — مفيدة عندما نحاول أن نفهم شيئًا؛ عندما نحاول فهمه تمامًا.

ويرتبط افتقاد الغموض هذا في تفسير الأرقام ارتباطًا وثيقًا بحقيقة أن «الأرقام تمتلك سمة واحدة فقط»؛ ونعني بهذا قيمتها أو حجمها. فعلى النقيض مما قد يدفعنا العرافون إلى الإيمان به، فإن الأرقام ليست جالِبة للحظ الجيد أو السيئ؛ تمامًا كما أن الأرقام لا تمتلك لونًا أو نكهة أو رائحة، فليس لديها سمات غير قيمتها الرقمية الذاتية. (لا يمكن إنكار أن بعض الأشخاص يمتلكون «الحس المرافق»، والذي فيه يربطون لونًا معينًا أو إحساسًا بأرقام معينة. ومع ذلك، فإن الأحاسيس المرتبطة تتباين باختلاف الأشخاص، ولا يمكن اعتبارها سمات خاصة بالأرقام نفسها.)

تقدِّم البيانات الرقمية لنا صلة مباشرة وفورية بالظواهر التي ندرسها أكثر مما تقدِّمه الكلمات؛ لأن البيانات الرقمية تَنتج عادة عن طريق أدوات قياس تتصل اتصالًا مباشرًا بتلك الظواهر بدرجة أكبر من اتصالها بالكلمات؛ فالأرقام تأتي مباشرة من الأشياء التي تجري دراستها، في حين أن الكلمات تخضع للترشيح عن طريق العقل البشري. بطبيعة الحال، فإن الأشياء تكون أكثر تعقيدًا إذا تمَّتْ إجراءات جمع البيانات بواسطة الكلمات (كما هي الحال إذا جُمِعت البيانات عن طريق الاستبيانات)، ولكن لا يزال المبدأ صالحًا. وبينما قد لا تكون أدوات القياس مثالية، فإن البيانات تكون تمثيلًا حقيقيًّا لنتائج تطبيق تلك الأدوات على الظاهرة قيد الدراسة. وأحيانًا ألخص ذلك من خلال التعليق الموجود في بداية هذا الفصل: «البيانات هي أدلة الطبيعة، التي تُرى من خلال عدسة أداة القياس.»

وفوق كل هذا، للأرقام نتائج عملية من حيث التقدم المجتمعي؛ فقدرة العالَم المتحضِّر على معالجة تمثيلات الواقع التي تقدِّمها الأرقام هي التي أدَّت إلى مثل هذا التقدم المادي المذهل في القرون القليلة الماضية.

على الرغم من أن الأرقام لها سمة واحدة فقط — قيمتها الرقمية — فربما نختار استخدام تلك السمة بطرق مختلفة؛ على سبيل المثال، عند اتخاذ قرار بشأن جدارة الطلاب في الصف الدراسي، ربما نصنِّفهم وفقًا لدرجات الامتحان؛ أي إننا ربما لا نهتمُّ إلَّا بما إذا كانت نتيجةٌ ما أعلى من أخرى، ولا نهتمُّ بالفارق العددي الدقيق. وعندما نهتم فقط «بترتيب» القِيَم بهذه الطريقة نقول إننا نعالج البيانات بوضعها على مقياس «ترتيبي». من ناحية أخرى، عندما يقيس المزارع كمية الذرة التي أنتجها، فلا يريد ببساطة معرفةَ ما إذا كان قد أنتج أكثر مما أنتج في العام الماضي أم لا، كما أنه يريد أيضًا أن يعرف مقدارَ ما أنتجه؛ أي الوزن الفعلي؛ فعلى أي حال، سوف تُباع الذرة في السوق على هذا الأساس. في هذه الحالة، يُقارِن المزارع فعليًّا وزن الذرة التي أنتجها بوزن معياري مثل الطن، حتى يستطيع معرفة كم طنًّا من الذرة أنتجه. يتضمن ذلك احتساب نسبة وزن الذرة التي أنتجها المزارع لوزن الطن الواحد من الذرة؛ لهذا السبب، عندما نستخدم القِيَم على هذا النحو، فإننا نقول إننا نعالج البيانات بوضعها على مقياس «نسبي». لاحِظْ أنه في هذه الحالة يمكننا اختيار تغيير وحدة القياس الأساسية؛ إذ يمكننا حساب الوزن بالرطل أو الكيلوجرام بدلًا من الطن. وما دمنا نشير إلى الوحدة التي استخدمناها، فإنه من السهل على أي شخص آخر إعادة تحويلها مرة أخرى، أو تحويلها إلى أي وحدة يستخدمها عادة.

في حالة أخرى، ربما نرغب في معرفة عدد المرضى الذين عانَوْا من أثر جانبي معين لدواءٍ ما. وإذا كان العدد كبيرًا بما فيه الكفاية فإننا قد نرغب في سَحْب الدواء من السوق على أساس أنه ينطوي على مخاطرة كبيرة للغاية. في هذه الحالة، فإننا ببساطة نُحصي الوحدات المنفصلة الواضحة المعالِم (المرضى). لن تكون إعادة القياس عن طريق تغيير الوحدات ذات مغزًى (فلن نفكِّر في إحصاء عدد «نصف المرضى»!) لذلك نقول إننا نُعالِج البيانات بوضعها في المقياس «المطلق».

(٢) الملخَّصات الإحصائية البسيطة

في حين أن الأرقام البسيطة تشكل «عناصر» البيانات، فإنه من أجل أن تكون مفيدة، فإننا نحتاج إلى أنْ ننظر في العلاقات بينها، وربما نَجمَع بينها بطريقةٍ ما، وهنا يأتي دَوْر الإحصاء. سوف تستكشف الفصول اللاحقة طرقًا أكثر تعقيدًا لمقارنة الأرقام والجمع بينها، ولكن سيكون هذا الفصل بمنزلة مقدمة للأفكار. سنُلقِي هنا نظرة على بعض أكثر الطرق مباشرة؛ فلن نستكشف العلاقات بين المتغيرات المختلفة في هذا الفصل، ولكن ببساطة سنرى المعلومات والرُّؤَى التي يمكن استخلاصها من العلاقات بين القِيَم المَقيسة وفْق المتغير نفسه؛ على سبيل المثال، ربما نكون قد سجَّلنا أعمار المتقدِّمين للحصول على منصب في الجامعة، أو درجة سطوع النجوم في عنقود مَجَرِّيٍّ ما، أو النفقات الشهرية للأُسَر في مدينةٍ ما، أو أوزان أبقار في قطيع في وقت إرسالها إلى السوق، وما إلى ذلك. وفي كل حالة، تُسجَّل قيمة رقمية واحدة لكل «كائن» في مجموعة الكائنات.

عندما تؤخذ معًا، يُقال إن القِيَم الفردية في المجموعة تشكِّل «توزيعًا» للقِيَم. وتُعَدُّ الملخصات الإحصائية سبلًا لتمييز هذا التوزيع؛ أي قول ما إذا كانت القِيَم متشابِهة جدًّا، وما إذا كانت توجد بعض القِيَم الكبيرة أو الصغيرة على نحو استثنائي، وتحديد القيمة «النموذجية» … إلخ.

(٢-١) القِيَم المتوسطة

يتمثل أبسط أنواع التوصيفات — أو الملخصات الإحصائية — لمجموعة من الأرقام في «القيمة المتوسطة». والقيمة المتوسطة هي قيمة تمثيلية؛ وهي قيمة قريبة، بمعنًى ما، لأرقام المجموعة. والحاجة إلى شيء من هذا القَبِيل تكون أكثر وضوحًا عندما تكون مجموعة الأرقام كبيرة؛ على سبيل المثال، لنفترض أن لدينا جدولًا يسجِّل أعمار كل الأشخاص في مدينة كبيرة؛ ربما يبلغ عددهم مليون نسمة. من أجْل الأغراض الإدارية والتجارية سيكون من المفيد على نحو واضح معرفة متوسط عمر السكان؛ فسوف توجد حاجة لخدمات مختلفة للغاية، وتنشأ فرص مبيعات إذا كان متوسط العمر ١٦ عامًا بدلًا من ٦٠. وبإمكاننا أن نحاول الحصول على فكرة عن الحجم العام للأرقام في الجدول — الأعمار — من خلال النظر إلى كل القِيَم. لكن من الواضح أن هذا سيكون أمرًا عسيرًا. في الواقع، إذا كان النظر إلى كل رقم يستغرق ثانية واحدة فقط، فإن الأمر سيستغرق أكثر من ٢٧٠ ساعة للنظر إلى جدول مكوَّن من مليون رقم، كل هذا مع تجاهل العمل الفعلي المتمثل في محاولةِ تذكُّرِها ومقارنتها. ولكنْ يمكننا استخدام جهاز الكمبيوتر الخاص بنا لمساعدتنا.

أولًا: نحن بحاجة إلى أن نكون واضِحِين حيالَ ما نَعنِيه بكلمة «قيمة متوسطة» بالضبط، لأن الكلمة لها عِدَّة معانٍ. ربما النوع الأكثر استخدامًا من القيمة المتوسطة هو «المتوسط الحسابي»، أو «الوسط الحسابي». فإذا استخدم الشخص كلمة «المتوسط» دون أن يوضح تفسيرها، فإنه ربما حينها يكون قاصدًا «المتوسط الحسابي».

وقبل أن أوضح كيفية حساب المتوسط الحسابي، تَخيَّلْ جدولًا آخر يحتوي مليون رقم. لنفترضْ في هذا الجدول الثاني أن جميع الأرقام متطابقة بعضها مع بعض؛ أي لنفترضْ أنها جميعًا لها القيمة نفسها. والآن اجمع جميع الأرقام في الجدول الأول لإيجاد مجموعها الكلي (هذا لا يستغرق سوى جزء من الثانية باستخدام جهاز كمبيوتر). اجمع جميع الأرقام في الجدول الثاني لإيجاد مجموعها الكلي. إذا كان مجموعا أرقام الجدولين بالقيمة نفسها، فإن الرقم الذي تكرر مليون مرة في الجدول الثاني يمثل قيمة جوهرية نوعًا ما بالنسبة للأرقام في الجدول الأول. هذا الرقم المفرد، والذي جمعت منه مليون نسخة لتصل إلى المجموع نفسه كما في الجدول الأول، يسمَّى المتوسط الحسابي (للأرقام في الجدول الأول).

في الواقع، أسهل السُّبُل لحساب المتوسط الحسابي هي من خلال قسمة مجموع الأرقام المليون في الجدول الأول على مليون. وعمومًا، يتم إيجاد المتوسط الحسابي لمجموعة من الأرقام بجمع جميع الأرقام وقسمة المجموع على عددها. إليك مثالًا آخَر: في اختبارٍ ما، كانت النسبة المئوية لنتائج خمسة طلاب في الصف هي: ٧٨، ٦٣، ٥٣، ٩١، ٥٥. يبلغ مجموع هذه الأرقام: ٧٨ + ٦٣ + ٥٣ + ٩١ + ٥٥ = ٣٤٠. ويأتي المتوسط الحسابي ببساطة عن طريق قسمة ٣٤٠ على ٥؛ وهو ٦٨. وكنا سنحصل على المجموع نفسه (٣٤٠) إذا حصل جميع الطلاب الخمسة على القيمة المتوسطة ٦٨.

يمتلك المتوسط الحسابي العديد من الخصائص الجذابة؛ فدائمًا ما يأخذ قيمة بين أكبر القِيَم وأصغرها في مجموعة الأرقام. علاوة على ذلك، فإنه يوازن بين الأرقام في المجموعة؛ بمعنى أن مجموع الفروق بين المتوسط الحسابي والقِيَم الأكبر منه يساوي بالضبط مجموع الفروق بين المتوسط الحسابي والقِيَم الأصغر منه. وبهذا المعنى، هو قيمة «مركزية». والأشخاص الذين يملكون تفكيرًا ميكانيكيًّا قد يرغبون في تصور مجموعة من الأثقال زِنَة الواحد منها كيلوجرام واحد موضوعة في مواقع مختلفة على طول لوح خشبي (عديم الوزن). ومسافات الأوزان من أحد طرفي اللوح تمثِّل القِيَمَ في مجموعة الأرقام. والمتوسط هو المسافة التي تفصل الطرف عن محور ارتكاز يتوازن فيه لوح الخشب تمامًا.

المتوسط الحسابي هو «إحصائية»، وهو يلخص مجموعة كاملة من القيم في مجموعتنا في صورة قيمة واحدة. يتبع ذلك أنه يهمل أيضًا معلومات؛ فيَجِب ألَّا نتوقَّع أن نُمثِّل مليون رقم مختلف (أو خمسة، أو أيًّا كان عددها) عن طريق رقم واحد دون التضحية بشيءٍ ما، وسنعمل على استكشاف هذه التضحية في وقت لاحق. ولكنْ نظرًا لأنه قيمة مركزية بالمعنى المُبَيَّن أعلاه، فإنه يمكن أن يكون ملخصًا مفيدًا؛ فيمكننا مقارنة متوسطات حجم الفصل في المدارس المختلفة، أو متوسط درجة اختبار طلاب مختلفين، أو متوسط الوقت الذي يستغرقه مختلف الناس للوصول إلى العمل، أو متوسط درجة الحرارة اليومية في سنوات مختلفة، وما إلى ذلك.

المتوسط الحسابي إحصائية مهمة؛ فهو ملخص لمجموعة من الأرقام. وثمة ملخص آخر مهم هو «الوسيط». كان المتوسط هو القيمة المحورية؛ نوعًا من النقطة المركزية الموازنة لمجموع الفروق بينه وبين الأرقام في المجموعة. أما الوسيط فيوازن المجموعة بطريقة أخرى؛ فهو القيمة التي يكون نصف الأرقام في مجموعة البيانات أكبر منها والنصف الآخر أصغر منها. وبالعودة إلى الصف المكوَّن من خمسة طلاب المذكور أعلاه، فإن نتائجهم بالترتيب من الأصغر إلى الأكبر هي: ٥٣، ٥٥، ٦٣، ٧٨، ٩١. والنتيجة الوسطى هنا هي ٦٣، لذلك هذا هو الوسيط.

من الواضح أنه ستظهر بعض التعقيدات إذا وجدت قيم متساوية في مجموعة البيانات (لنفترض على سبيل المثال أنها تتكون من ٩٩ نسخة من القيمة ٠ ونسخة واحدة من القيمة ١)، ولكن يمكن التغلب على ذلك. على أي حال، مرة أخرى الوسيط هو قيمة تمثيلية بمعنًى ما، وإن كان يختلف عن المتوسط. وبسبب هذا الاختلاف، لنا أن نتوقع أنه سيأخذ قيمة مختلفة عن المتوسط. من الواضح أن الوسيط أسهل في الحساب من المتوسط. فليس علينا جمع أي قيم للوصول إليه، فضلًا عن القسمة على عدد القيم في المجموعة؛ كل ما عليك القيام به هو ترتيب الأرقام، وتحديد موقع الرقم الموجود في الوسط. ولكن في الواقع هذه الميزة الحسابية أساسًا غيرُ ذات صلة بعصر الكمبيوتر؛ ففي التحليلات الإحصائية الحقيقية يقوم الكمبيوتر بعمليات المعالجة الحسابية المملة.

بوجود هذين الملخصين الإحصائيين، وكلاهما يقدِّم قِيَمًا تمثيلية، كيف لنا أن نحدد أيهما سنستخدم في أي موقف معين؟ بما أنهما يُعرَّفان على نحو مختلف — يجمعان القيم الرقمية على نحو مختلف — فمن المرجَّح أن ينتجا قيمًا مختلفة؛ ولذلك ربما تكون أي استنتاجات تستند إليهما مختلفة للغاية. والجواب الكامل لمسألة أيهما تختار سوف يدخلنا في أمور فنية تتجاوز مستوى هذا الكتاب، ولكن الجواب القصير هو أن الاختيار سيعتمد على التفاصيل الدقيقة للسؤال الذي يرغب المرء في الإجابة عنه.

إليك مثالًا: لنفترض أن شركة صغيرة لديها خَمس مجموعات من الموظفين، لكلٍّ منها درجة ومرتب مختلفان؛ وهي على الترتيب: ١٠٠٠٠ دولار، ١٠٠٠١ دولار، ١٠٠٠٢ دولار، ١٠٠٠٣ دولارات، ٩٩٩٩٩ دولارًا. متوسط هذه القِيَم هو ٢٨٠٠١ دولار، في حين أن الوسيط هو ١٠٠٠٢ دولار. والآن لنفترض أن الشركة تعتزم توظيف خمسة موظفين جُدُد؛ واحد لكل درجة. ربما يُشِير صاحب العمل إلى أنه في هذه الحالة، سيُضطر «في المتوسط» لدفع راتب إجمالي للقادمين الجُدُد الخمسة كلهم يبلغ ٢٨٠٠١ دولار؛ ومن ثم يكون هذا هو متوسط الراتب الذي يذكره في الإعلان. لكن ربما يشعر الموظفون أن هذا تحايل؛ لأن عدد الموظفين الذين سيُدفَع لهم أقل من ١٠٠٠٢ دولارات سيساوي عدد الموظفين الذين سيُدفَع لهم مبلغ أكثر من ١٠٠٠٢ دولارات. وربما يشعرون أنه من الأكثر صدقًا وضع هذا الرقم في الإعلان. أحيانًا يتطلب تحديد أي المقياسين هو المناسب تفكيرًا متأنِّيًا. (وفي حال كنتَ تعتقد أن هذه الحجة مبتدَعة، يبيِّن شكل ٢-١ توزيع رواتب لاعبي البيسبول الأمريكي قبل الإضراب في عام ١٩٩٤. كان المتوسط الحسابي ١٫٢ مليون دولار، ولكن كان الوسيط ٠٫٥ مليون دولار.)

يوضح هذا المثال أيضًا التأثير النسبي للقِيَم المتطرِّفة على المتوسط والوسيط. في مثال المرتبات أعلاه، يساوي المتوسط ما يقرب من ثلاثة أضعاف الوسيط. ولكنْ لنفترض أن أكبر قيمة كانت ١٠٠٠٤ دولارات بدلًا من ٩٩٩٩٩ دولارًا، حينها سيظل الوسيط ١٠٠٠٢ دولارات (نِصْف القِيَم أعلاه ونصفها أدناه)، إلَّا أن المتوسط سيتقلَّص إلى ١٠٠٠٢ دولارات. إن حجم قيمة واحدة فقط يمكن أن يكون له تأثير كبير على المتوسط، ولكنه لا يؤثر على الوسيط. وحساسية المتوسط تلك حيال القِيَم المتطرفة هي أحد الأسباب التي تجعل الوسيط أحيانًا مفضلًا في الاختيار عن المتوسط.

ليس المتوسط والوسيط الملخَّصين الوحيدين للقيم التمثيلية؛ فثمة ملخص آخر مهم هو «المنوال»؛ وهو أكثر القيم تكرارًا في العينة؛ على سبيل المثال، لنفترض أنني أُحصِي عدد الأطفال في الأسرة في مجموعة سكانية معينة. ربما أجد أن بعض الأُسَر لديها طفل واحد، وبعضها لديها طفلان، وبعضها ثلاثة، وما إلى ذلك، وربما أجد على وجه الخصوص أن عدد الأُسَر التي لديها طفلان أكبر من أي قيمة أخرى. في هذه الحالة، سيكون منوال عدد الأطفال لكل أسرة هو اثنين.

شكل ٢-١: توزيع رواتب لاعبي البيسبول الأمريكيين في عام ١٩٩٤. يبين المحور الأفقي الرواتب بالمليون دولار، ويبين المحور الرأسي أعداد اللاعبين في كل نطاق من الرواتب.

(٢-٢) التشتت

تقدِّم المتوسطاتُ — على غرار المتوسط الحسابي والوسيط — ملخصاتٍ رقميةً واحدةً لمجموعات من القيم الرقمية، وهي مفيدة لأنها يمكن أن تعطي مؤشرًا عن الحجم العام للقيم الموجودة في البيانات. ولكنْ، كما رأينا في المثال السابق، يمكن للقِيَم التلخيصية الواحدة أن تكون مضلِّلة. وعلى وجه التحديد، قد تنحرف القِيَم التلخيصية الواحدة كثيرًا عن القِيَم الفردية في مجموعة الأرقام. ولتوضيح ذلك، لنفترض أن لدينا مجموعة من مليون رقم وواحد، لها القيم: ٠، ١، ٢، ٣، ٤، …، ١٠٠٠٠٠٠. إن المتوسط والوسيط كليهما لهذه المجموعة من القِيَم يُساوي ٥٠٠٠٠٠. ولكن من الواضح تمامًا أن هذه القيمة ليست قيمة «تمثيلية» جيدة للمجموعة. فعلى طرفي المجموعة، ثمة قيمة واحدة أكبر بنصف مليون وقيمة واحدة أصغر بنصف مليون من المتوسط (والوسيط).

إن ما نفتقده عندما نعتمد فقط على المتوسط لتلخيص مجموعة من البيانات هو بعض المؤشرات حول مدى انتشار البيانات حول هذا المتوسط؛ هل بعض نقاط البيانات أكبر بكثير من المتوسط؟ هل بعضها أصغر منه بكثير؟ أم إنها متجمعة في تقارب حول المتوسط؟ وعمومًا، ما مدى اختلاف القِيَم في مجموعة البيانات بعضها عن بعض؟ تقدِّم المقاييس الإحصائية للتشتت هذه المعلومات بدقة، وكما هي الحال مع المتوسط، يوجد أكثر من مجرد مقياس واحد.

أبسط مقاييس التشتت هو «المدى»؛ والذي يُعرَّف بأنه الفرق بين أكبر وأصغر القيم في مجموعة البيانات. في مجموعة بياناتنا المكونة من مليون رقم وواحد، المدى هو: ١٠٠٠٠٠٠ − ٠ = ١٠٠٠٠٠٠. وفي مثال الرواتب الخمسة، المدى هو: ٩٩٩٩٩ − ١٠٠٠٠ = ٨٩٩٩٩. ويبيِّن هذان المثالان — اللذان يمتلكان مدًى كبيرًا — أنه يوجد اختلاف كبير عن المتوسط؛ على سبيل المثال، إذا كان الموظفون يتقاضَوْن رواتب تبلغ ٢٧٩٩٩ دولارًا، ٢٨٠٠٠ دولار، ٢٨٠٠١ دولار، ٢٨٠٠٢ دولار، ٢٨٠٠٣ دولارات، فإن المتوسط سيكون أيضًا ٢٨٠٠١ دولار، ولكن سيكون المدى ٤ دولارات فقط. هذا يرسم صورة مختلفة جدًّا تخبرنا أن الموظفين مع هذه الرواتب الجديدة سيتقاضَوْن الأجر نفسه تقريبًا. أما المدى الكبير من المثال السابق — البالغ ٨٩٩٩٩ دولارًا — فيُخبرنا على الفور أنه توجد اختلافات ضخمة.

المدى مقياس ملائم للغاية وله العديد من الخصائص الجذابة كمقياس للتشتت، من أهمها بساطته وإمكانية تفسيره السهلة. ومع ذلك، من الممكن أن نشعر أنه ليس مثاليًّا؛ فهو رغم كل شيء يتجاهل معظم البيانات؛ حيث يعتمد فقط على أكبر القيم وأصغرها. وللتوضيح، تَخيَّلْ مجموعتَين من البيانات تتألف كلٌّ منهما من ألف قيمة. تتضمن إحدى المجموعتَين قيمة واحدة تبلغ ٠، و٩٩٨ قيمة تبلغ ٥٠٠، وقيمة واحدة تبلغ ١٠٠٠. وتتضمن مجموعة البيانات الأخرى ٥٠٠ قيمة تبلغ ٠، و٥٠٠ قيمة تبلغ ١٠٠٠. مدى كلتا مجموعتَي البيانات هو ١٠٠٠ (وبالمصادفة، لكل منهما أيضًا متوسط يبلغ ٥٠٠)، ولكن من الواضح أنهما مختلفتان للغاية في طبيعتهما؛ فبالتركيز فقط على أكبر القيم وأصغرها، فشل المدى في كشف حقيقة أن مجموعة البيانات الأولى تتركز غالبًا بكثافة حول المتوسط.

يمكن التغلب على هذا القصور باستخدام مقياس للتشتت يضع القيم «كلها» في الاعتبار.

إحدى الطرق الشائعة للقيام بذلك هي أن تحسب الفروق بين المتوسط (الحسابي) وكل رقم في مجموعة البيانات، وتقوم بتربيع هذه الفروق؛ ومن ثم تحسب متوسط هذه الاختلافات المربعة. (تربيع الفروق يجعل القِيَم جميعها موجبة. فبخلاف ذلك، سوف تلغي الفروق الموجبة والسالبة بعضها بعضًا عندما نقوم بحساب المتوسط.) وإذا كان المتوسط الناتج عن الفروق المربعة صغيرًا، فإنه يخبرنا في العادة أن الأرقام ليست مختلفة كثيرًا عن متوسطها؛ وهذا يعني أنها ليست مشتتة على نطاق واسع. يُسمَّى مقياس متوسط الفروق المربعة «تباين» البيانات؛ أو يسمَّى في بعض التخصصات «متوسط مربعات انحرافات القِيَم». وسنوضح الأمر باستخدام درجات الطلاب الخمسة في الاختبار التي كانت ٧٨، ٦٣، ٥٣، ٩١، ٥٥، وكان متوسطها ٦٨. الفارق المربع بين النتيجة الأولى والمتوسط هو (٧٨ − ٦٨)^٢ = ١٠٠، وهكذا. ومجموع الفروق المربعة هو ١٠٠ + ٢٥ + ٢٢٥ + ٥٢٩ + ١٦٩ = ١٠٤٨؛ ومن ثم فإن متوسط مربعات انحرافات القيم هو ١٠٤٨ ÷ ٥ = ٢٠٩٫٦. وهذا هو التباين.

ينشأ تعقيد طفيف من حقيقة أن التباين ينطوي على قيم مربعة؛ وهذا يعني أن التباين نفسه يقاس ﺑ «وحدات مربعة». فإذا كنا نقيس إنتاجية المزارع من حيث أطنان الذرة، فإن تباين القيم يُقاس ﺑ «الطن المربع». ليس تأثير هذا الأمر واضحًا، وبسبب هذه الصعوبة، من الشائع أن نحسب الجذر التربيعي للتباين. وهذا يُعِيد وحدات القياس إلى صورتها الأصلية، ويُنتج مقياسًا للتشتت يُسمَّى «الانحراف المعياري». وفي المثال السابق، يتمثل الانحراف المعياري لدرجات الطلاب في الاختبار في الجذر التربيعي للعدد ٢٠٩٫٦، وهو ١٤٫٥.

يتغلب الانحراف المعياري على المشكلة التي وجدناها مع المدى؛ فهو يستخدم البيانات كافة. فإذا تجمعت معظم نقاط البيانات على نحو وثيق جدًّا معًا، مع وجود عدد قليل من النقاط النائية، فسيعني ذلك أن الانحراف المعياري صغير. وفي المقابل، إذا كانت نقاط البيانات تتخذ قِيَمًا مختلفة للغاية، حتى إذا كانت تتخذ القِيَم الأكبر والأصغر نفسها، فإن الانحراف المعياري سيكون أكبر بكثير.

(٢-٣) الالتواء

تخبرنا مقاييس التشتت بمدى انحراف القيم المفردة بعضها عن بعض، ولكنها لا تخبرنا بطريقة انحرافها. وبالتحديد لا تخبرنا ما إذا كانت الانحرافات الأكبر تميل إلى أن تكون لدى القيم الكبرى أم القيم الصغرى في مجموعة البيانات. تَذكَّرْ مثالنا عن موظفي الشركة الخمسة، والذي يحصل فيه أربعة موظفين على حوالي ١٠٠٠٠ دولار سنويًّا، بينما يحصل موظف واحد على حوالي عشرة أضعاف ذلك. من شأن أي مقياس للتشتت (الانحراف المعياري على سبيل المثال) أن يخبرنا أن القيم مشتتة على نطاق واسع جدًّا، ولكنه لن يُخبِرنا أن إحدى القيم أكبر بكثير من القيم الأخرى. وبالفعل، فإن الانحراف المعياري للقيم الخمسة ٩٠٠٠٠ دولار، ٨٩٩٩٩ دولارًا، ٨٩٩٩٨ دولارًا، ٨٩٩٩٧ دولارًا، ١ دولار؛ هو بالضبط نفسه للقيم الخمسة الأصلية. المختلِف هنا هو أن القيمة الشاذة (قيمة ١ دولار) الآن صغيرة جدًّا بدلًا من كونها كبيرة جدًّا. ولرصد هذا الاختلاف، نحتاج إلى إحصائية أخرى لتلخيص البيانات، إحصائية تضع في الاعتبار وتقيس «عدم التناظر» في توزيع القِيَم. يسمَّى أحد أنواع عدم التناظر في توزيع القيم «الالتواء». ويعد مثالنا الأصلي لرواتب الموظفين، الذي يمتلك قيمة واحدة كبيرة على نحو شاذ تبلغ ٩٩٩٩٩ دولارًا، «أيمن الالتواء» (أو موجب الالتواء)؛ لأن توزيع القيم يمتلك «ذيلًا» طويلًا يمتد إلى قيمة واحدة كبيرة للغاية هي ٩٩٩٩٩ دولارًا. لهذا التوزيع العديد من القيم الصغرى وعدد قليل للغاية من القيم الكبرى. وفي المقابل، فإن توزيع القيم المذكور سابقًا، الذي يتضمن شذوذًا عند قيمة ١ دولار، يكون «أيسر الالتواء» (أو سالب الالتواء)؛ لأن الجزء الأكبر من القيم يتراكم معًا، ويوجد ذيل طويل يمتد للأسفل نحو القيمة المفردة الصغيرة جدًّا.

التوزيعات الموجبة الالتواء شائعة كثيرًا، والمثال الكلاسيكي عليها هو توزيع الثروة، والذي يمتلك فيه العديد من الأفراد مبالغ صغيرة فيما يمتلك عدد قليل فحسب من الأفراد مليارات عدة من الدولارات. ويُعَدُّ توزيع رواتب لاعبي البيسبول في الشكل ٢-١ توزيعًا موجب الالتواء بشدة.

(٢-٤) المقاييس التجزيئية

تقدِّم القيم المتوسطة ومقاييس التشتت ومقاييس الالتواء ملخصات إحصائية إجمالية، فتكثف القيم الموجودة في التوزيع إلى أعداد قليلة يسهل التعامل معها. مع ذلك، ربما يكون اهتمامنا مقصورًا على أجزاء فقط من التوزيع؛ على سبيل المثال، ربما نكون مهتمين فحسب بأكبر أو أصغر بضع قيم في مجموعة البيانات؛ مثلًا، أكبر ٥٪ من القيم. الْتَقَيْنا بالفعل الوسيط؛ وهو القيمة التي تكون موجودة في منتصف البيانات؛ بمعنى أن ٥٠٪ من القيم أكبر منها و٥٠٪ أصغر منها. ويمكن تعميم هذه الفكرة؛ فعلى سبيل المثال، «الرُّبَيْع الأعلى» من مجموعة من الأرقام هو القيمة التي يكون ٢٥٪ (أي الربع) من قيم البيانات أكبر منها، أما «الرُّبَيْع الأدنى» فهو القيمة التي يكون ٢٥٪ من قيم البيانات أصغر منها.

وبالمُضِيِّ في هذه التجزئة بدرجة أكبر نجد أن لدينا «العُشَيْرَ» (الذي يقسم مجموعة البيانات إلى أعشار، من العُشَيْر الأدنى وصولًا إلى العُشَيْر الأعلى) و«المُؤَيَّ» (الذي يقسم البيانات إلى شرائح مئوية). وهكذا يمكن وصف شخص بأنه حقق نتيجة فوق المُؤَيِّ الخامس والتسعين؛ وهذا يعني أنه في أعلى ٥٪ من مجموعة النتائج. والمصطلح العام — الذي يتضمن الرُّبَيْعَ والعُشَيْرَ والمُؤَيَّ وغيرها كحالات خاصة — هو «المقاييس التجزيئية».