الفصل الثاني

ما المقصود بالبيانات وما المقصود بمجموعة البيانات؟

يعتمد علم البيانات، كما يوحي اسمه، على البيانات بالأساس. والبيان أو المعلومة، في أبسط صورهما، عبارة عن فكرةٍ مجردة لكيانٍ ما من الواقع الفعلي (شخص أو كائن أو حدث). وعادةً ما تُستخدَم مصطلحات مثل «متغير»، و«ميزة»، و«سمة» على نحوٍ متبادل لتُشير إلى فكرةٍ فردية مجردة. ويُوصف كل كيان عادةً بعدد من السمات. على سبيل المثال، يوصف الكتاب بالسمات التالية: الكاتب والعنوان والموضوع والنوع الأدبي والناشر والسعر وتاريخ النشر وعدد الكلمات وعدد الفصول وعدد الصفحات والطبعة والرقم الدولي الموحَّد للكتب وهلمَّ جرًّا.

وتتكوَّن مجموعة البيانات من بياناتٍ ذات صلة بمجموعة من الكيانات؛ وكل كيان منها يُوصف بمجموعة من السمات. وفي أبسط صورها،1 تُرتَّب مجموعة البيانات على هيئة مصفوفة بيانات تُسمَّى «سجل التحليل»، حيث هو عدد الكيانات (صفوف) و هو عدد السِّمات (الأعمدة). وكثيرًا ما يُستخدم مصطلح «مجموعة البيانات» و«سجل التحليل» على نحوٍ تبادُلي في علم البيانات، حيث يكون سجل التحليل تمثيلًا خاصًّا لمجموعة البيانات. يوضح جدول ٢-١ سجل التحليلات لمجموعة البيانات الخاصة بكتُب الأعمال الكلاسيكية. وكل صفٍّ في الجدول يصف كتابًا واحدًا. تُستخدَم مصطلحات «مثيل»، و«مثال»، و«كيان»، و«كائن»، و«حالة»، و«فرد»، و«سجل» في مؤلَّفات علم البيانات للإشارة إلى الصف. وهكذا تحتوي مجموعة البيانات على مجموعةٍ من المثيلات، وكل مثيل يُوصف بمجموعة من السِّمات.

إن إعداد سجل التحليل هو شرط أساسي لممارسة علم البيانات. في الواقع، تُنفق الغالبية العظمى من الوقت والجهد المبذولَين في مشروعات علم البيانات في إنشاء سجل التحليل وتنظيفه وتحديثه. وكثيرًا ما يُنشأ سجل التحليل من خلال دمج المعلومات من العديد من المصادر المختلفة؛ إذ ربما تُستخلَص البيانات من عدة قواعد بيانات أو مخازن بيانات أو ملفَّات حاسوبية بتنسيقاتٍ مختلفة (مثل جداول البيانات أو ملفات «سي إس في» (القيم المفصولة بفاصلة)) أو من خلال جمعها بجهدٍ من شبكة الإنترنت أو وسائط مواقع التواصل الاجتماعي.

جدول ٢-١: مجموعة بيانات خاصة بالأعمال الكلاسيكية.
رقم تعريفي عنوان الكتاب المؤلف العام الغلاف الطبعة السعر
١ «إيما» أوستن ١٨١٥ غلاف ورقي العشرون ٥٫٧٥ دولارات
٢ «دراكولا» ستوكر ١٨٩٧ غلاف مُقوى الخامسة عشرة ١٢ دولارًا
٣ «إيفانهو» سكوت ١٨٢٠ غلاف مُقوى الثامنة ٢٥ دولارًا
٤ «المخطوف» ستيفنسون ١٨٨٦ غلاف ورقي الحادية عشرة ٥ دولارات
أُدرجت أربعة كتب في مجموعة البيانات المذكورة في جدول ٢-١. وإذا استبعدنا سمة الرقم التعريفي — وهو بكل بساطة عبارة عن تسميةٍ لكل صفٍّ وبالتالي ليس ذا فائدة في التحليل — نجد أن كل كتابٍ يوصف باستخدام ستِّ سمات؛ ألا وهي: عنوان الكتاب ومؤلفه وعام النشر ونوع الغلاف ورقم الطبعة والسعر. كان بإمكاننا أن نُدرج المزيد من السمات لكل كتاب؛ إلا أننا كنَّا بحاجةٍ إلى الاختيار من السِّمات عندما كنَّا نُصمم مجموعة البيانات كما هو معتاد مع مشروعات علم البيانات. وفي هذا المثيل، نحن مُقيدون بحجم الصفحة وعدد السمات التي كان بإمكاننا أن نُدرجها. وفي أغلب مشروعات علم البيانات، تكون القيود مُتعلقةً بأيٍّ من السِّمات يُمكننا جمعها فعليًّا وأي من السمات نُصدقها بناءً على معرفتنا بالمجال ذي الصلة بالمشكلة التي نُحاول حلَّها. إن إدراج سماتٍ إضافية في مجموعة البيانات لا يأتي بدون تكلفة. أولًا: يُبذَل المزيد من الوقت والجهد في جمع المعلومات والتأكُّد من جودتها لكلِّ مثيلٍ في مجموعة البيانات ودمج هذه البيانات في سجلِّ التحليل. ثانيًا: قد يكون لإدراج سماتٍ غير ذات صلة أو متكررة تأثيرٌ سلبي على أداء الكثير من الخوارزميات المستخدَمة في التحليل. وإدراج الكثير من السِّمات في مجموعة البيانات يزيد من احتمالية أن تجد الخوارزمية أنماطًا غير ذات صلة أو زائفة في البيانات التي تبدو ذات أهمية إحصائية فقط بسبب عينةٍ مُعينة من المثيلات الموجودة في مجموعة البيانات. وتُعد مشكلة كيفية اختيار السمة (السمات) المناسبة تحدِّيًا أمام جميع مشروعات علم البيانات، وأحيانًا يتعلق الأمر بعملية تكرار التجارب القائمة على مبدأ التجربة والخطأ حيث يتحقَّق كل تكرار من النتائج المحرزَة باستخدام مجموعاتٍ فرعية مختلفة من السمات.
هناك الكثير من أنواع السمات المختلفة، وكل نوع من السِّمات تُناسبه أنواع مختلفة من التحليل. وبالتالي فإن فهم الأنواع المختلفة من السِّمات والتعرُّف عليها هي مهارة رئيسية بالنسبة إلى عالِم البيانات. والأنواع القياسية هي سِمات «عددية»، و«اسمية»، و«ترتيبية». تصِف السمات العددية الكميات القابلة للقياس التي تُمثل باستخدام أعدادٍ صحيحة أو قِيَم حقيقية. ويمكن قياس السِّمات العددية إما على «مقياس الفاصل» أو «مقياس النسبة». تُقاس سمات الفاصل على مقياسٍ ذي فاصلٍ ثابت ولكنه اعتباطي وأصل اعتباطي — على سبيل المثال، قياسات التاريخ والوقت. من المناسب تنفيذ عمليات الترتيب والطرح على سِمات الفاصل، إلا أن العمليات الحسابية الأخرى (مثل الضرب والقسمة) غير مناسبة. ومقاييس النسبة مشابهة لمقاييس الفاصل؛ إلا أنَّ تدرُّج القياس يحتوي على صفرٍ حقيقي. وتُشير قيمة الصفر إلى أنه لم يتمَّ قياس أية كمية. وإحدى تداعِيات وجود أصلٍ صفري حقيقي في مقياس النسبة هو أننا يُمكننا وصف قيمةٍ ما على مقياس النسبة بأنها مضاعف (أو نسبة) لقيمةٍ أخرى. وتُعَد درجة الحرارة مثالًا مفيدًا للتمييز بين مقياس الفاصل ومقياس النسبة.2 قياس درجة الحرارة على مقياس الدرجة المئوية أو مقياس فهرنهايت هو مثال على مقياس الفاصل نظرًا إلى أن القيمة صفر على أيٍّ من هذين المِقياسَين لا تُشير إلى درجة الحرارة صفر. ولذلك على الرغم من أن بإمكاننا حساب الاختلافات في درجة الحرارة على هذَين المقياسَين ومقارنة هذه الاختلافات، لا يُمكننا القول إن درجة الحرارة ٢٠ درجة مئوية هي ضعف درجة حرارة ١٠ درجات مئوية. على النقيض من ذلك، فإن قياس درجة الحرارة بالكلفن يتم على مقياس نسبةٍ لأن صفر كلفن (الصفر المطلَق) هو درجة الحرارة التي تتوقَّف عندها الحركة الحرارية بكافة أشكالها. وتشمل الأمثلة الشائعة الأخرى لقياسات مقياس النسبة المَبالِغ المالية والوزن والطول ودرجات الاختبارات الورقية (مقياس من ٠–١٠٠). في جدول ٢-١، تعد سمة «العام» مثالًا على سمة مقياس فاصل، وسمة «السعر» مثالًا على سمة مقياس نسبة.
تستقي السمات الاسمية (المعروفة أيضًا بالسمات الفئوية) القِيَم من مجموعةٍ محدودة. وهذه القيم هي أسماء (ومنها جاءت صفة السمات «الاسمية») للفئات أو الطبقات أو الحالات. ومن الأمثلة على السِّمات الاسمية سمة الحالة الاجتماعية (أعزب، مُتزوج، مُطلَّق) وسمة نوع البيرة (المِزْر، مِزْر شاحب، جعة مُعتقة، بيرة إنجليزية، بيرة ستاوت، وهلم جرًّا). والسمة الثنائية هي حالة خاصة من السمات الاسمية حيث تكون مجموعة القِيَم المحتملة مُقتصرةً على قيمتَين فقط. على سبيل المثال، قد يكون لدَينا السمة الثنائية «بريد عشوائي»، التي تصف رسائل البريد الإلكتروني إما بأنها عشوائية (صواب) أو غير عشوائية (خطأ)، أو السمة الثنائية «مُدخِّن» والتي تصف الفرد إما بأنه مُدخن (صواب) أو غير مدخن (خطأ). ولا يمكن تنفيذ عمليات ترتيبية أو حسابية على السِّمات الاسمية. لاحظ أن السِّمات الاسمية يمكن ترتيبها أبجديًّا؛ إلا أن الترتيب الأبجدي هو عملية مختلفة عن الترتيب العددي. في جدول ٢-١، «المؤلف» و«العنوان» هما مثالان على السِّمات الاسمية.
تتشابه السمات الترتيبية مع السمات الاسمية؛ مع الفارق أنه من الممكن تطبيق ترتيبٍ تدريجي على الفئات الخاصة بالسمات الترتيبية. فعلى سبيل المثال، ربما تستقي إحدى السِّمات التي تصف الإجابة على سؤال استطلاعي قيمًا من النطاق «لا يُعجبني على الإطلاق، لا يُعجبني، مُحايد، يُعجبني، يُعجبني بشدة.» وثمة ترتيبٍ طبيعي لهذه القِيَم من «لا يُعجبني على الإطلاق» إلى «يُعجبني بشدة» (أو العكس حسب العُرف المتبع). ومع ذلك، تتمثل إحدى الميزات المهمة للبيانات الترتيبية في عدم وجود مسافاتٍ متساوية بين هذه القيم. على سبيل المثال، ربما تختلف المسافة المعرفية بين «لا يُعجبني» و«محايد» عن المسافة بين «يُعجبني» و«يُعجبني بشدة». ونتيجة لذلك، ليس من المناسب تنفيذ عمليات حسابية (مثل إيجاد المتوسط) على السمات الترتيبية. في جدول ٤-١، تُعد سمة «الطبعة» مثالًا على السمة الترتيبية. والفارق بين البيانات الاسمية والترتيبية ليس واضحًا على الدوام. على سبيل المثال، فكِّر مليًّا في سِمةٍ تصف الطقس والتي يمكن أن تأخذ القيمة «مُشمس»، أو «مُمطر»، أو «مُلبَّد بالغيوم». ربما يَعتبر أحد الأشخاص هذه السمة اسمية، في ظل غياب الترتيب الطبيعي على القيم، في حين ربما يَعتبر شخصٌ آخر السمةَ ترتيبية، في ظل التعامل مع القيمة «مُلبد بالغيوم» باعتبارها قيمةً وسطية بين «مُشمس» و«مُمطر» (Hall, Witten, and Frank 2011).

يؤثر نوع البيانات الخاص بالسِّمة (عددية، أم ترتيبية، أم اسمية) على الطرق التي يُمكننا الاستعانة بها لتحليل البيانات وفهمها، ومن بين ذلك كُلٌّ من الإحصاءات الأساسية التي يُمكننا استخدامها لوصف توزيع القِيَم التي تأخذها سمةٌ ما والخوارزميات الأكثر تعقيدًا التي نستخدِمها لتحديد أنماط العلاقات بين السِّمات. عند أبسط مستوًى للتحليل، تُتيح السِّمات العددية تنفيذ عملياتٍ حسابية، والتحليل الإحصائي النموذجي الذي يطبق على السِّمات العددية هو تحليل النزعة المركزية (باستخدام مُتوسط القيمة الخاصة بالسمة) وتشتُّت قيم السمات (باستخدام إحصاءات التبايُن أو الانحراف المعياري). ومع ذلك، ليس من المنطقي تنفيذ العمليات الحسابية على سماتٍ اسمية أو ترتيبية. ومن ثم، يشمل التحليل الأساسي لهذه الأنواع من السِّمات إحصاء عدد المرات التي تظهر فيها كل قيمةٍ في مجموعة البيانات أو حساب نسبة ظهور كل قيمةٍ أو كِلا الشيئَين.

يؤثر نوع البيانات الخاص بالسمة (عددية، أم ترتيبية، أم اسمية) على الطرق التي يُمكننا الاستعانة بها لتحليل البيانات وفهمها.

تتولد البيانات من خلال عملية تجريد، ومن ثم فإن أية بيانات تكون ناتجة عن قرارات البشر واختياراتهم. ومن أجل القيام بأي عمليةِ تجريد، يتعيَّن على شخصٍ ما (أو مجموعة من الأشخاص) أن يختار ما سيقوم بالتجريد منه وما الفئات أو وسائل القياس التي يجِب استخدامُها في التمثيل المجرد. ومعنى ذلك هو أن البيانات لا تُمثل أبدًا وصفًا موضوعيًّا للواقع. وإنما دائمًا ما تكون مُغرضة ومُتحيزة. وكما قال ألفريد كورزيبسكي: «الخريطة في حدِّ ذاتها ليست الأرض التي تُمثلها؛ ولكنها إذا كانت مُتقَنة فإنها تحوي تضاريس مُشابهة لتضاريس الأرض، وهذا ما يجعلها ذات فائدة» (عام ١٩٩٦، ٥٨).

بعبارةٍ أخرى، البيانات التي نستخدِمها لعلم البيانات ليست تمثيلًا مثاليًّا لكيانات الواقع الفعلي والعمليات التي نحاول فهمها، ولكن إذا توخَّينا الحذَر حيال كيفية تصميم البيانات التي نستخدمها وكيفية جمعها، فإن نتائج تحليلنا ستوفر رؤًى مفيدة عن مشكلات واقعنا الفعلي. وتُعَد قصة «كرة المال» التي ذكرناها في الفصل الأول مثالًا رائعًا على كيف أنَّ العامل المحدد للنجاح في الكثير من مشروعات علم البيانات يتمثل في تحديد التجريدات (السمات) المناسبة للاستعانة بها في مجالٍ مُعين. تذكر أن مفتاح نجاح قصة «كرة المال» تمثل في أن فريق أوكلاند أثلتيكس أدرك أن نسبة وصول اللاعب إلى القاعدة ونسبة تسديد ضربة القاعدة الإضافية هما أفضل سِمتَين يمكن الاستعانة بهما لتوقُّع نجاح استراتيجية الهجوم مقارنة بإحصاءات البيسبول التقليدية مثل متوسط ضرب الكرة. إن استخدام سماتٍ مختلفة لوصف اللاعبين وفَّر لفريق أوكلاند نموذجًا مُختلفًا وأفضل من النموذج الذي تستخدِمه الفِرَق الأخرى، مما مكَّنه من التعرُّف على اللاعبين المَبخوسة قيمتُهم الحقيقية ومكنه من المنافسة مع فِرَق أكبر حجمًا بميزانيةٍ أقل.

توضح قصة «كرة المال» أن مقولة «المدخلات الخاطئة تُعطي مخرجاتٍ خاطئة» في علوم الكمبيوتر تنطبق على علم البيانات أيضًا: فإذا كانت مدخلات عملية الحوسبة خاطئة، فإن مخرجات هذه العملية ستكون خاطئة أيضًا. وبالطبع، لا نُغالي إذا ما شدَّدنا على خاصيَّتَين تُميزان علم البيانات: (أ) يجب أن نولي قدرًا كبيرًا من الاهتمام إلى كيفية إنشاء بياناتنا (فيما يخصُّ كلًّا من الاختيارات التي نقوم بها لتصميم تجريدات البيانات وجودة البيانات المستخلَصة من عمليات التجريد) و(ب) يجب علينا «التحقُّق من دقة» نتائج عملية علم البيانات — أي يجب علينا أن نستوعب أنه لمجرد أن الكمبيوتر يُحدد نمطًا في البيانات لا يعني بالضرورة أنه يُحدد رؤيةً حقيقيةً في العمليات التي نُحاول تحليلها؛ إذ ربما يكون السبب ببساطة في تحديد هذا النمط هو تحيُّزنا في تصميم البيانات واستخلاصها.

منظورات بشأن البيانات

بخلاف نوع البيانات (عددية واسمية وترتيبية)، يمكن تحديد عددٍ من الفروق المفيدة الأخرى المتعلقة بالبيانات. أحد هذه الفروق هو الفارق بين البيانات «الهيكلية» والبيانات «غير الهيكلية». البيانات الهيكلية هي بيانات يُمكن تخزينها في جدول، ويحظى كل مثيلٍ في الجدول بالهيكل نفسه (أي مجموعة السِّمات). لنضرب مثلًا بالبيانات الديموغرافية للسكان؛ حيث يصِف كل صفٍّ في الجدول شخصًا واحدًا ويتكوَّن من مجموعة السمات الديموغرافية نفسها (الاسم، والسن، وتاريخ الميلاد، والعنوان، والنوع الاجتماعي، والمستوى التعليمي، وحالة الوظيفة … إلخ). ويمكن بسهولةٍ تخزين البيانات الهيكلية وتنظيمها والبحث فيها وإعادة ترتيبها ودمجها مع بياناتٍ هيكلية أخرى. ومن السهل نسبيًّا تطبيق علم البيانات على البيانات الهيكلية لأنها بحُكم التعريف موجودة في نسَق يناسِب الدمج في سجل تحليلات. أما «البيانات غير الهيكلية» فهي بيانات ربما يكون لكل مثيلٍ في مجموعة البيانات هيكلُه الداخلي الخاص به، وهذا الهيكل ليس بالضرورة نفس الهيكل الخاص بالمَثيلات الأخرى. على سبيل المثال، تخيَّل مجموعة بياناتٍ خاصة بصفحات الويب، ولكل صفحة ويب هيكل، ولكن هذا الهيكل يختلف من صفحةٍ لأخرى. والبيانات غير الهيكلية أكثر شيوعًا من البيانات الهيكلية. على سبيل المثال، يمكن اعتبار مجموعات النصوص التي كتبَها البشر (رسائل البريد الإلكتروني، التغريدات، الرسائل النصية، المنشورات، الروايات، وغيرها) بياناتٍ غير هيكلية، كما هو الحال مع مجموعات ملفات الصوت والصور والموسيقى والفيديو والوسائط المتعددة. ويعني تنوع الهيكل بين العناصر المختلفة أنه من الصعب تحليل البيانات غير الهيكلية في صورتها الأصلية. يُمكننا عادة استخلاص بيانات هيكلية من البيانات غير الهيكلية باستخدام تقنيات الذكاء الاصطناعي (مثل معالجة اللغات الطبيعية وتعلُّم الآلة)، ومعالجة الإشارات الرقمية والرؤية الحاسوبية. ورغم ذلك، فإن تنفيذ واختبار هذه العمليات لتحويل البيانات هو أمر مُكلِّف ومستنزِف للوقت وقد يُضيف نفقاتٍ ماليةً كبيرة ويتسبَّب في تأخير مشروع علم البيانات.

وأحيانًا تكون السِّمات عبارة عن تجريدات «خام» مُستقاة من حدثٍ أو كائنٍ ما — على سبيل المثال طول شخص، أو عدد الكلمات في رسالة بريد إلكتروني، أو درجة الحرارة في غرفة، أو وقت الحدث أو مكان حدوثه. بيد أنه يمكن أيضًا «اشتقاق» البيانات من أجزاء أُخرى من بيانات. تأمَّل متوسط الرواتب في إحدى الشركات أو تفاوُت درجات حرارة إحدى الغُرف على مدار فترة زمنية. في كِلا المثالَين، البيانات الناتجة مُشتقة من مجموعةٍ أصلية من البيانات من خلال تنفيذ دالة على البيانات الخام الأصلية (رواتب الأفراد أو قراءات درجات الحرارة). وكثيرًا ما تتمثَّل القيمة الحقيقية لمشروع علم البيانات في تحديد سمةٍ مُشتقة واحدة (أو أكثر) ذات أهمية لتمنحنا رؤيةً ثاقبة عن مشكلةٍ ما. تخيَّل أننا نُحاول التوصُّل إلى فهمٍ أفضل لأسباب السمنة المفرطة لدى مجموعةٍ من السكان، ونحاول فهم السمات الخاصة بالفرد الذي يُصنِّف نفسه كشخصٍ يُعاني من السمنة المفرطة. سنبدأ بفحص السمات الخام للأفراد مثل الطول والوزن؛ غير أنه بعد دراسة المشكلة لبعض الوقت قد ينتهي بنا الأمر إلى ابتكار سمةٍ مُشتقة غنية أكثر بالمعلومات مثل مؤشر كتلة الجسم. ومؤشر كتلة الجسم هو نسبة كتلة الشخص إلى طوله. إن إدراك أن «التفاعُل» بين سمتَين من السِّمات الخام وهما «الكتلة» و«الطول» يوفر المزيد من المعلومات عن السمنة المفرطة أكثر مما قد تُتيحه إحدى السِّمتَين بمعزلٍ عن الأخرى — سيساعدنا على تحديد الأشخاص المعرَّضين إلى خطر الإصابة بالسمنة المفرطة في قطاع السكان. بالتأكيد مؤشر كتلة الجسم هو مِثال بسيط نستعين به هنا لتوضيح أهمية السِّمات المشتقة. ولكن ضع في اعتبارك المواقف التي نحصل فيها على رؤيةٍ بشأن مُشكلةٍ ما من خلال عدة سماتٍ مشتقة؛ حيث تُشتَق كل سمةٍ من سمتَين إضافيتَين (أو ربما أكثر). وفي السياقات التي تتفاعل فيها عدة سِمات بعضها مع بعض، يوفر لنا علم البيانات فوائد حقيقية لأن الخوارزميات التي نستخدمها يُمكنها في بعض الحالات أن تفرق بين السمات المشتقة والبيانات الخام.

كثيرًا ما تتمثل القيمة الحقيقية لمشروع علم البيانات في تحديد سمةٍ مشتقة واحدة (أو أكثر) ذات أهمية لتمنحنا رؤيةً ثاقبة عن مشكلةٍ ما.

بوجهٍ عام يطلَق على «البيانات الخام» التي تُجمَّع «البيانات المستخلَصة» و«البيانات الثانوية» (Kitchin 2014a). تُجمع «البيانات المستخلَصة» من خلال القياس المباشر أو الملاحظة المباشرة المصمَّمة خصوصًا لجمع البيانات. على سبيل المثال، الغرَض الأساسي من الاستطلاعات والتجارب هو جمع بيانات مُحددة حول موضوع مُعين يحظى بالاهتمام. وعلى النقيض من ذلك، البيانات الثانوية هي مُنتج فرعي لعمليةٍ ما، الغرض الأساسي منها هو أي شيءٍ آخر بخلاف استخلاص البيانات. على سبيل المثال، الغرَض الأساسي من الكثير من تقنيات وسائط التواصل الاجتماعي هو تمكين المستخدِمين من التواصل مع الآخرين. غير أنه مع كل صورة تتم مشاركتها، أو كل مدوَّنة تُنشر، أو كل تغريدة يُعاد نشرها، أو منشور يَلقى إعجابًا، تتولَّد مجموعة من البيانات الثانوية مثل: من شارك، ومن شاهد، وما الجهاز المستخدم، وفي أي وقتٍ من اليوم، وأي جهاز استُخدِم في ذلك، وكم عدد الأشخاص الذين شاهدوا/أعجبوا/أعادوا النشر وهلمَّ جرًّا. وعلى نحوٍ مماثِل، الغرض الرئيسي من موقع أمازون هو تمكين المستخدِمين من إجراء عمليات شراءٍ من خلال الموقع الإلكتروني. إلا أن كل عملية شراء تُولِّد كمياتٍ مهولة من البيانات الثانوية: ما العناصر التي يضعها المستخدِم في سلة التسوق الخاصة به، ومدة تصفُّحه الموقع الإلكتروني، وما العناصر الأخرى التي تفقَّدها، وغير ذلك.
وأحد أكثر البيانات الثانوية شيوعًا هي «بيانات التعريف»؛ ألا وهي البيانات التي تصف بياناتٍ أخرى. عندما سرَّب إدوارد سنودن وثائق حول برنامج المراقبة «بريسم» التابع لوكالة الأمن القومي الأمريكية، كشف أن الوكالة كانت تجمع كميةً مهولة من بيانات التعريف حول المكالمات الهاتفية التي يُجريها الناس. كان هذا يعني أن الوكالة لم تكن تسجل محتوى المكالمات الهاتفية فعليًّا (لم تكن تتنصَّت على المكالمات الهاتفية) وإنما كانت تجمع بياناتٍ حول المكالمات الهاتفية، مثل متى أُجريت المكالمة، ومن الذي استقبلها، وكم استمرَّت مُدتها، وغيرها من البيانات الأخرى (Pomerantz 2015). ربما لا يبدو أن هذا النوع من جمع البيانات يُنذر بأي سوء؛ إلا أن دراسة «ميتافون» التي أُجريت بجامعة ستانفورد أوضحت أنواعَ الرؤى ذات الطبيعة الحساسة التي قد تكشف عنها بيانات تعريف المكالمات الهاتفية لأحد الأفراد (Mayer and Mutchler 2014). وحقيقة أن الكثير من المؤسسات لها أغراض مُحددة جدًّا تجعل من السهل نوعًا ما استنتاج معلوماتٍ حسَّاسة عن شخصٍ ما بناءً على مكالماته الهاتفية مع هذه المؤسسات. على سبيل المثال، أجرى بعض الأشخاص المشاركين في دراسة «ميتافون» مكالماتٍ هاتفية مع جمعية مُدمني الكحول المَجهولين ومُحامِي قضايا الطلاق والعيادات الطبية المتخصِّصة في الأمراض المنقولة جنسيًّا. وقد تكون الأنماط المتبعة في المكالمات الهاتفية كاشفة أيضًا. إذ أظهر تحليل الأنماط المأخوذة من الدراسة كيف تكشف أنماط المكالمات الهاتفية معلوماتٍ قد تكون حسَّاسة للغاية:
تواصَل المشارك (أ) مع عدة جماعات محلية مُتخصصة في طب الأعصاب، وصيدلية مُتخصِّصة وخدمة إدارة الحالات النادرة والخط الساخن لتوفير دواء يُستخدم لعلاج التصلُّب العصبي المتعدد … على مدار ثلاثة أسابيع، تواصَل المشارك (د) مع متجرٍ مُتخصص في تجديد المنازل وصنَّاع أقفال وموزع معدات الزراعة المائية ومتجر مُستلزمات التدخين. (Mayer and Mutchler 2014)

يركز علم البيانات عادةً على البيانات المجمعة المستخلَصة. ومع ذلك، كما توضح دراسة «ميتافون»، يمكن أن تُستخدَم البيانات الثانوية لكشف رؤيةٍ متوارية عن مواقف مُعينة. وفي السنوات الأخيرة، تزايدت فائدة البيانات الثانوية، لا سيما في مجال مشاركة العملاء وتفاعُلهم، حيث إن الربط بين مجموعات البيانات الثانوية المختلفة ينطوي على إمكانية إمداد الشركات بملفَّات تعريفٍ أكثر ثراءً عن العملاء الأفراد؛ وبالتالي يُمكِّن الشركة من توجيه خدماتها وحملات التسويق إلى عملاء مُعيَّنِين. في الواقع، اليوم يتمثل أحد العوامل المحفزة لنموِّ علم البيانات في مجال الأعمال التجارية في إدراك قيمة البيانات الثانوية وقُدرَة علم البيانات على إظهار هذه القيمة للشركات.

البيانات تتراكم على عكس الحكمة!

الهدف من علم البيانات هو استخدام البيانات للوصول إلى رؤية وفهم. ويَحثُّنا الكتاب المقدس على الوصول إلى الفهم من خلال السعي وراء الحكمة: «الْحِكْمَةُ هِيَ الرَّأْسُ، فَاقْتَنِ الْحِكْمَةَ، وَبِكُلِّ مُقْتَنَاكَ اقْتَنِ الْفَهْمَ» (سفر الأمثال آية ٧:٤ [إنجيل الملك جيمس]). وهذه النصيحة في محلها؛ إلا أنها تطرح سؤالًا عن كيف ينبغي للمرء أن يبدأ السعي وراء الحكمة. الأبيات التالية من قصيدة للشاعر تي إس إليوت بعنوان: «جوقات الإنشاد» من ديوان «الصخرة» يصف فيها التسلسُل الهرمي للحكمة والمعرفة والمعلومات:

أنَّى لنا الحكمة التي أَضَعْنَاها في المعرفة؟
وأنَّى لنا المعرفة التي أَضَعْنَاها في المعلومات؟
(Eliot 1934, 96)
fig2
شكل ٢-١: هرم البيانات والمعلومات والمعرفة والحكمة (بتصرف من Kitchin 2014a).
يعكس التسلسل الهرمي الخاص بإليوت النموذج المعياري للعلاقات الهيكلية بين الحكمة والمعرفة والمعلومات والبيانات المعروف باسم «هرم البيانات والمعلومات والمعرفة والحكمة» (انظر شكل ٢-١). في هذا الهرم، تأتي البيانات أولًا عند سفح هذا الهرم، ثم يليها المعلومات، ثم يليها المعرفة، وتأتي الحكمة عند قمَّة الهرم. وعلى الرغم من أنه ثمة اتفاق بوجهٍ عامٍّ على ترتيب الطبقات في هذا التسلسُل الهرَمي، فعادةً ما يكون الخلاف على الفوارق بين الطبقات والعمليات التي تتطلَّب الانتقال من طبقةٍ إلى الطبقة التالية. إلا أنه بصفة عامة:
  • تنشأ البيانات من خلال التجريدات أو القياسات المأخوذة من العالم الواقعي.

  • المعلومات هي بيانات جرت معالجتها، أو هيكلتها أو وضعها في سياقٍ لكي تكون ذات مغزًى بالنسبة إلى البشر.

  • المعرفة هي معلومات فُسِّرت وفُهمت بواسطة البشر لكي يتمكنوا من التصرُّف وفقًا لها إذا استلزم الأمر.

  • الحكمة هي التصرُّف بطريقة مناسبة بناءً على المعرفة.

fig3
شكل ٢-٢: هرم علم البيانات (بتصرُّف من Han, Kamber, and Pei 2011).
يمكن تمثيل الأنشطة في العمليات الخاصة بعلم البيانات باستخدام تسلسُلٍ هرمي مُشابه حيث يُمثل عرض الهرم كمية البيانات التي تُعالج عند كل مستوًى وكلما كان المستوى أعلى في الهرم، كانت نتائج الأنشطة أفيد لاتخاذ القرارات. يوضح شكل ٢-٢ التسلسل الهرمي لأنشطة علم البيانات بدايةً من استخلاص البيانات وتوليدها عبر المعالجة المسبقة والتجميع، وفهم البيانات واستكشافها، واكتشاف الأنماط، وإنشاء النماذج باستخدام تعلُّم الآلة ودعم القرارات باستخدام النماذج المستمدَّة من البيانات والمنتشرة في سياق العمل.

العملية القياسية المتعددة المجالات للتنقيب في البيانات

يتقدم الكثير من الأشخاص والشركات بانتظامٍ بمقترحات حول أفضل عمليةٍ يجب اتِّباعها لصعود هرم علم البيانات. والعملية الأشيع استخدامًا هي «العملية القياسية المتعددة المجالات للتنقيب في البيانات» (تُعرف ﺑ «كريسب-دي إم»)؛ والسبب الرئيسي وراء استخدامها على نطاقٍ واسع جدًّا هو أن هذه العملية مُصمَّمة لتكون مستقلةً عن أي برنامج أو مورد أو تقنية تحليل بيانات.

في البداية، طُوِّرت هذه العملية على يدِ اتحادٍ من المؤسسات يتألف من مُورِّدين روادٍ في مجال علم البيانات، ومستخدِمين نهائيين، وشركات استشارية، وباحثين. تمت رعاية مشروع «كريسب-دي إم» الأصلي جزئيًّا بواسطة المفوضية الأوروبية بموجب البرنامج الاستراتيجي الأوروبي لأنشطة البحث والتطوير في تكنولوجيا المعلومات، وقُدمت العملية لأول مرةٍ في ورشة عمل عُقدت في عام ١٩٩٩. ومنذ ذلك الحين، أُجري عدد من المحاولات لتحديث العملية، إلا أن النسخة الأصلية لا تزال شائعة الاستخدام. ولسنوات عديدة، كان هناك موقع إلكتروني مُخصص ﻟ «كريسب-دي إم»، إلا أنه في السنوات الأخيرة لم يعد هذا الموقع متاحًا، وفي بعض الأحيان ربما تُعيد شركة آي بي إم — التي تُعَد أحد المساهمين الأصليين في المشروع — توجيهك إلى موقع برنامج التحليل الإحصائي «إس بي إس إس». نشر الاتحاد الأصلي دليلًا تفصيليًّا للعملية خطوةً بخطوة (يتألف من ٧٦ صفحة) يسهل قراءته ومُتاح مجانًا عبر الإنترنت (انظر Chapman et al. 1999)، غير أنه يُمكن تلخيص البنية الأساسية والمهام الكبرى للعملية في بضع صفحات.
fig4
شكل ٢-٣: مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات الستة (استنادًا إلى شكل ٢-١ في Chapman, Clinton, Kerber, et al. 1999).
تتكوَّن عملية «كريسب-دي إم» من ستِّ مراحل: «فهم العمل التجاري، وفهم البيانات، وتجهيز البيانات، والنمذجة، والتقييم، والنشر»، كما هو مُبين في شكل ٢-٣. البيانات هي محور جميع أنشطة علم البيانات، ولهذا السبب تأتي البيانات في منتصف الرسم التوضيحي لهذه العملية. وتُشير الأسهم بين المراحل إلى الاتجاه النموذجي للعملية. والعملية شِبه هيكلية، الأمر الذي يعني أن عالِم البيانات لا ينتقل دومًا عبر هذه المراحل الستة بشكلٍ خطِّي مُنتظم. استنادًا إلى النتيجة الخاصة بمرحلةٍ مُعينة، ربما يعود عالِم البيانات إلى إحدى المراحل السابقة، أو يُعيد إجراء المرحلة الحالية، أو ينتقل إلى المرحلة التالية.

في أول مرحلتَين، فهم العمل وفهم البيانات، يُحاول عالِم البيانات تحديد أهداف المشروع من خلال فهم احتياجات العمل والبيانات المتاحة. في المراحل الأولى من المشروع، غالبًا ما يتنقَّل عالِم البيانات بصورةٍ متكررة بين التركيز على فهم العمل واستكشاف البيانات المتاحة. ويشتمل هذا الانتقال عادةً تحديد مشكلة العمل ثم اكتشاف ما إذا كانت البيانات المناسبة متاحةً لتطوير حلٍّ مُستنِدٍ إلى البيانات. فإذا كانت البيانات متاحة، يمكن للمشروع المضي قدمًا؛ وإن لم تكن متاحة، سيتعيَّن على عالِم البيانات تحديد مشكلةٍ بديلة للتعامل معها. وخلال هذه المرحلة من المشروع، سيقضي عالِم البيانات وقتًا طويلًا في الاجتماعات مع الزملاء من الأقسام التي تركز على النشاط التجاري (مثل المبيعات والتسويق والعمليات التشغيلية) لفهم مشاكلهم، ومع مديري قواعد البيانات حتى يتسنى له فهم البيانات المتاحة.

وبمجرد أن يُحدد عالِم البيانات بكل وضوحٍ مشكلة العمل ويطمئنَّ إلى أن البيانات المناسبة متوفرة، ينتقل إلى المرحلة التالية من العملية؛ ألا وهي تجهيز البيانات. ينصبُّ تركيز هذه المرحلة على إنشاء مجموعة بياناتٍ يمكن استخدامها في تحليل البيانات. وبوجهٍ عام، يشمل إنشاء هذه المجموعة من البيانات دمج مصادر البيانات من عدة قواعد بيانات. وعندما يكون لدى إحدى المؤسَّسات مخزن بيانات، ربما يكون هذا الدمج للبيانات بسيطًا إلى حدٍّ ما. وبمجرد أن أُنشئت مجموعة البيانات، يجب التحقق من جودة البيانات وتحديدها. وتشمل المشكلات النمطية لجودة البيانات القِيَم المتطرفة (الشوارد) والقيم المفقودة. والتحقق من جودة البيانات أمر مُهم للغاية، لأن وجود أخطاء في البيانات قد يكون له تأثير خطير على أداء خوارزميات تحليل البيانات.

المرحلة التالية من العملية القياسية المتعددة المجالات للتنقيب في البيانات هي مرحلة النمذجة. هذه هي المرحلة التي تُستخدَم فيها الخوارزميات الآلية لاستخراج أنماطٍ مفيدة من البيانات وإنشاء نماذج تُشفر هذه الأنماط. وتعلُّم الآلة هو مجال من علوم الكمبيوتر يُركز على تصميم هذه الخوارزميات. وفي مرحلة النمذجة، سيستخدِم عالِم البيانات عادةً عددًا من خوارزميات تعلُّم الآلة المختلفة، لتدريب عددٍ من النماذج المختلفة على مجموعة البيانات. يتدرب النموذج على مجموعة بياناتٍ من خلال تشغيل خوارزمية تعلُّم آلةٍ على مجموعة البيانات من أجل تحديد الأنماط المفيدة في البيانات وإخراج نموذجٍ يُشفر هذه الأنماط. وفي بعض الحالات، تعمل خوارزمية تعلُّم الآلة من خلال مواءمة بِنية نموذجٍ جاهز لتُناسب إحدى مجموعات البيانات، وذلك عبر ضبط معاملات النموذج الجاهز على قِيَمٍ مناسبة لمجموعة البيانات (مثل مواءمة الانحدار الخطِّي أو نموذج الشبكة العصبية ليناسب مجموعة بيانات معيَّنة). وفي حالات أخرى، تنشئ خوارزمية تعلُّم الآلة نموذجًا بالتدريج؛ جزءًا تلوَ الآخر (مثل إنشاء شجرة اتخاذ قرار، عقدةً تلوَ الأخرى، بداية من عقدة جِذر الشجرة). في معظم مشروعات علم البيانات، في النهاية يكون النموذج المولد بواسطة خوارزمية تعلُّم الآلة هو البرنامج الذي تنشره المؤسسة لمساعدتها في حل المشكلة التي يعمل مشروع علم البيانات على حلها. وكل نموذج مُدرب بواسطة نوع مختلف من خوارزمية تعلُّم الآلة، وكل خوارزمية تبحث في البيانات عن أنواع مختلفة من الأنماط. في هذه المرحلة من المشروع، عادةً لا يعرف عالِم البيانات نوعَ الأنماط التي يجدُر به أن يبحث عنها في البيانات، ولذا، في هذا السياق، من المنطقي تجربة عددٍ من الخوارزميات المختلفة وملاحظة أي الخوارزميات تُنتِج أدقَّ النماذج عند تشغيلها على مجموعة البيانات. في الفصل الرابع، سنُقدم خوارزميات تعلُّم الآلة والنماذج بمزيدٍ من التفاصيل، ونشرح كيفية وضع خطةِ فحصٍ لتقييم دقة النموذج.

في أغلب مشروعات علم البيانات، ستكشف النتائج المبدئية لاختبار النموذج عن المشكلات الموجودة في البيانات. وأحيانًا، تظهر أخطاء البيانات عندما يُحقق عالِم البيانات في أسباب تدنِّي مستوى أداء أحد النماذج عما هو مُتوقَّع أو عندما يلاحظ أن أداء النموذج ربما يكون جيدًا على نحوٍ مثير للريبة. أو من خلال فحص بِنية النموذج، ربما يكتشف عالِم البيانات أن النموذج يعتمد على سماتٍ لم يكن يتوقعها، ونتيجة لذلك يعيد النظر في البيانات للتأكد من أن هذه السمات شُفِّرت على النحو الصحيح. ولذا، من الشائع أن يمر مشروع بهاتَين المرحلتَين في العملية عدة مرات: النمذجة، وتجهيز البيانات؛ ثم النمذجة، وتجهيز البيانات، وهكذا دواليك. على سبيل المثال، أعلن دان شتاينبرج وفريقه أنه خلال أحد مشروعات علم البيانات، أعادوا إنشاء مجموعة البيانات الخاصة بهم ١٠ مرات على مدى ستةِ أسابيع، وفي الأسبوع الخامس، وبعد تنفيذ عمليتَي تنظيف البيانات وتجهيزها عدة مرات، اكتشفوا خطأً جسيمًا في البيانات (Steinberg 2013). ولو لم يُحدَّد هذا الخطأ ويُصحَّح، لمَا نجح المشروع.

تُركز المرحلتان الأخيرتان من عملية «كريسب-دي إم»، التقييم والنشر، على مدى ملاءمة النماذج للعمل وعملياته. وتركز الاختبارات التي تُجرى أثناء مرحلة النمذجة فقط على دقة النماذج بالنسبة إلى مجموعة البيانات. بينما تنطوي مرحلة التقييم على تقييم النماذج في سياقٍ أوسع تُحدِّده احتياجات العمل. فهل يحقق النموذج أهداف العمل الخاصة بالعملية؟ هل هناك أية أسباب تتعلق بالعمل وراء عدم كفاية النموذج؟ وفي هذه المرحلة من العملية، من المفيد أيضًا أن يُجري عالِم البيانات مراجعة عامة لضمان جودة أنشطة المشروع: هل هناك أي شيءٍ ناقص؟ هل يمكن تحسين أي شيء؟ وبناءً على التقييم العام للنماذج، يكون القرار الرئيسي الذي يُتخَذ أثناء مرحلة التقييم هو ما إذا كان ينبغي نشر أيٍّ من النماذج على مستوى الشركة أو ما إذا كان ينبغي تكرار عملية «كريسب-دي إم» مرة أخرى لإنشاء نماذج أكفأ. بافتراض أن عملية التقييم اعتمدت نموذجًا أو عدة نماذج، في هذه الحالة ينتقل المشروع إلى المرحلة الأخيرة من العملية؛ ألا وهي النشر. وتشمل هذه المرحلة التحقُّق من كيفية نشر النماذج المختارة في بيئة العمل. وينطوي هذا على التخطيط لكيفية دمج النماذج في البِنية التحتية التقنية والعمليات الخاصة بالعمل. وأفضل النماذج هي النماذج التي تتلاءم بسلاسةٍ مع الممارسات الحالية للمؤسسة. وهذه النماذج لها مجموعة طبيعية من المستخدِمين الذين يواجهون مشكلةً محددة بوضوح يساعدهم النموذج في حلها. وثمة جانب آخر من النشر، ألا وهو وضع خطة لمراجعة أداء النموذج بصفةٍ دورية.

توضح الدائرة الخارجية من الرسم التوضيحي الخاص بالعملية القياسية المتعددة المجالات للتنقيب في البيانات «كريسب-دي إم» (شكل ٢-٣) إلى أيِّ مدًى تكون العملية برمَّتها متكررة. وربما تكون الطبيعة التكرارية لمشروعات علم البيانات هي الجانب الذي غالبًا ما يُتغافَل عنه في مناقشات علم البيانات. وبعد أن يُطور المشروع نموذجًا وينشره، ينبغي مراجعة النموذج بصفةٍ منتظمة للتأكُّد من أنه لا يزال يتناسب مع احتياجات العمل وأنه لم يُصبح عتيقًا. وثمة أسباب كثيرة تجعل النموذج المستنِد إلى البيانات قد يصبح عتيقًا؛ إذ ربما تكون احتياجات العمل قد تغيرت؛ أو تكون العملية التي يُحاكيها النموذج ويُقدم رؤية حولها قد تغيرت (مثل حدوث تغيرات في سلوك العملاء، وحدوث تغيرات في الرسائل العشوائية، وهكذا)؛ أو تكون تدفُّقات البيانات التي يستخدمها النموذج قد تغيرت (على سبيل المثال، ربما حُدِّث جهاز الاستشعار الذي يُغذي النموذج بالمعلومات، ومن ثم تُقدم النسخة الجديدة من جهاز الاستشعار قراءاتٍ مختلفة على نحوٍ طفيف، مما يتسبَّب في جعل النموذج أقل دقة). يعتمد تواتر هذه المراجعة على مدى سرعة تطوُّر النظام البيئي للأعمال والبيانات الذي يستخدمه النموذج. ومن الضروري إجراء مراقبةٍ مستمرة لتحديد أفضل وقتٍ لمراجعة العملية بدقةٍ مرة أخرى. وهذا ما تُمثله الدائرة الخارجية لعملية «كريسب-دي إم» المبيَّنة في شكل ٢-٣. على سبيل المثال، بناءً على البيانات، والمسألة محل الدراسة، والمجال، ربما يتعيَّن عليك مراجعة هذه العملية المتكررة بدقةٍ بصفة سنوية أو ربع سنوية أو شهرية أو أسبوعية أو حتى يومية. يُلخص شكل ٢-٤ المراحل المختلفة للعملية الخاصة بمشروع علم البيانات والمهام الرئيسية التي تنطوي عليها كل مرحلة.
fig5
شكل ٢-٤: مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات ومهامها (استنادًا إلى شكل ٢-٢ في Chapman, Clinton, Kerber, et al. 1999).
من الأخطاء المتكررة التي يقع فيها الكثير من علماء البيانات المبتَدِئين تركيز جهودهم على مرحلة النمذجة في عملية «كريسب-دي إم» والتسرُّع في المراحل الأخرى. ولعلهم يعتقدون أن أهم ما يمكن الخروج به من أي مشروعٍ هو النموذج، وبالتالي ينبغي لعالِم البيانات أن يُخصص أغلب وقته لإنشاء النموذج وضبطه. أما علماء البيانات المخضرمون، فإنهم يقضون المزيد من الوقت في ضمان أن يُركز المشروع على هدفٍ مُحدد وأن يمتلك البيانات المناسبة. ولكي يُحقق مشروع علم البيانات نجاحًا، يجب أن يتوافر لدى عالِم البيانات فهمٌ واضح لحاجة العمل التي يُحاول المشروع أن يُلبيها. إذن فمرحلة فهم العمل هي مرحلة مهمة فعلًا من العملية. أما بخصوص الحصول على البيانات المناسبة لمشروعٍ ما، فقد وجد أحد الاستطلاعات التي أُجريت على علماء البيانات في عام ٢٠١٦ أنهم يقضون ٧٩ بالمائة من وقتهم في تجهيز البيانات. كان الوقت المستغرَق في المهام الأساسية في المشروع موزعًا كما يلي: ١٩ بالمائة مُخصص لتجميع مجموعات البيانات؛ ٦٠ بالمائة مُخصص لتنظيف البيانات وتنظيمها؛ و٣ بالمائة مُخصص لإنشاء مجموعات التدريب؛ و٩ بالمائة مخصص للتنقيب في البيانات بحثًا عن أنماط؛ و٤ بالمائة مُخصص لتحسين الخوارزميات؛ و٥ بالمائة مُخصص لأداء المهام الأخرى (Crowd-Flower 2016). وتأتي نسبة اﻟ ٧٩ بالمائة المخصصة لتجهيز البيانات من جمع الوقت المستغرَق في جمع البيانات وتنظيفها وتنظيمها. وظلَّت هذه النتيجة المتمثلة في أن حوالي ٨٠ في المائة من وقت المشروع ينقضي في جمع البيانات وتجهيزها، ثابتة في جميع استطلاعات الرأي التي تمَّت في مجال علم البيانات لعددٍ من السنوات. أحيانًا، تفاجئ هذه النتيجة الناس لأنهم يتخيلون أن علماء البيانات يقضون وقتهم في إنشاء النماذج المعقدة لاستخراج رؤيةٍ ثاقبة من البيانات. ولكن الحقيقة ببساطة هي أنه بغضِّ النظر عن مدى جودة تحليلك للبيانات، فإن هذا التحليل لن يُحدد الأنماط المفيدة ما لم يُجْرَ على البيانات المناسبة.

جميع الحقوق محفوظة لمؤسسة هنداوي © ٢٠٢٥