النظام البيئي لعلم البيانات
تتنوع مجموعة التقنيات المستخدمة لممارسة علم البيانات عبر مختلف المؤسسات. فكلما كانت المؤسسة أكبر أو كانت كمية البيانات التي تتم معالجتها أكثر أو كِلا الأمرَين معًا، زادت درجة تعقيد النظام البيئي التكنولوجي الداعم لأنشطة علم البيانات. وفي معظم الحالات، يحتوي هذا النظام على أدواتٍ ومكوناتٍ من عدد من مورِّدي البرامج المختلفين، مما يسفر عن معالجة البيانات بالعديد من التنسيقات المختلفة. وهناك طَيف من المناهج التي تستطيع المؤسسة أن تختار منها عند تطوير نظامها البيئي لعلم البيانات. على أحد طرفي الطيف، ربما تقرر المؤسسة الاستثمار في مجموعة أدواتٍ تجارية مدمجة. وعلى الطرف الآخر، ربما تُنشئ نظامًا بيئيًّا مخصَّصًا عن طريق دمج مجموعة من اللغات والأدوات المفتوحة المصدر. وبين هذَين النقيضَين، يوفر بعض مورِّدي البرمجيات حلولًا تتكون من مزيج من المنتجات التجارية والمنتجات المفتوحة المصدر. ومع ذلك، على الرغم من أن المزيج المحدَّد من الأدوات سيختلف من مؤسسةٍ إلى أخرى، ثمَّة قاسم مشترك فيما يخص المكونات الموجودة في معظم بِنَى علم البيانات.
تمتلك جميع المؤسسات تطبيقاتٍ تولِّد وتستخلِص بياناتٍ عن العملاء والمعاملات، وبيانات تشغيلية عن كل شيءٍ له علاقة بكيفية سير العمل في المؤسسة. وتتضمن مصادر البيانات والتطبيقات إدارة العملاء، والطلبيات، والتصنيع، والتسليم، وإصدار الفواتير، والمعاملات البنكية، والشئون المالية، وإدارة علاقات العملاء، ومركز الاتصالات، وتطبيقات تخطيط موارد المؤسسة، وما إلى ذلك. وعادةً ما يُشار إلى هذه الأنواع من التطبيقات على أنها أنظمة «معالجة المعاملات عبر الإنترنت». بالنسبة إلى الكثير من مشروعات علم البيانات، تُستخدَم البيانات المستخلَصة من هذه التطبيقات لتشكيل مجموعة البيانات الأوَّلية المدخلة لخوارزميات تعلُّم الآلة. وبمرور الوقت، يزداد حجم البيانات المستخلَصة من التطبيقات المتعددة داخل المؤسسة أكثر فأكثر وتبدأ المؤسسة في التشعُّب لاستخلاص البيانات التي جرى تجاهلها، أو التي لم استُخلِصت فيما مضى، أو التي لم تكن متاحةً من قبل. ويُشار إلى هذه البيانات الأحدث عادةً ﺑ «مصادر البيانات الضخمة» لأن حجم البيانات التي تُستخلَص أكبر بكثيرٍ من تطبيقات التشغيل الرئيسية الخاصة بالمؤسسة. تشمل بعض مصادر البيانات الضخمة الشائعة حركة النقل عبر الشبكة، وبيانات تسجيل الدخول من التطبيقات المتعددة، وبيانات أجهزة الاستشعار، وبيانات المدونات الإلكترونية، وبيانات وسائل التواصل الاجتماعي، وبيانات مواقع الإنترنت، وهلم جرًّا. في مصادر البيانات التقليدية، تُخزَّن البيانات عادة في قاعدة بيانات. ومع ذلك، نظرًا إلى أن التطبيقات المرتبطة بالكثير من مصادر البيانات الضخمة الأحدث ليست مصممة بالأساس لتخزين البيانات على المدى الطويل — كما هو الحال مع البيانات المتدفقة مثلًا — تختلف تنسيقات التخزين وبِنياته لهذا النوع من البيانات من تطبيقٍ إلى آخر.

عملية تخزين البيانات في مستودعات البيانات هي في الأساس عملية تجميع للبيانات وتحليلها بهدف دعم اتخاذ القرارات. ومع ذلك، ينصبُّ تركيز هذه العملية على إنشاء مستودع بيانات مركزي جيد التصميم. ومن هذا المنطلَق، يُعد مستودع البيانات موردًا مهمًّا لعلم البيانات. ومن منظور علم البيانات، إحدى المزايا الكبرى لوجود مستودع بيانات هي إنجاز المشروع في وقتٍ أقصر بكثير. تُعد البيانات المكَوِّن الأساسي لأية عملية خاصة بعلم البيانات، ولذا ليس من المستغرب أنه في الكثير من المشروعات يُستغرَق أغلب الوقت ويُبذَل أغلب الجهد في العثور على البيانات وتجميعها وتنظيفها قبل البدء في تحليلها. فإذا توفَّر مستودع بيانات بإحدى الشركات، عادةً ما يقلُّ الجهد والوقت المبذولان في تجهيز البيانات الخاصة بمشروعات علم البيانات على نحوٍ ملحوظ. ومع ذلك، من الممكن إنجاز العمليات الخاصة بعلم البيانات رغم عدم وجود مستودع بيانات مركزي. وينطوي إنشاء مستودع بيانات مركزي على أكثرَ مِن مجرد تكديس البيانات المأخوذة من عدة قواعد بيانات تشغيلية في قاعدة بيانات واحدة.
يتعامل الجزء الثاني من مستوى مخازن البيانات مع إدارة البيانات الناتجة عن مصادر البيانات الضخمة الخاصة بالشركة. في هذه البنية، تُستخدَم منصة هادوب لتخزين هذه البيانات الضخمة وتحليلها. وهادوب هي منصة مفتوحة المصدر طوَّرتها مؤسسة أباتشي للبرمجيات، وهي مصمَّمة خصوصًا لمعالجة البيانات الضخمة. وتستخدِم منصة هادوب نظامَ تخزينٍ ومعالجة موزعًا عبر مجموعات من وحدات الخدمة. ومن خلال استخدام نموذج برمجة «ماب رديوس»، تُسرِّع هادوب من عملية معالجة الاستعلامات في مجموعات البيانات الكبيرة. ويُنفذ نموذج «ماب رديوس» استراتيجية «التقسيم — التنفيذ — التجميع»؛ بحيث: (أ) تُقسَّم مجموعة البيانات الكبيرة إلى أجزاء منفصلة، ويُخزَّن كل جزء على عقدة (كمبيوتر) مختلفة في مجموعة الأجهزة؛ (ب) ثم يُنفذ استعلام على جميع الأجزاء بالتوازي؛ (ﺟ) وتُحسب نتيجة الاستعلامات من خلال جمع النتائج المتولدة على الأجزاء المختلفة. غير أنه خلال العامَين الماضيِيَن استُخدِمت منصة هادوب أيضًا كامتداد لمستودع بيانات المؤسسات. وبالأساس، كان من شأن مستودعات البيانات أن تُخزِّن بيانات ثلاث سنوات؛ أما الآن فهي تستطيع تخزين بياناتِ أكثرَ مِن عشر سنوات، وهذا الرقم قيد الزيادة المستمرة. ومع ذلك، عندما تزداد كمية البيانات في مستودع البيانات، يجب أن تتزايد متطلبات التخزين والمعالجة الخاصة بقاعدة البيانات ووحدة الخدمة أيضًا. وقد يكون لهذا الشرط آثار كبيرة من حيث التكلفة. ويتمثل البديل في نقل بعضٍ من البيانات القديمة إلى مستودع بيانات لتخزينها في هادوب. على سبيل المثال، من شأن مستودع البيانات أن يُخزن أحدث البيانات، لِنَقُل بيانات ثلاثِ سنواتٍ مثلًا، التي يجب أن تكون متاحةً على نحو متكرر لتحليلها وتمثيلها بسرعة، في حين البيانات الأقدم والأقل استخدامًا تُخزن على منصة هادوب. وتحظى معظم قواعد البيانات على مستوى المؤسسة بسماتٍ تربط مستودع البيانات بمنصة هادوب، مما يُتيح لعالِم البيانات الاستعلام عن البيانات في كلا المكانين كما لو أنها موجودة جميعًا في بيئةٍ واحد، وهذا باستخدام لغة الاستعلام الهيكلية. وقد يشمل استعلامه الوصول إلى بعض البيانات في قاعدة بيانات المستودع وبعض البيانات الأخرى الموجودة على منصة هادوب. ستنقسم معالجة الاستعلام تلقائيًّا إلى جزأين منفصلين، كلٌّ منهما يعمل على نحوٍ مستقلٍّ عن الآخر، وستُجمع النتائج تلقائيًّا وتُدمَج قبل أن تظهر مرة أخرى أمام عالِم البيانات.
نقل الخوارزميات إلى البيانات

تُقدِّم تجربة أُجْرِيَتْ في معهد دبلن للتكنولوجيا بخصوص إنشاء نموذج انحدارٍ خطِّي مثالًا على الوقت المستغرق في كل مرحلةٍ من العملية. يُقضى من ٧٠ إلى ٨٠ بالمائة من الوقت تقريبًا في استخراج البيانات وتجهيزها؛ أما الوقت المتبقي فيُقضى في إنشاء النماذج. ومن أجل تحديد قيمة البيانات، يُقضى ٩٠ بالمائة من الوقت تقريبًا في استخراج البيانات وحفظ مجموعة البيانات التي حُدِّدت قيمتها مرةً أخرى في قاعدة البيانات؛ ويُقضى ١٠ بالمائة فقط من الوقت في تحديد القِيَم فعليًّا. وتستند هذه النتائج إلى مجموعات البيانات التي تتكوَّن من عددٍ يتراوح ما بين ٥٠ ألف سجلٍّ وحتى ١٫٥ مليون سجل. ولقد أدرك أغلب مُقدمي خدمات قواعد البيانات للشركات الوقت الذي يتمُّ توفيره إذا لم يُقضَ الوقت في نقل البيانات ولقد حلُّوا هذه المشكلة من خلال دمج وظيفة تحليل البيانات وخوارزميات تعلُّم الآلة في مُحركات قواعد البيانات الخاصة بهم. وتستكشف الأقسام التالية من هذا الفصل كيف تُدمج خوارزميات تعلُّم الآلة في قواعد البيانات الحديثة، وكيف يعمل تخزين البيانات في عالَم البيانات الضخمة الخاص بمنصة هادوب، وكيف يُتيح الاستعانة بمزيجٍ من هذَين المنهجَين للمؤسسات العمل بسهولة ويُسر مع جميع بياناتها باستخدام لغة الاستعلام الهيكلية بوصفها لغةً مشتركة للوصول إلى البيانات والتحليل وأداء تعلُّم الآلة والتحليلات التنبُّؤية في الوقت الفعلي.
يمكن قضاء قدْر كبير من الوقت في مجرد نقل البيانات من قواعد البيانات وإعادة النتائج إليها مرة أخرى.
قاعدة البيانات التقليدية أم قاعدة البيانات التقليدية الحديثة
- • لا حاجة لنقل البيانات: تستلزم بعض منتجات علم البيانات تصدير البيانات من قواعد البيانات وتحويلها إلى تنسيقٍ مُخصص لإدخالها إلى خوارزميات تعلُّم الآلة. وبالاستعانة بتعلُّم الآلة المدمَج في قاعدة البيانات، لا حاجة لنقل البيانات أو تحويلها. وهذا يجعل العملية بأكملِها أقلَّ تعقيدًا وأقل استهلاكًا للوقت وأقل عرضة للأخطاء.
- • توفير أداء أسرع: في ظل العمليات التحليلية التي تُجرى في قاعدة البيانات وفي ظلِّ غياب نقل البيانات، من الممكن الاستفادة من قدرات الحوسبة الخاصة بوحدة خدمة قاعدة البيانات، مما يوفر أداءً أسرع حتى ١٠٠ مرة من أداء المنهج التقليدي. تتمتع أغلب وحدات خدمة قواعد البيانات بمواصفاتٍ عالية، ذات وحدات معالجة مركزية كثيرة وقدرة على إدارة الذاكرة بكفاءة بهدف معالجة مجموعات البيانات التي تحتوي على أكثر من مليار سجل.
- • توفير أمانٍ عالٍ: تُوفر قاعدة البيانات وصولًا إلى البيانات الموجودة في قاعدة البيانات على نحوٍ خاضع للتحكم وقابل للمراجعة والتدقيق، مما يُسرع إنتاجية عالِم البيانات مع توفير عنصر الحماية للبيانات. يتجنَّب تعلُّم الآلة المدمَج في قاعدة البيانات المخاطر الأمنية المادية الكامنة في استخلاص البيانات وتنزيلها على وحدات خدمةٍ تحليلية بديلة. وعلى النقيض من ذلك، يُسفر عن العملية التقليدية إنتاج العديد من النُّسَخ (وربما إصدارات مختلفة) من مجموعات البيانات في مستودعاتٍ منفصلة عبر المؤسسة.
- • قابلية التوسع: يمكن أن تتوسَّع قاعدة البيانات بسهولةٍ في إجراء التحليلات مع زيادة حجم البيانات؛ هذا إذا أُدخلت خوارزميات تعلُّم الآلة إلى قاعدة البيانات. تُصمم برامج قواعد البيانات من أجل إدارة كمياتٍ كبيرة من البيانات بكفاءة، عن طريق استغلال وحدات المعالجة المركزية المتعددة والذاكرة الموجودة على وحدة الخدمة ليُتاح تشغيل خوارزميات تعلُّم الآلة بالتوازي. كما أن قواعد البيانات شديدة الفعالية في معالجة مجموعات البيانات الكبيرة التي لا تحتويها الذاكرة بسهولة. لقد تطوَّرت قواعد البيانات على مدار أكثر من ٤٠ عامًا لضمان تمكُّنها من معالجة مجموعات البيانات بسرعة.
- • نشر وبيئات الوقت الفعلي: يمكن نشر النماذج التي تمَّ تطويرها باستخدام خوارزميات تعلُّم الآلة المدمَجة في قاعدة البيانات واستخدامها في بيئات الوقت الفعلي. ويُتيح هذا دمج النماذج في التطبيقات اليومية، مما يوفِّر تنبؤات للمستخدِمين والعملاء النهائيِّين في الوقت الفعلي.
- • النشر في بيئة الإنتاج: قد يتطلَّب نشر النماذج المطوَّرة باستخدام برامج تعلُّم الآلة المستقلة إعادة تشفيرها بلغاتِ برمجةٍ أخرى قبل دمجِها في تطبيقات المؤسسة. لكنَّ هذا ليس هو الحال مع نماذج تعلُّم الآلة المدمَجة في قاعدة البيانات. فلُغة الاستعلام الهيكلية هي لغة قاعدة البيانات الأساسية، ويمكن استخدامُها واستدعاؤها من أية لغةِ برمجةٍ أو أداة أخرى من أدوات علم البيانات. وبالتالي يمكن دمج النماذج المدمجة في قاعدة البيانات بسهولةٍ في تطبيقات الإنتاج.
-
شركة فيسيرف، وهي شركة أمريكية تُقدم الخدمات المالية وخدمات التحليل والكشف عن الاحتيال. تحولت شركة فيسيرف من الاستعانة بعدَّة مورِّدين للخدمات الخاصة بتخزين البيانات وتعلُّم الآلة إلى الاستعانة بإمكانيات تعلُّم الآلة المدمجة في قواعد بياناتها. ومن خلال الاستعانة بتعلُّم الآلة المدمَج في قاعدة البيانات، تضاءل الوقت المستغرق لإنشاء/تحديث ونشر نموذج كشف الاحتيال من أسبوع تقريبًا إلى بضع ساعاتٍ فحسب.
-
شركة ٨٤.٥١° (كانت تُعرف سابقًا باسم شركة دانهامبي الولايات المتحدة الأمريكية)، وهي شركة مُتخصصة في علم بيانات العملاء. تستعين الشركة بالعديد من المنتجات التحليلية المختلفة لإنشاء نماذج العملاء المختلفة. كان من المعتاد أن تستغرق أكثر من ٣١٨ ساعة شهريًّا لنقل البيانات من قواعد بياناتها إلى أدوات تعلُّم الآلة والعكس مرةً أخرى، بالإضافة إلى ٦٧ ساعة شهريًّا لإنشاء النماذج. وعندما تحولت الشركة إلى استخدام خوارزميات تعلُّم الآلة المدمجة في قاعدة بياناتها، لم يعُد هناك حاجة إلى نقل البيانات. وبقِيَت البيانات في قاعدة البيانات. ووفرت الشركة على الفور ٣١٨ ساعة شهريًّا. ونظرًا إلى أنها كانت تستخدِم قاعدة بياناتها كمحرِّكٍ حوسبي، استطاعت أن تتوسَّع في تحليلاتها، ومن ثم تضاءل الوقت المستغرَق في إنشاء أو تحديث نماذج تعلُّم الآلة من أكثر من ٦٧ ساعة إلى ساعةٍ واحدة شهريًّا. وهذا وفَّر للشركة ستة عشر يومًا كل شهر. لقد أصبحت الآن قادرةً على الحصول على نتائج أسرع ويمكنها الآن أن تقدم لعملائها نتائج في وقتٍ أقرب بكثيرٍ بعد إجراء عملية شراء.
-
شركة وورجيمينج، صاحبة ابتكار لعبة «وورلد أوف تانكس» (عالم الدبابات) وغيرها من الألعاب. تستعين الشركة بتعلُّم الآلة المدمَج في قاعدة البيانات لنمذجة وتوقع كيفية التفاعُل مع عملائها الذين يفوق عددهم ١٢٠ مليون عميل.
البنية التحتية للبيانات الضخمة
على الرغم من أن قاعدة البيانات التقليدية (الحديثة) تتَّسم بفعالية مذهلة في معالجة بيانات المعاملات التجارية، فإن الحاجة تدعو إلى وجود بِنية تحتية جديدة لإدارة جميع أشكال البيانات وتخزينها على المدى الطويل في عصر البيانات الضخمة. ويمكن لقاعدة البيانات التقليدية المعاصرة أن تتعامل مع أحجام البيانات الكبيرة والتي يصل حجمها إلى بِضع بيتابايت؛ إلا أنه ربما تُصبح حلول قواعد البيانات باهظةً على نحوٍ تعجيزي بالنسبة إلى هذا الحجم من البيانات. وعادةً ما يُشار إلى مشكلة التكلفة هذه ﺑ «التوسُّع العمودي». في نموذج البيانات التقليدي، كلما زادت كمية البيانات التي تُضطَر إحدى المؤسسات إلى تخزينها ومعالجتها خلال فترة زمنية معقولة، زاد حجم وحدة خدمة قاعدة البيانات اللازمة لذلك، وفي المقابل زادت التكلفة من أجل إعدادات وحدة الخدمة وترخيص قاعدة البيانات. ربما تستطيع المؤسسات استيعاب والاستعلام عن مليار سجلٍّ بصفة يومية/أسبوعية باستخدام قواعد البيانات التقليدية، غير أنها ربما تُضطَر إلى استثمار أكثر من ١٠٠ ألف دولار فقط لشراء العتاد اللازم لإجراء هذا الحجم من المعالجة.
تُعَد هادوب منصة مفتوحة المصدر طورتها وأطلقتها مؤسسة أباتشي للبرمجيات. وهي منصة مُجربة لاستيعاب وتخزين أحجام مهولة من البيانات بطريقة فعَّالة وقد تكون أقل تكلفةً بكثير من منهج قاعدة البيانات التقليدية. في منصة هادوب، تُقسَّم البيانات وتُجزَّأ بطرقٍ متنوعة، وتُوزَّع هذه الأجزاء من البيانات عبر العقد على منصة هادوب. تُعالِج أدوات التحليل المتنوعة التي تتعامل مع منصة هادوب البيانات الموجودة على كل عقدة من العُقَد (في بعض المثيلات يمكن أن تتواجد هذه البيانات على الذاكرة)، مما يُتيح معالجةً سريعة للبيانات نظرًا إلى أن عمليات التحليل تتم بالتوازي عبر العُقَد. ولا حاجة لاستخراج البيانات أو لعمليات «الاستخراج والتحويل والتحميل». تُجرى عملية تحليل البيانات حيث يتمُّ تخزينها.
عالَم قواعد البيانات المختلطة
إذا كانت إحدى المؤسسات لا تمتلك بيانات بالحجم والمقدار اللازمَين للاستعانة بمنصة هادوب، سيتطلب الأمر برنامج قواعدِ بياناتٍ تقليديًّا لإدارة بياناتها. ومع ذلك، تذكر بعض المؤلَّفات أن أدوات تخزين ومعالجة البيانات المتاحة في عالم هادوب ستحلُّ محلَّ قواعد البيانات الأكثر تقليديةً. ومِن الصعب جدًّا رؤية حدوث هذا، وفي الآونة الأخيرة صار هناك الكثير من المناقشات الدائرة حول اتِّباع منهج أكثرَ توازنًا لإدارة البيانات فيما يُسمى «عالَم قواعد البيانات المختلطة». وهذا العالَم هو المكان الذي تُوجَد فيه قواعد البيانات التقليدية وعالَم هادوب معًا.
توازن قاعدة البيانات المختلطة تلقائيًّا موقع البيانات بناءً على تواتر الوصول إلى البيانات ونوع عمليات البيانات التي تُجرى.

تجهيز البيانات ودمجها
يشمل دمج البيانات استخراج البيانات من مصادرها المختلفة ودمجها معًا لتوفر رؤية موحدة للبيانات من مختلف أقسام المؤسسة. وتُعد السجلات الطبية مثالًا جيدًا على هذا الدمج. كوضعٍ مثالي، من المفترض أن يكون لكل شخصٍ سجل صحِّي واحد، وأن يستخدم كلُّ مستشفًى أو منشأة طبية أو طبيب مُمارس عام رقم التعريف نفسه للمريض أو وحدات القياس نفسها، ونظام التصنيف نفسه، وهكذا. ولكن لسوء الحظ، يمتلك كل مستشفًى تقريبًا نظامه المستقل لإدارة شئون المرضى، وكذلك كل مُختبر من المختبرات الطبية داخل المستشفى. تأمُل التحديات الكامنة في العثور على سجل أحد المرضى وتحديد النتائج الصحيحة للمريض الصحيح. وهذه هي التحديات التي يُواجهها مستشفًى واحد فحسب. وفي السيناريوهات التي تتشارك فيها مستشفيات متعددة في بيانات المرضى، تُصبح مشكلة الدمج مشكلةً عويصة. وبسبب هذا النوع من التحديات، تستغرق المراحل الثلاث الأولى من العملية القياسية المتعددة المجالات للتنقيب في البيانات (كريسب-دي إم) من ٧٠ إلى ٨٠ بالمائة من إجمالي زمن مشروع علم البيانات، مع تخصيص غالبية هذا الوقت لعملية دمج البيانات وحدها.
يُعَد دمج البيانات من عدة مصادر أمرًا صعبًا حتى عندما تكون البيانات هيكلية. ومع ذلك، عندما يتعلق الأمر ببعض مصادر البيانات الضخمة الأحدث، حيث تكون البيانات شِبه الهيكلية أو غير الهيكلية هي القاعدة، فإن تكلفة دمج البيانات وإدارة البِنية التحتية يمكن أن تُصبح كبيرة. وتُعد بيانات العملاء مثالًا توضيحيًّا على تحديات دمج البيانات. يمكن أن تُوجَد بيانات العملاء في العديد من التطبيقات المختلفة (وقواعد البيانات المقابلة لتلك التطبيقات). سيحتوي كل تطبيقٍ على جزء مختلف قليلًا من بيانات العملاء. على سبيل المثال، قد تحتوي مصادر البيانات الداخلية على التصنيف الائتماني للعميل، ومبيعات العميل، والمدفوعات، ومعلومات الاتصال الخاصة بمركز الاتصال، إلى آخِره. وربما تُتاح أيضًا بيانات إضافية عن العميل من مصادر البيانات الخارجية. في هذا السياق، يستلزِم تكوين رؤية متكاملة عن العميل استخراج البيانات من كلِّ مصدرٍ من هذه المصادر ودمجها معًا.
ستتضمَّن عملية دمج البيانات النموذجية عددًا من المراحل المختلفة، تتكوَّن من استخراج البيانات وتنظيفها وتوحيدها ونقلها وفي النهاية دمجها لتكوين نسخةٍ موحدة واحدة من البيانات. يمكن أن يكون استخراج البيانات من مصادر البيانات المتعددة أمرًا صعبًا لأن العديد من مصادر البيانات لا يمكن الوصول إليها إلا باستخدام واجهة معينة خاصة بذلك المصدر. ونتيجة لذلك، يجب أن يتمتع علماء البيانات بمجموعة واسعة من المهارات حتى يكونوا قادرين على التفاعل مع كل مصدر من مصادر البيانات من أجل الحصول على البيانات.
وبمجرد أن تُستخرَج البيانات من المصدر، يجب التحقُّق من جودة البيانات. وتنظيف البيانات هي عملية اكتشاف البيانات التالِفة أو غير الدقيقة، أو تنظيفها، أو استبعادها من البيانات المستخرَجة. على سبيل المثال، ربما يتعيَّن تنظيف معلومات عنوان العميل من أجل تحويلها إلى صيغةٍ موحدة. بالإضافة إلى ذلك، ربما يكون هناك بيانات مُكررة في مصادر البيانات، في تلك الحالة من الضروري تحديد سجلِّ العميل الصحيح الذي يجب استخدامه وإزالة جميع السجلات الأخرى من مجموعات البيانات. ومن المهم التأكُّد من أن القِيَم المستخدمة في مجموعة البيانات مُتماثلة. على سبيل المثال، ربما يستخدِم أحدُ تطبيقات المصدر قِيمًا عددية لتمثيل التصنيف الائتماني للعميل؛ في حين يستخدِم تطبيقٌ آخَرُ مزيجًا من القِيَم العددية والحروف. في هذا السيناريو، يجب اتخاذ قرارٍ بشأن نوع القيم التي ستُستخدَم، وبعد ذلك تغيير القِيم التي يختلف نوعها عن النوع الذي حُدِّد لهذا العنصر. على سبيل المثال، تخيَّل أن إحدى السِّمات في مجموعة البيانات هي مقاس حذاء العميل. يمكن أن يشتري العملاء أحذيةً من مختلف المناطق حول العالم، غير أن النظام العددي المستخدَم لتحديد مقاسات الأحذية في أوروبا يختلف قليلًا عن ذلك المستخدم في الولايات المتحدة والمملكة المتحدة وغيرها من الدول. وقبل إجراء تحليل البيانات ونمذجتها، يجب توحيد قيم هذه البيانات.
وينطوي نقل البيانات على تغيير البيانات أو تجميعها من قيمة إلى أخرى. ويمكن استخدام مجموعة متنوعة من التقنيات أثناء هذه الخطوة وتشمل تسوية البيانات وتوزيعها في فئاتٍ وتطبيعها وكذلك كتابة كودٍ مُخصص لإجراء عملية نقلٍ مُعينة. ويتضح مثال شائع على نقل البيانات في عملية معالجة عُمر أحد العملاء. في الكثير من مهام علم البيانات، التمييز الدقيق بين أعمار العملاء ليس مفيدًا بشكلٍ خاص. فالفارق بين عميلٍ في عمر الثانية والأربعين وآخر في الثالثة والأربعين ليس مُهمًّا بوجهٍ عام، على الرغم من أن التمييز بين عميلٍ في الثانية والأربعين وآخر في الثانية والخمسين قد يكون مفيدًا. ونتيجة لذلك، غالبًا ما يُنقل عمر العميل من العمر الأصلي إلى فئةٍ عمرية عامة. وتُعَد هذه العملية لتحويل الأعمار إلى فئاتٍ عمرية مثالًا على تقنية نقل بيانات تُسمى «التوزيع في فئات». وعلى الرغم من أن التوزيع في فئات هي عملية مباشرة نسبيًّا من المنظور التقني، فإن التحدي هنا يتمثل في تحديد الحدود الأفضل لنطاق الفئة لتطبيقه أثناء عملية التوزيع في فئات. وقد يؤدي تطبيق الحدود الخاطئة إلى حجب فروقٍ مُهمة في البيانات. ومع ذلك، ربما يستلزم العثور على الحدود المناسبة معرفةً خاصة بالمجال أو الاعتماد على التجربة والخطأ.
وتتمثل الخطوة الأخيرة للدمج في إنشاء البيانات التي تُستخدَم كمدخلاتٍ لخوارزميات تعلُّم الآلة. وتُعرف هذه البيانات ﺑ «الجدول الرئيسي للتحليل».
إنشاء الجدول الرئيسي للتحليل
أهم خطوة في إنشاء الجدول الرئيسي للتحليل هي اختيار السمات التي ستُضمَّن في التحليل. يعتمد الاختيار على معرفة المجال وعلى تحليل العلاقات بين السمات. فلنضرب مثلًا بسيناريو يُركز التحليل فيه على عملاء إحدى الخدمات. في هذا السيناريو، يُعتبر من المفاهيم الشائعة الاستخدام في المجال والتي ستجعل تصميمك واختيارك للسمات مُستنيرًا تفاصيل التعاقد مع العميل والمعلومات الديموغرافية والاستخدام والتغيرات الطارئة على الاستخدام، والاستخدام الخاص، والمرحلة الحالية في العملية القياسية المتعددة المجالات للتنقيب في البيانات، وروابط الشبكة، وما إلى ذلك. وعلاوة على ذلك، من المرجَّح أن تكون السمات التي وُجد أنها مرتبطة ارتباطًا كبيرًا بالسمات الأخرى متكررة ومن ثم ينبغي استبعاد واحدة من السمات المترابطة. وقد يسفر حذف السمات المتكررة عن نماذج أبسط يسهل فهمها، ويُقلل أيضًا من احتمالية إنتاج خوارزمية تعلُّم الآلة نموذجًا يتناسَب مع أنماطٍ زائفة في البيانات. تحدد مجموعة السمات المختارة لتضمينها ما يُعرف باسم «سجل التحليل». ويشمل سجل التحليل عادة كلًّا من السمات الخام والسمات المشتقة على حدٍّ سواء. وكل مثيل في الجدول الرئيسي للتحليل يُمثله سجل تحليل واحد، ومن ثم فإن مجموعة السمات المتضمنة في سجل التحليل تُحدد شكل المثيلات التي سيُجرى عليها التحليل.
وبعد أن صُمِّم سجل التحليل، يجب استخراج مجموعة من السجلات وتجميعها لإنشاء مجموعة بيانات مناسبة للتحليل. وعندما تُنشأ هذه السجلات وتخزَّن — في قاعدة بيانات مثلًا — يُشار عمومًا إلى مجموعة البيانات هذه ﺑ «الجدول الرئيسي للتحليل». وهذا الجدول عبارة عن مجموعة البيانات المستخدمة كمدخلاتٍ في خوارزميات تعلُّم الآلة. يقدم الفصل التالي مجال تعلُّم الآلة ويصف بعضًا من أشهر خوارزميات تعلُّم الآلة المستخدمة في علم البيانات.