الفصل الثالث

النظام البيئي لعلم البيانات

تتنوع مجموعة التقنيات المستخدمة لممارسة علم البيانات عبر مختلف المؤسسات. فكلما كانت المؤسسة أكبر أو كانت كمية البيانات التي تتم معالجتها أكثر أو كِلا الأمرَين معًا، زادت درجة تعقيد النظام البيئي التكنولوجي الداعم لأنشطة علم البيانات. وفي معظم الحالات، يحتوي هذا النظام على أدواتٍ ومكوناتٍ من عدد من مورِّدي البرامج المختلفين، مما يسفر عن معالجة البيانات بالعديد من التنسيقات المختلفة. وهناك طَيف من المناهج التي تستطيع المؤسسة أن تختار منها عند تطوير نظامها البيئي لعلم البيانات. على أحد طرفي الطيف، ربما تقرر المؤسسة الاستثمار في مجموعة أدواتٍ تجارية مدمجة. وعلى الطرف الآخر، ربما تُنشئ نظامًا بيئيًّا مخصَّصًا عن طريق دمج مجموعة من اللغات والأدوات المفتوحة المصدر. وبين هذَين النقيضَين، يوفر بعض مورِّدي البرمجيات حلولًا تتكون من مزيج من المنتجات التجارية والمنتجات المفتوحة المصدر. ومع ذلك، على الرغم من أن المزيج المحدَّد من الأدوات سيختلف من مؤسسةٍ إلى أخرى، ثمَّة قاسم مشترك فيما يخص المكونات الموجودة في معظم بِنَى علم البيانات.

يوفر شكل ٣-١ نظرة عامة رفيعة المستوى على بِنية بيانات تقليدية. وهذه البنية ليست مُخصصة لبيئات البيانات الضخمة فحسب؛ وإنما لجميع بيئات البيانات بكافة أحجامها. وفي هذا الرسم التوضيحي، تتكوَّن المساحات الثلاث الرئيسية من «مصادر البيانات»، حيث تُولَّد جميع البيانات في أي مؤسسة؛ و«مخازن البيانات»، حيث تُخزن البيانات وتُعالج؛ و«التطبيقات»، حيث تتم مشاركة البيانات مع المستخدِمين.

تمتلك جميع المؤسسات تطبيقاتٍ تولِّد وتستخلِص بياناتٍ عن العملاء والمعاملات، وبيانات تشغيلية عن كل شيءٍ له علاقة بكيفية سير العمل في المؤسسة. وتتضمن مصادر البيانات والتطبيقات إدارة العملاء، والطلبيات، والتصنيع، والتسليم، وإصدار الفواتير، والمعاملات البنكية، والشئون المالية، وإدارة علاقات العملاء، ومركز الاتصالات، وتطبيقات تخطيط موارد المؤسسة، وما إلى ذلك. وعادةً ما يُشار إلى هذه الأنواع من التطبيقات على أنها أنظمة «معالجة المعاملات عبر الإنترنت». بالنسبة إلى الكثير من مشروعات علم البيانات، تُستخدَم البيانات المستخلَصة من هذه التطبيقات لتشكيل مجموعة البيانات الأوَّلية المدخلة لخوارزميات تعلُّم الآلة. وبمرور الوقت، يزداد حجم البيانات المستخلَصة من التطبيقات المتعددة داخل المؤسسة أكثر فأكثر وتبدأ المؤسسة في التشعُّب لاستخلاص البيانات التي جرى تجاهلها، أو التي لم استُخلِصت فيما مضى، أو التي لم تكن متاحةً من قبل. ويُشار إلى هذه البيانات الأحدث عادةً ﺑ «مصادر البيانات الضخمة» لأن حجم البيانات التي تُستخلَص أكبر بكثيرٍ من تطبيقات التشغيل الرئيسية الخاصة بالمؤسسة. تشمل بعض مصادر البيانات الضخمة الشائعة حركة النقل عبر الشبكة، وبيانات تسجيل الدخول من التطبيقات المتعددة، وبيانات أجهزة الاستشعار، وبيانات المدونات الإلكترونية، وبيانات وسائل التواصل الاجتماعي، وبيانات مواقع الإنترنت، وهلم جرًّا. في مصادر البيانات التقليدية، تُخزَّن البيانات عادة في قاعدة بيانات. ومع ذلك، نظرًا إلى أن التطبيقات المرتبطة بالكثير من مصادر البيانات الضخمة الأحدث ليست مصممة بالأساس لتخزين البيانات على المدى الطويل — كما هو الحال مع البيانات المتدفقة مثلًا — تختلف تنسيقات التخزين وبِنياته لهذا النوع من البيانات من تطبيقٍ إلى آخر.

شكل ٣-١: بنية تقليدية للبيانات الصغيرة والضخمة من منظور علم البيانات (مُستوحًى من شكلٍ مأخوذ من نشرة «هورتونووركز»، ٢٣ أبريل، ٢٠١٣، https://hortonworks.com/blog/hadoop-and-the-data-warehouse-when-to-use-which).

ومع زيادة عدد مصادر البيانات، يزداد أيضًا التحدِّي المتمثل في القدرة على استخدام هذه البيانات لإجراء التحليلات ومشاركتها عبر المؤسسة على نطاق أوسع. وعادةً ما يُستخدم مستوى مخازن البيانات، الموضح في شكل ٣-١، للتعامل مع مشاركة البيانات وتحليلات البيانات عبر المؤسسة. وينقسم هذا المستوى إلى جزأين. يُغطي الجزء الأول برامج مشاركة البيانات المعتادة التي تستخدِمها معظم المؤسسات. والشكل الأكثر شيوعًا لبرامج دمج البيانات التقليدية وتخزينها هو نظام إدارة قواعد البيانات الارتباطية. وعادةً ما تُمثل هذه الأنظمة التقليدية حجر الأساس في حلول ذكاء الأعمال داخل أي مؤسسة. وحلول ذكاء الأعمال هي نظم سهلة الاستخدام لدعم اتخاذ القرارات وتُتيح تجميع البيانات ودمجها ونقلها وكذلك تحليلها. وبناءً على مستوى اكتمال بنية ذكاء الأعمال، يمكن أن تتألف هذه البِنية من أي شيءٍ بداية من نسخةٍ أساسية لأحد التطبيقات التشغيلية وصولًا إلى «مخزن البيانات التشغيلية» وإلى حلول قواعد بيانات المعالجة المتوازية الواسعة النطاق ومستودعات البيانات.

عملية تخزين البيانات في مستودعات البيانات هي في الأساس عملية تجميع للبيانات وتحليلها بهدف دعم اتخاذ القرارات. ومع ذلك، ينصبُّ تركيز هذه العملية على إنشاء مستودع بيانات مركزي جيد التصميم. ومن هذا المنطلَق، يُعد مستودع البيانات موردًا مهمًّا لعلم البيانات. ومن منظور علم البيانات، إحدى المزايا الكبرى لوجود مستودع بيانات هي إنجاز المشروع في وقتٍ أقصر بكثير. تُعد البيانات المكَوِّن الأساسي لأية عملية خاصة بعلم البيانات، ولذا ليس من المستغرب أنه في الكثير من المشروعات يُستغرَق أغلب الوقت ويُبذَل أغلب الجهد في العثور على البيانات وتجميعها وتنظيفها قبل البدء في تحليلها. فإذا توفَّر مستودع بيانات بإحدى الشركات، عادةً ما يقلُّ الجهد والوقت المبذولان في تجهيز البيانات الخاصة بمشروعات علم البيانات على نحوٍ ملحوظ. ومع ذلك، من الممكن إنجاز العمليات الخاصة بعلم البيانات رغم عدم وجود مستودع بيانات مركزي. وينطوي إنشاء مستودع بيانات مركزي على أكثرَ مِن مجرد تكديس البيانات المأخوذة من عدة قواعد بيانات تشغيلية في قاعدة بيانات واحدة.

كثيرًا ما يستلزِم دمج البيانات من عدة قواعد بيانات الكثيرَ من العمل غير الآلي لحل مشكلات عدم التوافق بين قواعد البيانات المصدرية. ومصطلح «الاستخراج والتحويل والتحميل» هو المصطلح المستخدَم لوصف العمليات والأدوات التقليدية المستخدَمة لدعم تعيين البيانات ودمجِها ونقلها بين قواعد البيانات. وتختلف العمليات التقليدية التي تُنفَّذ في مستودع البيانات عن العمليات البسيطة التي تُنفذ عادة في قاعدة بيانات نموذج البيانات الارتباطية القياسية. ويُستخدم مصطلح «المعالجة التحليلية عبر الإنترنت» لوصف هذه العمليات. تركز عمليات المعالجة التحليلية عبر الإنترنت عمومًا على توليد ملخَّصات للبيانات القديمة وتتضمَّن تجميع البيانات من مصادر مُتعددة. على سبيل المثال، ربما نُقدم الطلب التالي الخاص بالمعالجة التحليلية عبر الإنترنت (سنُعبر عنه هنا باللغة العربية لتيسير القراءة): «اكتب تقريرًا عن مبيعات جميع المتاجر حسب المنطقة وحسب الفترة ربع السنوية وقارن هذه الأرقام بأرقام العام الماضي.» ما يوضحه هذا المثال هو أن نتيجة طلب المعالجة التحليلية عبر الإنترنت غالبًا ما تُشبه تقارير العمل القياسية التي نتوقَّع أن نراها. وتمكن عمليات المعالجة التحليلية عبر الإنترنت المستخدِمين من تقسيم البيانات وتجزئتها وتدويرها في المستودع للحصول على طرق عرضٍ مختلفة لهذه البيانات. وتعمل هذه العمليات على تمثيلٍ للبيانات يُسمَّى «مكعب البيانات» الذي تُنشأ فوق مستودع البيانات. ولمكعب البيانات أبعاد ثابتة مُحددة مسبقًا حيث يُمثل كل بُعدٍ خاصية معينة للبيانات. وستكون أبعاد مكعب البيانات المطلوب في مثال طلب المعالجة التحليلية السابق على النحو التالي: «المبيعات حسب المتاجر»، و«المبيعات حسب المنطقة»، و«المبيعات حسب الفترة ربع السنوية». الميزة الأساسية وراء الاستعانة بمُكعب البيانات ذي مجموعة الأبعاد الثابتة هي أنها تسرع من زمن الاستجابة لعمليات المعالَجة التحليلية عبر الإنترنت. ونظرًا إلى أن مجموعة أبعاد مكعب البيانات مبرمجة مسبقًا في نظام المعالجة التحليلية عبر الإنترنت، يمكن أن يوفر النظام واجهاتٍ رسوميةً سهلة الاستخدام لتحديد طلبات المعالجة التحليلية عبر الإنترنت. ومع ذلك، يُقيد تمثيل مكعب البيانات أيضًا أنواع التحليلات التي يمكن إجراؤها باستخدام المعالجة التحليلية عبر الإنترنت لتقتصر على مجموعة الاستعلامات التي يمكن توليدها باستخدام أبعادٍ مُحددة مسبقًا. وبالمقارنة، تقدم لغة الاستعلام الهيكلية (إس كيو إل) واجهة استعلامٍ أكثر مرونة. أيضًا، على الرغم من أن نظم المعالجة التحليلية عبر الإنترنت مفيدة لاستكشاف البيانات وإعداد التقارير، فإنها لا تُتيح نمذجة البيانات أو الاستخراج التلقائي للأنماط من البيانات. وبمجرد تجميع البيانات من كافة أنحاء المؤسسة وتحليلها داخل نظام ذكاء الأعمال، يمكن استخدام هذا التحليل باعتباره مدخلاتٍ لمجموعة من المستهلكين عند مستوى التطبيقات الموضح في شكل ٣-١.

يتعامل الجزء الثاني من مستوى مخازن البيانات مع إدارة البيانات الناتجة عن مصادر البيانات الضخمة الخاصة بالشركة. في هذه البنية، تُستخدَم منصة هادوب لتخزين هذه البيانات الضخمة وتحليلها. وهادوب هي منصة مفتوحة المصدر طوَّرتها مؤسسة أباتشي للبرمجيات، وهي مصمَّمة خصوصًا لمعالجة البيانات الضخمة. وتستخدِم منصة هادوب نظامَ تخزينٍ ومعالجة موزعًا عبر مجموعات من وحدات الخدمة. ومن خلال استخدام نموذج برمجة «ماب رديوس»، تُسرِّع هادوب من عملية معالجة الاستعلامات في مجموعات البيانات الكبيرة. ويُنفذ نموذج «ماب رديوس» استراتيجية «التقسيم — التنفيذ — التجميع»؛ بحيث: (أ) تُقسَّم مجموعة البيانات الكبيرة إلى أجزاء منفصلة، ويُخزَّن كل جزء على عقدة (كمبيوتر) مختلفة في مجموعة الأجهزة؛ (ب) ثم يُنفذ استعلام على جميع الأجزاء بالتوازي؛ (ﺟ) وتُحسب نتيجة الاستعلامات من خلال جمع النتائج المتولدة على الأجزاء المختلفة. غير أنه خلال العامَين الماضيِيَن استُخدِمت منصة هادوب أيضًا كامتداد لمستودع بيانات المؤسسات. وبالأساس، كان من شأن مستودعات البيانات أن تُخزِّن بيانات ثلاث سنوات؛ أما الآن فهي تستطيع تخزين بياناتِ أكثرَ مِن عشر سنوات، وهذا الرقم قيد الزيادة المستمرة. ومع ذلك، عندما تزداد كمية البيانات في مستودع البيانات، يجب أن تتزايد متطلبات التخزين والمعالجة الخاصة بقاعدة البيانات ووحدة الخدمة أيضًا. وقد يكون لهذا الشرط آثار كبيرة من حيث التكلفة. ويتمثل البديل في نقل بعضٍ من البيانات القديمة إلى مستودع بيانات لتخزينها في هادوب. على سبيل المثال، من شأن مستودع البيانات أن يُخزن أحدث البيانات، لِنَقُل بيانات ثلاثِ سنواتٍ مثلًا، التي يجب أن تكون متاحةً على نحو متكرر لتحليلها وتمثيلها بسرعة، في حين البيانات الأقدم والأقل استخدامًا تُخزن على منصة هادوب. وتحظى معظم قواعد البيانات على مستوى المؤسسة بسماتٍ تربط مستودع البيانات بمنصة هادوب، مما يُتيح لعالِم البيانات الاستعلام عن البيانات في كلا المكانين كما لو أنها موجودة جميعًا في بيئةٍ واحد، وهذا باستخدام لغة الاستعلام الهيكلية. وقد يشمل استعلامه الوصول إلى بعض البيانات في قاعدة بيانات المستودع وبعض البيانات الأخرى الموجودة على منصة هادوب. ستنقسم معالجة الاستعلام تلقائيًّا إلى جزأين منفصلين، كلٌّ منهما يعمل على نحوٍ مستقلٍّ عن الآخر، وستُجمع النتائج تلقائيًّا وتُدمَج قبل أن تظهر مرة أخرى أمام عالِم البيانات.

وتحليل البيانات مرتبط بكِلا جزأي مستوى مخازن البيانات الموضح في شكل ٣-١. وقد يحدث هذا التحليل للبيانات الموجودة في كل جزءٍ من مستوى البيانات، ويمكن مشاركة النتائج الخاصة بتحليل البيانات بين الجزأين في أثناء القيام بتحليلٍ إضافي للبيانات. غالبًا ما تكون البيانات المستمدَّة من المصادر التقليدية نظيفة نسبيًّا وغنية بالمعلومات مقارنة بالبيانات المستخلصة من مصادر البيانات الضخمة. ورغم ذلك، يعني حجم الكثير من مصادر البيانات الضخمة وطبيعتها الآنية أنَّ الجهد المبذول في إعداد وتحليل هذه المصادر للبيانات الضخمة ربما يكون له مردود يتمثل في الوصول إلى رؤًى إضافيةٍ لم يكن من الممكن الوصول إليها من خلال البيانات المستمَدة من المصادر التقليدية. ويمكن الاستعانة بمجموعة متنوعة من تقنيات تحليل البيانات المطورة عبر عددٍ من مجالات البحث المختلفة (من بينها معالجة اللغة الطبيعية، والرؤية الحاسوبية، وتعلُّم الآلة) لتحويل البيانات الضخمة غير الهيكلية، الشحيحة المعلومات والمنخفضة القيمة، إلى بياناتٍ ثرية بالمعلومات وعالية القيمة. ويمكن دمج هذه البيانات العالية القيمة مع بيانات أخرى عالية القيمة مُستمَدة من مصادر تقليدية بهدف إجراء المزيد من تحليل البيانات. ويُعد الوصف المذكور في هذا الفصل والموضح في شكل ٣-١ هو البنية النموذجية للنظام البيئي لعلم البيانات. ويتناسب مع أغلب المؤسسات، الصغير منها والكبير على حدٍّ سواء. غير أنه مع توسع حجم المؤسسة، تزداد أيضًا درجة التعقيد الخاصة بنظامها البيئي لعلم البيانات. على سبيل المثال، ربما لا تحتاج المؤسسات الأصغر حجمًا إلى منصة هادوب؛ إلا أنها ستكون بالِغة الأهمية بالنسبة إلى المؤسسات الكبيرة جدًّا.

نقل الخوارزميات إلى البيانات

ينطوي المنهج التقليدي لتحليل البيانات على استخراج البيانات من مختلف قواعد البيانات، ودمجها، وتنظيفها، ووضعها في مجموعاتٍ فرعية، وإنشاء نماذج تنبُّؤ. وبمجرد أن تُنشأ نماذج تنبؤ، فإنه يمكن تنفيذها على البيانات الجديدة. ذكرنا في الفصل الأول أن نموذج التنبُّؤ يتنبَّأ بالقيمة المفقودة الخاصة بسِمةٍ ما: عامل تصفية البريد العشوائي هو نموذج تنبُّؤ يتنبَّأ بما إذا كانت سِمة التصنيف الخاصة بالبريد الإلكتروني ينبغي أن تحتوي على قيمة «عشوائي» أم لا. إن تنفيذ نماذج التنبُّؤ على المَثيلات في البيانات الجديدة من أجل توليد القِيَم المفقودة يُعرف ﺑ «تحديد قِيَم البيانات». بعد ذلك، ربما تُحمَّل النتائج النهائية، بعد تحديد قِيَم البيانات الجديدة، مرة أخرى على قاعدة بياناتٍ بحيث يمكن استخدام هذه البيانات الجديدة كجزءٍ من سير العمل، أو لوحة مراقبة الأداء، أو غيرها من الممارسات التقييمية للشركة. يوضح شكل ٣-٢ أن الكثير من عمليات معالجة البيانات التي تنطوي على تجهيز البيانات وتحليلها تتمُّ على وحدة خدمةٍ منفصلة عن قواعد البيانات ومستودع البيانات. وبالتالي، يمكن قضاء قدْر كبير من الوقت في مجرد نقل البيانات من قواعد البيانات وإعادة النتائج إليها مرة أخرى.

شكل ٣-٢: العملية التقليدية لإنشاء نماذج تنبؤية وتحديد قِيَم للبيانات.

تُقدِّم تجربة أُجْرِيَتْ في معهد دبلن للتكنولوجيا بخصوص إنشاء نموذج انحدارٍ خطِّي مثالًا على الوقت المستغرق في كل مرحلةٍ من العملية. يُقضى من ٧٠ إلى ٨٠ بالمائة من الوقت تقريبًا في استخراج البيانات وتجهيزها؛ أما الوقت المتبقي فيُقضى في إنشاء النماذج. ومن أجل تحديد قيمة البيانات، يُقضى ٩٠ بالمائة من الوقت تقريبًا في استخراج البيانات وحفظ مجموعة البيانات التي حُدِّدت قيمتها مرةً أخرى في قاعدة البيانات؛ ويُقضى ١٠ بالمائة فقط من الوقت في تحديد القِيَم فعليًّا. وتستند هذه النتائج إلى مجموعات البيانات التي تتكوَّن من عددٍ يتراوح ما بين ٥٠ ألف سجلٍّ وحتى ١٫٥ مليون سجل. ولقد أدرك أغلب مُقدمي خدمات قواعد البيانات للشركات الوقت الذي يتمُّ توفيره إذا لم يُقضَ الوقت في نقل البيانات ولقد حلُّوا هذه المشكلة من خلال دمج وظيفة تحليل البيانات وخوارزميات تعلُّم الآلة في مُحركات قواعد البيانات الخاصة بهم. وتستكشف الأقسام التالية من هذا الفصل كيف تُدمج خوارزميات تعلُّم الآلة في قواعد البيانات الحديثة، وكيف يعمل تخزين البيانات في عالَم البيانات الضخمة الخاص بمنصة هادوب، وكيف يُتيح الاستعانة بمزيجٍ من هذَين المنهجَين للمؤسسات العمل بسهولة ويُسر مع جميع بياناتها باستخدام لغة الاستعلام الهيكلية بوصفها لغةً مشتركة للوصول إلى البيانات والتحليل وأداء تعلُّم الآلة والتحليلات التنبُّؤية في الوقت الفعلي.

يمكن قضاء قدْر كبير من الوقت في مجرد نقل البيانات من قواعد البيانات وإعادة النتائج إليها مرة أخرى.

قاعدة البيانات التقليدية أم قاعدة البيانات التقليدية الحديثة

يواصل مورِّدو خدمات قواعد البيانات الاستثمار في تطوير قابلية التوسُّع في قواعد بياناتهم، ومستوى أدائها، وتأمينها، وتأدية وظائفها. فقواعد البيانات الحديثة أكثر تطورًا من قواعد البيانات الارتباطية التقليدية. فهي تستطيع أن تُخزن البيانات وتستعلِم عنها في مجموعةٍ متنوعة من التنسيقات المختلفة. فبالإضافة إلى التنسيقات الارتباطية التقليدية، من الممكن أيضًا تحديد أنواع الكائنات، وتخزين الوثائق وتخزين كائنات JSON والبيانات المكانية والاستعلام عنها، وهلمَّ جرًّا. تأتي معظم قواعد البيانات الحديثة بعددٍ كبير من الدوال الإحصائية، لدرجة أن بعضها يحتوي على عددٍ من الدوال الإحصائية مساوٍ لمعظم التطبيقات الإحصائية. على سبيل المثال، تأتي قاعدة بيانات أوراكل بأكثر من ٣٠٠ دالة إحصائية مختلفة ولغة استعلام هيكلية مُدمجة بها. وتغطي هذه الدوال الإحصائية أغلبية التحليلات الإحصائية التي تحتاجها مشروعات علم البيانات وتشمل أغلب الدوال الإحصائية — إن لم تكن كلها — المتوفرة في الأدوات واللغات الأخرى مثل لغة البرمجة آر. ربما يتيح استخدام الوظيفة الإحصائية المتوفرة في قواعد البيانات في إحدى المؤسسات أداء تحليلات البيانات بأسلوبٍ أكفأ وقابلٍ للتطوير أكثر باستخدام لغة الاستعلام الهيكلية. علاوة على ذلك، لقد دمج معظم المورِّدين الروَّاد لخدمات قواعد البيانات (من بينهم أوراكل، ومايكروسوفت، وآي بي إم، وإنتربرايز دي بي) الكثير من خوارزميات تعلُّم الآلة في قواعد بياناتهم، ويمكن تشغيل هذه القواعد باستخدام لغة الاستعلام الهيكلية. ويُعرف تعلُّم الآلة المدمج في مُحرك قواعد البيانات والذي يمكن الوصول إليه باستخدام لغة الاستعلام الهيكلية باسم «تعلُّم الآلة المدمَج في قاعدة البيانات». قد يقود هذا النوع من التعلُّم إلى إنشاءٍ أسرعَ للنماذج وانتشارٍ أسرعَ للنماذج والنتائج على حدٍّ سواء لتُستعمَل في التطبيقات ولوحات مراقبة الأداء التحليلية. وتتلخَّص الفكرة وراء تعلُّم الآلة المدمَج في قاعدة البيانات في الأمر التالي: «انقل الخوارزميات إلى البيانات بدلًا من نقل البيانات إلى الخوارزميات.»

والمزايا الرئيسية لاستخدام تعلُّم الآلة المدمَج في قاعدة البيانات هي كما يلي:

• لا حاجة لنقل البيانات: تستلزم بعض منتجات علم البيانات تصدير البيانات من قواعد البيانات وتحويلها إلى تنسيقٍ مُخصص لإدخالها إلى خوارزميات تعلُّم الآلة. وبالاستعانة بتعلُّم الآلة المدمَج في قاعدة البيانات، لا حاجة لنقل البيانات أو تحويلها. وهذا يجعل العملية بأكملِها أقلَّ تعقيدًا وأقل استهلاكًا للوقت وأقل عرضة للأخطاء.
• توفير أداء أسرع: في ظل العمليات التحليلية التي تُجرى في قاعدة البيانات وفي ظلِّ غياب نقل البيانات، من الممكن الاستفادة من قدرات الحوسبة الخاصة بوحدة خدمة قاعدة البيانات، مما يوفر أداءً أسرع حتى ١٠٠ مرة من أداء المنهج التقليدي. تتمتع أغلب وحدات خدمة قواعد البيانات بمواصفاتٍ عالية، ذات وحدات معالجة مركزية كثيرة وقدرة على إدارة الذاكرة بكفاءة بهدف معالجة مجموعات البيانات التي تحتوي على أكثر من مليار سجل.
• توفير أمانٍ عالٍ: تُوفر قاعدة البيانات وصولًا إلى البيانات الموجودة في قاعدة البيانات على نحوٍ خاضع للتحكم وقابل للمراجعة والتدقيق، مما يُسرع إنتاجية عالِم البيانات مع توفير عنصر الحماية للبيانات. يتجنَّب تعلُّم الآلة المدمَج في قاعدة البيانات المخاطر الأمنية المادية الكامنة في استخلاص البيانات وتنزيلها على وحدات خدمةٍ تحليلية بديلة. وعلى النقيض من ذلك، يُسفر عن العملية التقليدية إنتاج العديد من النُّسَخ (وربما إصدارات مختلفة) من مجموعات البيانات في مستودعاتٍ منفصلة عبر المؤسسة.
• قابلية التوسع: يمكن أن تتوسَّع قاعدة البيانات بسهولةٍ في إجراء التحليلات مع زيادة حجم البيانات؛ هذا إذا أُدخلت خوارزميات تعلُّم الآلة إلى قاعدة البيانات. تُصمم برامج قواعد البيانات من أجل إدارة كمياتٍ كبيرة من البيانات بكفاءة، عن طريق استغلال وحدات المعالجة المركزية المتعددة والذاكرة الموجودة على وحدة الخدمة ليُتاح تشغيل خوارزميات تعلُّم الآلة بالتوازي. كما أن قواعد البيانات شديدة الفعالية في معالجة مجموعات البيانات الكبيرة التي لا تحتويها الذاكرة بسهولة. لقد تطوَّرت قواعد البيانات على مدار أكثر من ٤٠ عامًا لضمان تمكُّنها من معالجة مجموعات البيانات بسرعة.
• نشر وبيئات الوقت الفعلي: يمكن نشر النماذج التي تمَّ تطويرها باستخدام خوارزميات تعلُّم الآلة المدمَجة في قاعدة البيانات واستخدامها في بيئات الوقت الفعلي. ويُتيح هذا دمج النماذج في التطبيقات اليومية، مما يوفِّر تنبؤات للمستخدِمين والعملاء النهائيِّين في الوقت الفعلي.
• النشر في بيئة الإنتاج: قد يتطلَّب نشر النماذج المطوَّرة باستخدام برامج تعلُّم الآلة المستقلة إعادة تشفيرها بلغاتِ برمجةٍ أخرى قبل دمجِها في تطبيقات المؤسسة. لكنَّ هذا ليس هو الحال مع نماذج تعلُّم الآلة المدمَجة في قاعدة البيانات. فلُغة الاستعلام الهيكلية هي لغة قاعدة البيانات الأساسية، ويمكن استخدامُها واستدعاؤها من أية لغةِ برمجةٍ أو أداة أخرى من أدوات علم البيانات. وبالتالي يمكن دمج النماذج المدمجة في قاعدة البيانات بسهولةٍ في تطبيقات الإنتاج.

تستغل الكثير من المؤسسات مزايا تعلُّم الآلة المدمَج في قاعدة البيانات. وتتنوَّع ما بين المؤسسات الصغيرة والمتوسطة وحتى المؤسسات الكبيرة التي تستخدِم البيانات الضخمة. فيما يلي بعض الأمثلة على المؤسسات التي تستخدِم تقنيات تعلُّم الآلة المدمَج في قاعدة البيانات:

شركة فيسيرف، وهي شركة أمريكية تُقدم الخدمات المالية وخدمات التحليل والكشف عن الاحتيال. تحولت شركة فيسيرف من الاستعانة بعدَّة مورِّدين للخدمات الخاصة بتخزين البيانات وتعلُّم الآلة إلى الاستعانة بإمكانيات تعلُّم الآلة المدمجة في قواعد بياناتها. ومن خلال الاستعانة بتعلُّم الآلة المدمَج في قاعدة البيانات، تضاءل الوقت المستغرق لإنشاء/تحديث ونشر نموذج كشف الاحتيال من أسبوع تقريبًا إلى بضع ساعاتٍ فحسب.
شركة ٨٤.٥١° (كانت تُعرف سابقًا باسم شركة دانهامبي الولايات المتحدة الأمريكية)، وهي شركة مُتخصصة في علم بيانات العملاء. تستعين الشركة بالعديد من المنتجات التحليلية المختلفة لإنشاء نماذج العملاء المختلفة. كان من المعتاد أن تستغرق أكثر من ٣١٨ ساعة شهريًّا لنقل البيانات من قواعد بياناتها إلى أدوات تعلُّم الآلة والعكس مرةً أخرى، بالإضافة إلى ٦٧ ساعة شهريًّا لإنشاء النماذج. وعندما تحولت الشركة إلى استخدام خوارزميات تعلُّم الآلة المدمجة في قاعدة بياناتها، لم يعُد هناك حاجة إلى نقل البيانات. وبقِيَت البيانات في قاعدة البيانات. ووفرت الشركة على الفور ٣١٨ ساعة شهريًّا. ونظرًا إلى أنها كانت تستخدِم قاعدة بياناتها كمحرِّكٍ حوسبي، استطاعت أن تتوسَّع في تحليلاتها، ومن ثم تضاءل الوقت المستغرَق في إنشاء أو تحديث نماذج تعلُّم الآلة من أكثر من ٦٧ ساعة إلى ساعةٍ واحدة شهريًّا. وهذا وفَّر للشركة ستة عشر يومًا كل شهر. لقد أصبحت الآن قادرةً على الحصول على نتائج أسرع ويمكنها الآن أن تقدم لعملائها نتائج في وقتٍ أقرب بكثيرٍ بعد إجراء عملية شراء.
شركة وورجيمينج، صاحبة ابتكار لعبة «وورلد أوف تانكس» (عالم الدبابات) وغيرها من الألعاب. تستعين الشركة بتعلُّم الآلة المدمَج في قاعدة البيانات لنمذجة وتوقع كيفية التفاعُل مع عملائها الذين يفوق عددهم ١٢٠ مليون عميل.

البنية التحتية للبيانات الضخمة

على الرغم من أن قاعدة البيانات التقليدية (الحديثة) تتَّسم بفعالية مذهلة في معالجة بيانات المعاملات التجارية، فإن الحاجة تدعو إلى وجود بِنية تحتية جديدة لإدارة جميع أشكال البيانات وتخزينها على المدى الطويل في عصر البيانات الضخمة. ويمكن لقاعدة البيانات التقليدية المعاصرة أن تتعامل مع أحجام البيانات الكبيرة والتي يصل حجمها إلى بِضع بيتابايت؛ إلا أنه ربما تُصبح حلول قواعد البيانات باهظةً على نحوٍ تعجيزي بالنسبة إلى هذا الحجم من البيانات. وعادةً ما يُشار إلى مشكلة التكلفة هذه ﺑ «التوسُّع العمودي». في نموذج البيانات التقليدي، كلما زادت كمية البيانات التي تُضطَر إحدى المؤسسات إلى تخزينها ومعالجتها خلال فترة زمنية معقولة، زاد حجم وحدة خدمة قاعدة البيانات اللازمة لذلك، وفي المقابل زادت التكلفة من أجل إعدادات وحدة الخدمة وترخيص قاعدة البيانات. ربما تستطيع المؤسسات استيعاب والاستعلام عن مليار سجلٍّ بصفة يومية/أسبوعية باستخدام قواعد البيانات التقليدية، غير أنها ربما تُضطَر إلى استثمار أكثر من ١٠٠ ألف دولار فقط لشراء العتاد اللازم لإجراء هذا الحجم من المعالجة.

تُعَد هادوب منصة مفتوحة المصدر طورتها وأطلقتها مؤسسة أباتشي للبرمجيات. وهي منصة مُجربة لاستيعاب وتخزين أحجام مهولة من البيانات بطريقة فعَّالة وقد تكون أقل تكلفةً بكثير من منهج قاعدة البيانات التقليدية. في منصة هادوب، تُقسَّم البيانات وتُجزَّأ بطرقٍ متنوعة، وتُوزَّع هذه الأجزاء من البيانات عبر العقد على منصة هادوب. تُعالِج أدوات التحليل المتنوعة التي تتعامل مع منصة هادوب البيانات الموجودة على كل عقدة من العُقَد (في بعض المثيلات يمكن أن تتواجد هذه البيانات على الذاكرة)، مما يُتيح معالجةً سريعة للبيانات نظرًا إلى أن عمليات التحليل تتم بالتوازي عبر العُقَد. ولا حاجة لاستخراج البيانات أو لعمليات «الاستخراج والتحويل والتحميل». تُجرى عملية تحليل البيانات حيث يتمُّ تخزينها.

وعلى الرغم من أن منصَّة هادوب هي أشهر إطارِ معالجةٍ للبيانات الضخمة، فهي ليست الوحيدة بأية حال من الأحوال. تشمل إطارات معالجة البيانات الضخمة الأخرى كلًّا من «ستورم»، و«سبارك»، و«فلينك». وكل هذه الأُطُر جزء من مشروعات مؤسَّسة أباتشي للبرمجيات. ويكمن الاختلاف بين هذه الأطر في حقيقة أن منصة هادوب مُصمَّمة أساسًا من أجل معالجة البيانات على دفعات. والمعالجة على دفعاتٍ مناسبة عندما تكون مجموعة البيانات ثابتةً بلا تغيُّر أثناء عملية المعالجة وعندما تكون نتائج المعالجة ليست مطلوبةً فورًا (أو على الأقل عندما لا يكون عنصر الوقت حرجًا للغاية). أما نظام «ستورم» فهو مُصمَّم لمعالجة البيانات المتدفقة. وفي معالجة البيانات المتدفقة، تتم معالجة كل عنصرٍ بمجرد أن يدخل النظام، وبالتالي تُعرَّف عمليات المعالجة للعمل على كلِّ عنصرٍ فردي في البيانات المتدفقة بدلًا من العمل على مجموعة البيانات بأكملها. على سبيل المثال، ربما تُعطي المعالجة على دفعاتٍ متوسط قِيَم مجموعة من البيانات، في حين أن المعالجة المتدفقة تُعطي تسميةً فردية أو قيمة فردية لكل عنصر في البيانات المتدفقة (مثل حساب درجة التفاعل مع كل تغريدة من التغريدات المتدفقة على موقع تويتر). ونظام «ستورم» مُصمَّم من أجل معالجة البيانات في الوقت الفعلي ووفقًا لموقع ستورم الإلكتروني،¹ لقد أصبح معيارًا مرجعيًّا لمعالجة أكثر من مليون حقلٍ مترابط في الثانية الواحدة وفي كل عقدة. و«سبارك» و«فلينك» إطاران للمعالجة المختلطة (المعالجة على دفعاتٍ والمعالجة المتدفقة). ونظام «سبارك» هو بالأساس نظام معالجة بالدفعات، مُشابه لمنصة هادوب؛ إلا أنه يتمتع ببعض قدرات المعالجة المتدفقة؛ في حين أن «فلينك» هو إطار معالجة متدفِّقة ولكن يمكن استخدامه أيضا لمعالجة البيانات على دفعات. وعلى الرغم من أن هذَين الإطارَين لمعالجة البيانات الضخمة يقدمان لعلماء البيانات خيارًا من الأدوات التي تُلبي مُتطلبات البيانات الضخمة الخاصة بالمشروع، فإن الاستعانة بهذين الإطارَين قد يكون له عيب يتمثل في اضطرار عالِم البيانات الآن إلى تحليل البيانات في مكانَين مختلفَين، أي في قواعد البيانات التقليدية الحديثة ومخزن البيانات الضخمة. ويُلقي القسم التالي نظرةً على كيفية حل هذه المشكلة تحديدًا.

عالَم قواعد البيانات المختلطة

إذا كانت إحدى المؤسسات لا تمتلك بيانات بالحجم والمقدار اللازمَين للاستعانة بمنصة هادوب، سيتطلب الأمر برنامج قواعدِ بياناتٍ تقليديًّا لإدارة بياناتها. ومع ذلك، تذكر بعض المؤلَّفات أن أدوات تخزين ومعالجة البيانات المتاحة في عالم هادوب ستحلُّ محلَّ قواعد البيانات الأكثر تقليديةً. ومِن الصعب جدًّا رؤية حدوث هذا، وفي الآونة الأخيرة صار هناك الكثير من المناقشات الدائرة حول اتِّباع منهج أكثرَ توازنًا لإدارة البيانات فيما يُسمى «عالَم قواعد البيانات المختلطة». وهذا العالَم هو المكان الذي تُوجَد فيه قواعد البيانات التقليدية وعالَم هادوب معًا.

في عالَم قواعد البيانات المختلطة، ترتبط قواعد بيانات الشركة بالبيانات المخزَّنة على منصة هادوب وتعملان معًا، مما يتيح المعالجة الفعَّالة للبيانات ومشاركتها وتحليلها. ويوضح شكل ٣-٣ مخزن بياناتٍ تقليديًّا؛ ولكن بدلًا من تخزين جميع البيانات على قاعدة البيانات أو في مُستودع البيانات، يُنقل أغلبها إلى منصة هادوب. ويُنشأ رابطٍ بين قاعدة البيانات ومنصة هادوب، ليُتيح لعالِم البيانات الاستعلام عن البيانات كما لو كانت موجودة جميعًا في مكانٍ واحد. وعالِم البيانات ليس بحاجةٍ إلى الاستعلام عن جزء البيانات الموجودة في المستودع ثم الاستعلام في خطوةٍ منفصلة عن الجزء المخزَّن على منصة هادوب. ويمكنه الاستعلام عن البيانات كما كان يفعل دائمًا، وسيُحدِّد الحل أي جزءٍ من الاستعلام سيُنفَّذ في مستودع البيانات وأي جزء سيُنفَّذ تنفيذه في منصة هادوب. وستُدمَج نتائج الاستعلام التي تم التوصل إليها في كِلا الموقعَين وتُقدَّم إلى عالِم البيانات. وبالمثل، مع زيادة حجم مُستودع البيانات، لن يُستعلَم عن بعض البيانات الأقدم بكثرة. وبالتالي ينقل حلُّ قاعدة البيانات المختلطة تلقائيًّا البيانات الأقل استخدامًا إلى منصة هادوب وينقل البيانات الأكثر استخدامًا إلى مستودع البيانات. وتوازن قاعدة البيانات المختلطة تلقائيًّا موقع البيانات بناءً على تواتر الوصول إلى البيانات ونوع عمليات البيانات التي تُجرى.

توازن قاعدة البيانات المختلطة تلقائيًّا موقع البيانات بناءً على تواتر الوصول إلى البيانات ونوع عمليات البيانات التي تُجرى.

إحدى مزايا هذا الحل المختلط هو أن عالم البيانات سيظل يستخدِم لغة SQL للاستعلام عن البيانات. ولا يحتاج إلى تعلُّم لغة أخرى للاستعلام عن البيانات أو إلى استخدام مجموعةٍ متنوعة من الأدوات المختلفة. وبناءً على الاتجاهات الحالية، سيمتلك مورِّدو خدمات قواعد البيانات ومورِّدو حلول دمج البيانات وجميع موردي خدمات التخزين السحابي للبيانات حلولًا مُشابهة لهذا الحل المختلط في المستقبل القريب.

شكل ٣-٣: قواعد البيانات ومستودعات البيانات ومنصة هادوب وهي تعمل معًا (مُستوحًى من شكلٍ في مستنَدٍ تقني صادرٍ عن منصة بيانات جلونت، ٢٠١٧، https://gluent.com/wp-content/uploads/2017/09/Gluent-Overview.pdf).

تجهيز البيانات ودمجها

يشمل دمج البيانات استخراج البيانات من مصادرها المختلفة ودمجها معًا لتوفر رؤية موحدة للبيانات من مختلف أقسام المؤسسة. وتُعد السجلات الطبية مثالًا جيدًا على هذا الدمج. كوضعٍ مثالي، من المفترض أن يكون لكل شخصٍ سجل صحِّي واحد، وأن يستخدم كلُّ مستشفًى أو منشأة طبية أو طبيب مُمارس عام رقم التعريف نفسه للمريض أو وحدات القياس نفسها، ونظام التصنيف نفسه، وهكذا. ولكن لسوء الحظ، يمتلك كل مستشفًى تقريبًا نظامه المستقل لإدارة شئون المرضى، وكذلك كل مُختبر من المختبرات الطبية داخل المستشفى. تأمُل التحديات الكامنة في العثور على سجل أحد المرضى وتحديد النتائج الصحيحة للمريض الصحيح. وهذه هي التحديات التي يُواجهها مستشفًى واحد فحسب. وفي السيناريوهات التي تتشارك فيها مستشفيات متعددة في بيانات المرضى، تُصبح مشكلة الدمج مشكلةً عويصة. وبسبب هذا النوع من التحديات، تستغرق المراحل الثلاث الأولى من العملية القياسية المتعددة المجالات للتنقيب في البيانات (كريسب-دي إم) من ٧٠ إلى ٨٠ بالمائة من إجمالي زمن مشروع علم البيانات، مع تخصيص غالبية هذا الوقت لعملية دمج البيانات وحدها.

يُعَد دمج البيانات من عدة مصادر أمرًا صعبًا حتى عندما تكون البيانات هيكلية. ومع ذلك، عندما يتعلق الأمر ببعض مصادر البيانات الضخمة الأحدث، حيث تكون البيانات شِبه الهيكلية أو غير الهيكلية هي القاعدة، فإن تكلفة دمج البيانات وإدارة البِنية التحتية يمكن أن تُصبح كبيرة. وتُعد بيانات العملاء مثالًا توضيحيًّا على تحديات دمج البيانات. يمكن أن تُوجَد بيانات العملاء في العديد من التطبيقات المختلفة (وقواعد البيانات المقابلة لتلك التطبيقات). سيحتوي كل تطبيقٍ على جزء مختلف قليلًا من بيانات العملاء. على سبيل المثال، قد تحتوي مصادر البيانات الداخلية على التصنيف الائتماني للعميل، ومبيعات العميل، والمدفوعات، ومعلومات الاتصال الخاصة بمركز الاتصال، إلى آخِره. وربما تُتاح أيضًا بيانات إضافية عن العميل من مصادر البيانات الخارجية. في هذا السياق، يستلزِم تكوين رؤية متكاملة عن العميل استخراج البيانات من كلِّ مصدرٍ من هذه المصادر ودمجها معًا.

ستتضمَّن عملية دمج البيانات النموذجية عددًا من المراحل المختلفة، تتكوَّن من استخراج البيانات وتنظيفها وتوحيدها ونقلها وفي النهاية دمجها لتكوين نسخةٍ موحدة واحدة من البيانات. يمكن أن يكون استخراج البيانات من مصادر البيانات المتعددة أمرًا صعبًا لأن العديد من مصادر البيانات لا يمكن الوصول إليها إلا باستخدام واجهة معينة خاصة بذلك المصدر. ونتيجة لذلك، يجب أن يتمتع علماء البيانات بمجموعة واسعة من المهارات حتى يكونوا قادرين على التفاعل مع كل مصدر من مصادر البيانات من أجل الحصول على البيانات.

وبمجرد أن تُستخرَج البيانات من المصدر، يجب التحقُّق من جودة البيانات. وتنظيف البيانات هي عملية اكتشاف البيانات التالِفة أو غير الدقيقة، أو تنظيفها، أو استبعادها من البيانات المستخرَجة. على سبيل المثال، ربما يتعيَّن تنظيف معلومات عنوان العميل من أجل تحويلها إلى صيغةٍ موحدة. بالإضافة إلى ذلك، ربما يكون هناك بيانات مُكررة في مصادر البيانات، في تلك الحالة من الضروري تحديد سجلِّ العميل الصحيح الذي يجب استخدامه وإزالة جميع السجلات الأخرى من مجموعات البيانات. ومن المهم التأكُّد من أن القِيَم المستخدمة في مجموعة البيانات مُتماثلة. على سبيل المثال، ربما يستخدِم أحدُ تطبيقات المصدر قِيمًا عددية لتمثيل التصنيف الائتماني للعميل؛ في حين يستخدِم تطبيقٌ آخَرُ مزيجًا من القِيَم العددية والحروف. في هذا السيناريو، يجب اتخاذ قرارٍ بشأن نوع القيم التي ستُستخدَم، وبعد ذلك تغيير القِيم التي يختلف نوعها عن النوع الذي حُدِّد لهذا العنصر. على سبيل المثال، تخيَّل أن إحدى السِّمات في مجموعة البيانات هي مقاس حذاء العميل. يمكن أن يشتري العملاء أحذيةً من مختلف المناطق حول العالم، غير أن النظام العددي المستخدَم لتحديد مقاسات الأحذية في أوروبا يختلف قليلًا عن ذلك المستخدم في الولايات المتحدة والمملكة المتحدة وغيرها من الدول. وقبل إجراء تحليل البيانات ونمذجتها، يجب توحيد قيم هذه البيانات.

وينطوي نقل البيانات على تغيير البيانات أو تجميعها من قيمة إلى أخرى. ويمكن استخدام مجموعة متنوعة من التقنيات أثناء هذه الخطوة وتشمل تسوية البيانات وتوزيعها في فئاتٍ وتطبيعها وكذلك كتابة كودٍ مُخصص لإجراء عملية نقلٍ مُعينة. ويتضح مثال شائع على نقل البيانات في عملية معالجة عُمر أحد العملاء. في الكثير من مهام علم البيانات، التمييز الدقيق بين أعمار العملاء ليس مفيدًا بشكلٍ خاص. فالفارق بين عميلٍ في عمر الثانية والأربعين وآخر في الثالثة والأربعين ليس مُهمًّا بوجهٍ عام، على الرغم من أن التمييز بين عميلٍ في الثانية والأربعين وآخر في الثانية والخمسين قد يكون مفيدًا. ونتيجة لذلك، غالبًا ما يُنقل عمر العميل من العمر الأصلي إلى فئةٍ عمرية عامة. وتُعَد هذه العملية لتحويل الأعمار إلى فئاتٍ عمرية مثالًا على تقنية نقل بيانات تُسمى «التوزيع في فئات». وعلى الرغم من أن التوزيع في فئات هي عملية مباشرة نسبيًّا من المنظور التقني، فإن التحدي هنا يتمثل في تحديد الحدود الأفضل لنطاق الفئة لتطبيقه أثناء عملية التوزيع في فئات. وقد يؤدي تطبيق الحدود الخاطئة إلى حجب فروقٍ مُهمة في البيانات. ومع ذلك، ربما يستلزم العثور على الحدود المناسبة معرفةً خاصة بالمجال أو الاعتماد على التجربة والخطأ.

وتتمثل الخطوة الأخيرة للدمج في إنشاء البيانات التي تُستخدَم كمدخلاتٍ لخوارزميات تعلُّم الآلة. وتُعرف هذه البيانات ﺑ «الجدول الرئيسي للتحليل».

إنشاء الجدول الرئيسي للتحليل

أهم خطوة في إنشاء الجدول الرئيسي للتحليل هي اختيار السمات التي ستُضمَّن في التحليل. يعتمد الاختيار على معرفة المجال وعلى تحليل العلاقات بين السمات. فلنضرب مثلًا بسيناريو يُركز التحليل فيه على عملاء إحدى الخدمات. في هذا السيناريو، يُعتبر من المفاهيم الشائعة الاستخدام في المجال والتي ستجعل تصميمك واختيارك للسمات مُستنيرًا تفاصيل التعاقد مع العميل والمعلومات الديموغرافية والاستخدام والتغيرات الطارئة على الاستخدام، والاستخدام الخاص، والمرحلة الحالية في العملية القياسية المتعددة المجالات للتنقيب في البيانات، وروابط الشبكة، وما إلى ذلك. وعلاوة على ذلك، من المرجَّح أن تكون السمات التي وُجد أنها مرتبطة ارتباطًا كبيرًا بالسمات الأخرى متكررة ومن ثم ينبغي استبعاد واحدة من السمات المترابطة. وقد يسفر حذف السمات المتكررة عن نماذج أبسط يسهل فهمها، ويُقلل أيضًا من احتمالية إنتاج خوارزمية تعلُّم الآلة نموذجًا يتناسَب مع أنماطٍ زائفة في البيانات. تحدد مجموعة السمات المختارة لتضمينها ما يُعرف باسم «سجل التحليل». ويشمل سجل التحليل عادة كلًّا من السمات الخام والسمات المشتقة على حدٍّ سواء. وكل مثيل في الجدول الرئيسي للتحليل يُمثله سجل تحليل واحد، ومن ثم فإن مجموعة السمات المتضمنة في سجل التحليل تُحدد شكل المثيلات التي سيُجرى عليها التحليل.

وبعد أن صُمِّم سجل التحليل، يجب استخراج مجموعة من السجلات وتجميعها لإنشاء مجموعة بيانات مناسبة للتحليل. وعندما تُنشأ هذه السجلات وتخزَّن — في قاعدة بيانات مثلًا — يُشار عمومًا إلى مجموعة البيانات هذه ﺑ «الجدول الرئيسي للتحليل». وهذا الجدول عبارة عن مجموعة البيانات المستخدمة كمدخلاتٍ في خوارزميات تعلُّم الآلة. يقدم الفصل التالي مجال تعلُّم الآلة ويصف بعضًا من أشهر خوارزميات تعلُّم الآلة المستخدمة في علم البيانات.