مهام علم البيانات القياسية
-
التجميع (أو التجزئة)
-
اكتشاف الشذوذ (أو القيم الشاذة)
-
التنقيب عن قواعد الارتباط
-
التنبؤ (بما في ذلك المسائل الفرعية الخاصة بالتصنيف والانحدار)
قد يساعد فهم المهمة التي يستهدفها المشروع في اتخاذ الكثير من القرارات المتعلقة بالمشروع نفسه. على سبيل المثال، يتطلَّب تدريب نموذج التنبؤ أن يتضمن كلُّ مثيل من المثيلات في مجموعة البيانات قيمة السمة المستهدفة. وبالتالي، تُرشدنا معرفة أن المشروع يتنبأ (عبر المتطلبات) فيما يخصُّ تصميم مجموعة البيانات. إن فهم المهمة يساعد أيضًا في تحديد أي خوارزميَّات تعلُّم الآلة التي يجب استخدامها. وعلى الرغم من وجود عددٍ كبير من خوارزميات التعلُّم، فكل خوارزمية مُصمَّمة لمهمةٍ معينة خاصة بالتنقيب في البيانات. على سبيل المثال، خوارزميات تعلُّم الآلة التي تُولِّد نماذج الهياكل الشجرية مُصمَّمة بالأساس لمهامِّ التنبؤ. وثمة علاقة «متعدد إلى واحد» بين خوارزميات تعلُّم الآلة والمهمة، وبالتالي فإن معرفة المهمة لا تخبرك بالخوارزمية التي يجب استخدامها على وجه التحديد، إلا أنها تُحدد مجموعةً من الخوارزميات المصممة لأداء المهمة. ونظرًا إلى أن مهمة علم البيانات تؤثر على تصميم مجموعةِ البيانات واختيار خوارزمية التعلُّم، يجب اتخاذ القرار الخاص بأي مهمةٍ سيستهدفها المشروع في مرحلةٍ مبكرة من مراحل المشروع، حبَّذا أثناء مرحلة فهم طبيعة العمل من مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات. ومن أجل توفير فهمٍ أفضل لكل مهمةٍ من هذه المهام، يوضح هذا الفصل كيفية صياغة بعض مشكلات العمل القياسية على هيئة مهام.
من هم عملاؤنا؟ (التجميع)
واحد من مجالات تطبيق علم البيانات الأكثر شيوعًا في أوساط العمل التجاري هو دعم حملات التسويق والمبيعات. يتطلَّب تصميم حملة تسويقية موجَّهة نحو عملاء بعينِهم فَهم العميل المستهدَف. ولدى معظم الشركات مجموعة متنوعة من العملاء ذوي احتياجاتٍ متنوعة، وبالتالي من المرجَّح أن يفشل استخدام منهج واحدٍ يناسِب الجميع مع شريحةٍ كبيرة من قاعدة العملاء. ثمة منهج أفضل يتمثل في تحديد عددٍ من نماذج الشخصيات للعملاء أو الملفَّات التعريفية للعملاء، بحيث يكون كلٌّ منها ذا صلةٍ بشريحة مهمة من قاعدة العملاء، وبالتالي ذا صلة بتصميم حملات التسويق الموجَّهة لكل نموذج شخصية. ويمكن إنشاء هذه النماذج باستخدام الخبرة التخصُّصية، إلا أنه من الجيد بوجهٍ عامٍّ أن تستند نماذج الشخصيات على البيانات التي تمتلكها الشركة عن عملائها. وكثيرًا ما يُغفِل الحدس البشري تجاه العملاء شرائح مهمة مُبهمة المعالم أو لا يوفر مستوى الدقة المطلوب من أجل التسويق المفصَّل. على سبيل المثال، تذكُر ميتا إس براون (٢٠١٤) كيف أن الصورة النمطية المعروفة ﻟ «الأم المهتمة بتمرين كرة القدم» (أي ربة المنزل التي تعيش في الضواحي وتقضي وقتًا طويلًا في توصيل أبنائها بالسيارة إلى تمرين كرة القدم أو أية رياضةٍ أخرى) لم تُصنف ضمن قاعدة عملاء في أحد مشروعات علم البيانات. غير أن الاستعانة بعملية تجميعٍ مبنية على البيانات أظهرت نماذج شخصياتٍ أكثر تحديدًا للعملاء، مثل «الأمهات العاملات بدوامٍ كامل خارج المنزل واللاتي لديهنَّ أطفال صغار يمكثون في مراكز رعاية نهارية» و«الأمهات العاملات بدوامٍ جزئي ولديهنَّ أولاد في المرحلة الثانوية» و«السيدات المهتمات بالغذاء والصحة واللاتي ليس لديهنَّ أبناء». وتُحدد هذه النماذج الخاصة بالعملاء أهدافًا أوضحَ من أجل حملات التسويق وربما تُسلط الضوء مسبقًا على شرائح غير معلومة في قاعدة العملاء.
كثيرًا ما يُغفِل الحدس البشري تجاه العملاء شرائح مُهمةً مُبهمةَ المعالم أو لا يوفر مستوى الدقة المطلوب من أجل التسويق المفصَّل.
ويتمثل منهج علم البيانات القياسي لهذا النوع من التحليلات في صياغة المشكلة على هيئة مهمة «تجميع». وينطوي التجميع على فرز المثيلات في مجموعة البيانات إلى مجموعاتٍ فرعية تحتوي على المثيلات المتشابهة. ويتطلَّب التجميع عادة مُحللًا مُتخصصًا ليُقرر أولًا عدد المجموعات الفرعية التي يودُّ تحديدها في البيانات. وربما يكون هذا القرار معتمدًا على معرفةٍ بالمجال أو على معرفة بأهداف المشروع. بعد ذلك تُشغَّل خوارزمية التجميع على البيانات مع إدخال العددِ المرغوب من المجموعات الفرعية بصفته أحدَ مُعامِلات الخوارزمية. وعندئذٍ تُنشئ الخوارزمية هذا العدد من المجموعات الفرعية من خلال تجميع المَثيلات بناءً على تشابُهِ قِيَم سِماتها. وبمجرد أن تُنشئ الخوارزمية العناقيد (التجميعات)، يُراجعها شخصٌ خبير بالمجال لتحديد ما إذا كانت ذات مغزًى أم لا. وفي سياق تصميم حملة التسويق، تشتمل هذه المراجعة على التأكُّد مما إذا كانت المجموعات تعكس نماذج شخصيات العملاء بصورةٍ منطقية أو تُحدد النماذج الشخصية الجديدة التي لم تكن توضع في الحسبان من قبل.
تعتبر السمات التي يمكن استخدامها لوصف العملاء من أجل وضعهم في مجموعاتٍ كثيرة للغاية؛ ولكنها تضمُّ على سبيل المثال معلوماتٍ فئوية (مثل العمر، والنوع، وما إلى ذلك)، ومعلومات عن الموقع (مثل الرمز البريدي، أو العنوان في القرية أو المدينة، وما إلى ذلك)، ومعلومات خاصة بالمعاملات (مثل ما المنتجات أو الخدمات التي قاموا بشرائها)، والإيرادات التي تُحققها الشركة منهم، ومنذ متى وهم يتعاملون مع الشركة، وما إذا كانوا أعضاء في برنامج بطاقة الولاء، وما إذا كانوا قد سبق لهم إرجاع مُنتجٍ أو تقديم شكوى بشأن الخدمة، وما إلى ذلك. وكما هو الحال بالنسبة إلى جميع مشروعات علم البيانات، فإن أحد أكبر التحدِّيات التي يُواجهها التجميع (تكوين العناقيد) هو تحديد أي السِّمات يُدمَج وأيها يُستبعَد لتحقيق أفضل النتائج. وينطوي اتخاذ هذا القرار بشأن اختيار السمات على تكرارَ التجارب والتحليل البشري لنتائج كلِّ عملية تكرار.
وكما هو الحال بالنسبة إلى جميع مشروعات علم البيانات، فإن أحد أكبر التحديات التي يواجهها التجميع هو تحديد أي السِّمات يُدمج وأيها يُستبعَد لتحقيق أفضل النتائج.
عندما يُحكَم على مجموعة من عناقيد نماذج شخصيات العملاء بأنها مفيدة، عادةً ما تُمنح هذه العناقيد أسماءً لتعكس السمات الرئيسية الخاصة بنماذج الشخصيات. ويُحدد مركز كل عنقودٍ نموذج شخصية مختلفًا، حيث ينتج وصف نموذج الشخصية من قِيم السمات الخاصة بمركز العنقود ذي الصلة. وخوارزمية التجميع بالمتوسطات ليست مُلزمةً بإنتاج عناقيد متساوية الحجم، بل إنها من المرجَّح أن تُنتج عناقيد مختلفة الحجم. وأحجام العناقيد من الممكن أن تكون مفيدة، لأنها ربما تساعد في توجيه عملية التسويق. على سبيل المثال، قد تكشف عملية التجميع (تكوين العناقيد) عن عناقيد صغيرة مركزة من العملاء تَغفُل عنها حملات التسويق الحالية. أو ربما تركز استراتيجية بديلة على عناقيد تحتوي على عملاء يجلبون نسبةً كبيرة من الإيرادات. وأيًّا كانت استراتيجية التسويق المتبعة، يُعتبر فهم الشرائح داخل قاعدة العملاء شرطًا أساسيًّا لنجاح التسويق.
إحدى مُميزات التجميع كمنهجٍ تحليلي هو أنه يمكن تطبيقه على معظم أنواع البيانات. ونظرًا إلى تعدُّد استعمالاته، عادةً ما يُستخدم التجميع كأداة لاستكشاف البيانات أثناء مرحلة فهم البيانات في كثيرٍ من مشروعات علم البيانات. كما يُعَد التجميع مفيدًا في مجموعةٍ واسعة من المجالات الأخرى. على سبيل المثال، استخدم التجميع لتحليل الطلاب المسجلين في دورة دراسية مُعينة من أجل تحديد مجموعات الطلاب الذين يحتاجون إلى دعمٍ إضافي أو الذين يُفضلون مناهج تعليميةً مختلفة. كما أنه استُخدِم من أجل تحديد مجموعات المستندات المتشابهة في مجموعةٍ من المستندات، وفي مجال العلوم، استُخدِم في مجال المعلوماتية الحيوية لتحليل تسلسُل الجينات في تحليل الرقائق الجينية الدقيقة.
هل هذا احتيال؟ (اكتشاف الشذوذ)
يتضمن اكتشاف الشذوذ أو تحليل القيم الشاذة البحث عن مَثيلات لا تتوافق مع البيانات النمطية الواردة في مجموعة البيانات وتحديد هذه المثيلات. وكثيرًا ما يُشار إلى هذه الحالات غير المتوافقة ﺑ «قيم الشذوذ» أو «القيم الشاذة». وغالبًا ما يُستخدم اكتشاف الشذوذ في تحليل المعاملات المالية من أجل رصد أنشطة الاحتيال المحتملة وبدء تحقيقاتٍ بشأنها. فعلى سبيل المثال، ربما يؤدي اكتشاف الشذوذ إلى كشف النقاب عن معاملاتٍ احتيالية لبطاقة الائتمان من خلال تحديد المعاملات التي حدثت في مكانٍ غير معتاد أو تلك التي تضمنت مبالغ كبيرةً غير معتادة مقارنةً بمعاملاتٍ أخرى مُسجَّلة على بطاقةٍ ائتمانية مُعينة.
العيب الأساسي في المنهج القائم على القواعد المستخدَم لاكتشاف الشذوذ هو أن تحديد القواعد بهذه الطريقة يعني أن الأحداث الشاذة لن يُتعرَّف عليها إلا بعد وقوعها بالفعل ولفت انتباه الشركة إليها. فمن الناحية المثالية، تودُّ معظم المؤسسات أن تتمتَّع بالقدرة على تحديد القِيَم الشاذة فور ظهورها لأول مرة أو إذا ظهرت رغم عدم الإبلاغ عنها. يُعد اكتشاف الشذوذ، في بعض النواحي، نقيضًا للتجميع: الهدف من التجميع هو تحديد مجموعات المثيلات المتشابهة، في حين أن الهدف من اكتشاف الشذوذ هو العثور على المثيلات المختلفة عن باقي البيانات في مجموعة البيانات. ومن هذا المنطلق، يمكن الاستعانة بالتجميع لتحديد القِيَم الشاذَّة تلقائيًّا. وثمة منهجان للاستعانة بالتجميع في اكتشاف الشذوذ. المنهج الأول هو أنه ستُجمَّع البيانات العادية معًا، وستكون السجلات الشاذة في عناقيد منفصلة. ستكون العناقيد التي تحتوي على السجلَّات الشاذة صغيرة، وبالتالي ستكون مختلفة بوضوح عن العناقيد الكبيرة التي تُوجد فيها الكتلة الأساسية من السجلات. والمنهج الثاني هو قياس المسافة بين كلِّ مثيلٍ ومركز العنقود. وكلما كان المثيل بعيدًا عن مركز العنقود، زاد الاحتمال أن يكون شاذًّا وبالتالي يستلزم التحقيق.
وثمة منهج آخر لاكتشاف الشذوذ وهو تدريب نموذج تنبُّؤ، مثل هيكلٍ شجري، لتصنيف المَثيلات إما شاذة أو غير ذلك. ومع ذلك، تدريب هذا النموذج يستلزم عادةً مجموعة بيانات تدريبية تحتوي على سجلَّات شاذة وأخرى عادية. ولا يكفي أن يكون لديك عددٌ قليل من المثيلات التي تحتوي على سجلَّات شاذة؛ فمن أجل تدريب نموذج تنبؤ عادي، يجب أن تحتوي مجموعة البيانات على عددٍ معقول من المثيلات من كل فئة. ومن الناحية المثالية، يجب أن تكون مجموعة البيانات متوازنة؛ في حالة النتيجة الثنائية، من شأن التوازن أن يعني تقسيم البيانات بنسبة ٥٠:٥٠. وبوجهٍ عام، لا يمكن الحصول على هذا النوع من بيانات التدريب لاكتشاف الشذوذ؛ إذ بحكم تعريفها، القيم الشاذة هي أحداث نادرة، ربما تظهر في ١ إلى ٢ بالمائة من البيانات أو أقل. وهذا القصور في البيانات يعوق استخدام نماذج التنبُّؤ العادية الجاهزة. ومع ذلك، ثمة خوارزميات تعلُّم الآلة تُعرَف باسم «مُصنفات الفئة الواحدة» مُصمَّمة للتعامل مع نوعية البيانات غير المتوازنة التي تتميز بها مجموعات بيانات اكتشاف الشذوذ.
تُعد خوارزمية «آلة المتَّجه الدَّاعم ذات الفئة الواحدة» من مصنفات الفئة الواحدة المعروفة. بصفة عامة، تفحص هذه الخوارزمية البيانات كوحدة واحدة (أي فئة واحدة) وتُحدد السمات الأساسية للمثيلات وسلوكها المتوقع. وتشير الخوارزمية بعد ذلك إلى مدى تشابُه أو عدم تشابُه كل مثيلٍ عن السمات الأساسية والسلوك المتوقع. يمكن استغلال هذه المعلومات بعد ذلك لتحديد المثيلات التي تستحق المزيد من التحقيق (أي القيم الشاذة المسجلة). وكلما زاد اختلاف المثيل، زادت احتمالية ضرورة التحقُّق منه.
وتعني حقيقة أن القيم الشاذة نادرة أنه قد يسهل عدم الانتباه لها ويصعب تحديدها. ونتيجة لذلك، عادةً ما يجمع عالِم البيانات عددًا من النماذج المختلفة لاكتشاف القِيَم الشاذة. الفكرة هي أن النماذج المختلفة ستكتشف نوعيات مختلفة من القيم الشاذة. وبوجهٍ عام، هذه النماذج تُستخدَم لتكملة القواعد المعروفة داخل المؤسسة التي حددت الأنواع المختلفة من الأنشطة الشاذة. تُدمج النماذج المختلفة معًا في حلٍّ لإدارة القرار يُمكِّننا من الاستفادة من التنبؤات الناتجة من كل نموذج في تنوير القرار الخاص بناتج التنبؤ النهائي. على سبيل المثال، إذا صنف نموذج واحد فقط من أصل أربعة نماذج إحدى المعاملات على إنها معاملة احتيالية، فربما يقرر نظام اتخاذ القرار أنها ليست معاملة احتيالية حقيقية، وقد تُتجاهَل المعاملة. وعلى العكس من ذلك، إذا صنفت ثلاثة أو أربعة نماذج من أصل الأربعة نماذج المعاملة على أنها معاملة احتيالية محتملة، فسيتم وضع علامة بجوار المعاملة لكي يتحقق منها عالِم البيانات.
ويمكن تطبيق عملية اكتشاف الشذوذ في الكثير من المجالات الإشكالية بخلاف حالات الاحتيال في بطاقات الائتمان. وبصفة عامة، يُستخدم اكتشاف الشذوذ في غرف المقاصَّة لتحديد المعاملات المالية التي تستلزم المزيد من التحقيق لتحديد ما إذا كانت حالات احتيال مُحتملة أو غسيل أموال. ويُستخدم في تحليل مطالبات التأمين لتحديد ما لا يتوافق مع المطالبات النموذجية للشركة. وفي الأمن السيبراني، تُستخدَم لتحديد عمليات اقتحام الشبكة من خلال رصد حالات القرصنة المحتملة أو السلوك غير النمطي من قبل الموظفين. وفي المجال الطبي، قد يكون تحديد القيم الشاذة في السجلَّات الطبية مفيدًا في تشخيص الأمراض ودراسة العلاجات وآثارها على الجسم. وفي النهاية، ومع انتشار أجهزة الاستشعار والاستخدام المتزايد لتكنولوجيا إنترنت الأشياء، سيلعب اكتشاف الشذوذ دورًا مهمًّا في مراقبة البيانات وتحذيرنا عند وقوع أحداث شاذة تستلزم اتخاذ إجراء.
هل تريد بطاطس مقلية مع هذا الطلب؟ (التنقيب عن قواعد الارتباط)
يُعد البيع المتقاطع — أو الاقتراح على العملاء الذين يشترون منتجات أنهم ربما بحاجةٍ أيضًا إلى شراء منتجات تكميلية أخرى أو منتجات ذات صلة — من الاستراتيجيات القياسية في المبيعات. الفكرة هي زيادة إجمالي معدل إنفاق العملاء من خلال حثِّهم على شراء المزيد من المنتجات وفي الوقت نفسه تحسين خدمة العملاء من خلال تذكيرهم بمنتجات أرادوا شراءها على الأرجح؛ ولكنهم ربما نسوها. والمثال الكلاسيكي على البيع المتقاطع هو عندما يسأل نادل في مطعم هامبورجر زبونًا طلبَ للتو هامبورجر: «هل تريد بطاطس مقلية مع هذا الطلب؟» تعرف محلات السوبر ماركت ومتاجر البيع بالتجزئة أن المتسوِّقين يشترون المنتجات في مجموعاتٍ ويستغلون هذه المعلومة لخلق فُرَصٍ للبيع المتقاطع. على سبيل المثال، عملاء السوبر ماركت الذين يشترون النقانق من المرجَّح أن يشتروا كاتشب وبيرة أيضًا. وبالاستعانة بهذه النوعية من المعلومات، يستطيع المتجر أن يُصمم نسقًا معينًا لتوزيع المنتجات على الأرفف. وبالتالي، فإن وضع النقانق والكاتشب والبيرة بعضها بجوار بعض على أرفف المتجر يساعد العملاء في جمع هذه المجموعة من المنتجات سريعًا وربما يؤدي أيضًا إلى زيادة المبيعات لأن العملاء الذين يشترون النقانق ربما يرون منتجَي الكاتشب والبيرة اللذين نسوا حاجتهم إليهما وبالتالي يشترونهما. إن فهم هذه النوعيات من الارتباط بين المنتجات هو أساس جميع عمليات البيع المتقاطع.
يُعتبر التنقيب عن قواعد الارتباط تقنية تحليل بيانات غير خاضعة للإشراف تهدف إلى البحث عن مجموعات العناصر التي كثيرًا ما يتكرَّر وجودها معًا. ويتمثل المثال الكلاسيكي للتنقيب عن قواعد الارتباط في «تحليل سلة التسوق»؛ حيث تحاول متاجر البيع بالتجزئة تحديد مجموعات السلع التي تُشترى معًا مثل النقانق والكاتشب والبيرة. ومن أجل إجراء هذا النوع من تحليل البيانات، يتعقَّب المتجر مجموعة السلع (أو سلة التسوق) التي يشتريها كل عميل أثناء كل زيارة إلى المتجر. ويصف كل صفٍّ في مجموعة البيانات سلة واحدة من السلع التي اشتراها عميل مُعين في زيارة معينة إلى المتجر. وهكذا تكون السمات في مجموعة البيانات هي المنتجات التي يبيعها المتجر. وبأخذ هذه البيانات في الاعتبار، تبحث عملية التنقيب عن قواعد الارتباط عن السلع التي يتكرَّر وجودها معًا داخل سلة التسوق في كل مرة. وخلافًا للتجميع واكتشاف الشذوذ، اللذين يُركزان على تحديد أوجه التشابُه أو الاختلاف بين المثيلات (أو الصفوف) في مجموعة البيانات، فإن التنقيب عن قواعد الارتباط يركز على البحث في العلاقات بين السِّمات (أو الأعمدة) في مجموعة البيانات. وبوجهٍ عام، فإنها تبحث عن علاقات الارتباط بين المنتجات التي تُشترى في نفس الوقت. وباستخدام التنقيب عن قواعد الارتباط، يستطيع المتجر البدء في الإجابة عن أسئلةٍ بخصوص سلوكيات العملاء من خلال البحث عن أنماط ربما تُوجَد في البيانات. ومن بين الأسئلة التي يمكن الاستعانة بتحليل سلة التسوق للإجابة عنها ما يلي: «هل كانت حملة التسويق مُجدية؟ هل تغيرت أنماط الشراء لدى هذا العميل؟ هل وقع حدث مهم في حياة العميل؟ هل تتأثر سلوكيات الشراء بموقع المنتج في المتجر؟ من الذي يجب أن نستهدفه بمنتجنا الجديد؟»
- (١)
إيجاد جميع توليفات العناصر التي توجَد معًا في مجموعة من التعاملات بحدٍّ أدنى مُحدد من التواتر والتكرار. ويُطلق على هذه التوليفات «مجموعة العناصر المتكررة».
- (٢)
إنشاء قواعد تعبر عن احتمالية وجود العناصر معًا داخل مجموعة العناصر المتكررة. تحسب خوارزمية أبريوري احتمالية وجود عنصرٍ في مجموعة العناصر المتكررة بمعلومية وجود عنصرٍ آخر أو عناصر أخرى.
تشير هذه القاعدة إلى أن العملاء الذين يشترون النقانق والكاتشب من المرجَّح أن يقوموا بشراء البيرة أيضًا. وثمة مثال مُتكرر على قوة التنقيب عن قواعد الارتباط يتمثل في مثال الارتباط بين «البيرة والحفاضات» الذي يصف كيف استغل أحد المتاجر الأمريكية المغمورة في الثمانينيات من القرن العشرين نظامًا حاسوبيًّا قديمًا لتحليل بيانات فواتير المشتريات الخاصة بالمتجر ووجد علاقة ارتباطية غريبة بين الحفَّاضات والبيرة في مشتريات العملاء. ووُضعت نظرية لفهم هذه القاعدة ألا وهي أن الأُسَر التي لديها أطفال صغار تستعدُّ لقضاء عطلات نهاية الأسبوع وأنها تدرك أنها ستكون بحاجة إلى حفاضات للأطفال وستقضي العطلة معًا في المنزل. وضع المتجر العنصرَين (الحفاضات والبيرة) مُتجاورَين، وبالتبعية ارتفعت المبيعات. فُنِّدت قصة وجود ارتباط بين البيرة والحفاضات باعتبارها قصة ملفَّقة، غير أنها لا تزال تُقدم مثالًا مفيدًا على الفوائد المحتملة للتنقيب عن قواعد الارتباط بالنسبة إلى متاجر البيع بالتجزئة.
ثمة قياسان إحصائيَّان أساسيَّان مرتبطان بقواعد الارتباط؛ ألا وهما: «الدعم» و«الثقة». تشير نسبة «دعم» قاعدة الارتباط — أو معدل المعاملات التي تشمل كلًّا من العناصر السابقة والعناصر التالية نسبةً إلى العدد الإجمالي للمعاملات — إلى مدى تكرار وجود العناصر الواردة في قاعدة الارتباط معًا. أما نسبة «الثقة» في قاعدة الارتباط — أو معدل عدد المعاملات التي تشمل كلًّا من العناصر السابقة والعناصر التالية بالنسبة إلى عدد المعاملات التي تشمل العناصر السابقة — فهي الاحتمال الشرطي بأن العنصر التالي سوف يتوفر بشرط وجود العنصر السابق. إذن، على سبيل المثال، تعني نسبة الثقة التي تساوي ٧٥ بالمائة في قاعدة ارتباط تربط بين عنصري «النقانق» و«الكاتشب» وعنصر «البيرة» أنه في ٧٥ بالمائة من الحالات التي يشتري فيها العملاء كلًّا من «النقانق» و«الكاتشب»، سيشترون أيضًا «البيرة». أما نسبة دعم القاعدة فتشير ببساطة إلى نسبة السلال التي تنطبق عليها القاعدة في مجموعة البيانات. على سبيل المثال، تشير نسبة الدعم التي تساوي ٥ بالمائة إلى أن ٥ بالمائة من جميع السلال في مجموعة البيانات تحتوي على العناصر الثلاثة الموجودة في قاعدة «النقانق والكاتشب والبيرة».
حتى مجموعات البيانات الصغيرة قد تسفر عن إنشاء عددٍ كبير من قواعد الارتباط. ومن أجل التحكم في درجة تعقيد تحليل هذه القواعد، من المعتاد تنقيح مجموعة القواعد المتولدة لتشمل فقط القواعد التي تتميز بنسبة دعمٍ وثقة عاليتَين. والقواعد التي لا تتمتع بنسبتَين عاليتين من الدعم والثقة ليست مثيرة للاهتمام نظرًا إلى أن القاعدة لا تُغطي سوى نسبةٍ صغيرة جدًّا من السلال (نسبة دعم منخفضة)، أو لأن العلاقة بين العناصر السابقة والعناصر التالية ضعيفة (نسبة ثقة منخفضة). وينبغي أيضًا تنقيح القواعد عديمة الأهمية أو غير القابلة للتفسير. تُمثل القواعد عديمة الأهمية علاقاتٍ ارتباطية واضحة ومعروفة جيدًا لأي شخصٍ يفهم في هذا المجال من الأعمال. وتمثل القاعدة غير القابلة للتفسير علاقاتٍ ارتباطية غريبة جدًّا لدرجةٍ يصعب معها فهم كيف يمكن تحويل القاعدة إلى إجراءٍ مفيد بالنسبة إلى الشركة. ومن المرجَّح أن تكون القاعدة غير القابلة للتفسير ناتجة عن عينة بياناتٍ غريبة (أي أن القاعدة تمثل ارتباطًا زائفًا). وبمجرد أن تُنقَّح مجموعة القواعد، يستطيع عالِم البيانات تحليل القواعد المتبقية لفهم أي المنتجات يرتبط بعضها ببعض، وتطبيق هذه المعلومة الجديدة في الشركة. وعادة ستستخدم الشركات هذه المعلومة الجديدة لتحديد نسَق توزيع المنتجات في المتجر أو لتنفيذ بعض حملات التسويق الموجَّه إلى العملاء. وقد تشمل هذه الحملات إجراء تحديثات لمواقعها الإلكترونية لتشمل المنتجات الموصى بها، والإعلانات داخل المَتجر، ورسائل البريد الإلكتروني المباشرة، والبيع المتقاطع لمنتجاتٍ أخرى من خلال فريق التحصيل (كاشير) وهلم جرًّا.
وتصير عملية التنقيب عن قواعد الارتباط أقوى عندما ترتبط سلال العناصر ببياناتٍ ديموغرافية بخصوص العملاء. ولهذا السبب ينفذ الكثير من تجار التجزئة برامج بطاقة الولاء نظرًا إلى أن هذه البرامج تسمح لهم ليس فقط بالربط بين العميل وبين سلال التسوق المختلفة له بمرور الوقت وإنما تسمح لهم أيضًا بربط سلة التسوق بالمعلومات الديموغرافية الخاصة بالعميل. ويمكِّن دمج هذه المعلومات الديموغرافية في تحليل الارتباط من أن يكون التحليل مُركِّزًا على معلومات ديموغرافية مُعينة، والتي قد تساعد أكثر في التسويق والإعلانات الموجَّهة. على سبيل المثال، يمكن استخدام قواعد الارتباط المزوَّدة بمعلوماتٍ ديموغرافية مع العملاء الجدد الذين لا يتوافر لدى الشركة معلوماتٍ عن عاداتهم الشرائية؛ ولكن لديها معلومات ديموغرافية عنهم. وفيما يلي مثال على قاعدة ارتباط مزوَّدة بمعلومات ديموغرافية:
وتعني أنه إذا كان النوع الاجتماعي للعميل ذكَرًا والسنُّ أقلَّ من ٣٥ واشترى نقانق وكاتشب، فسوف يشتري بيرة).
[الدعم = ٢٪، الثقة = ٩٠٪.]
يركز نطاق التطبيق المعتاد للتنقيب عن قواعد الارتباط على ماهية المنتجات الموجودة في سلَّة التسوق وماهية المنتجات غير الموجودة في هذه السلة. يفترِض هذا أن المنتجات تُشترى في زيارةٍ واحدة إلى المتجر أو الموقع الإلكتروني. ومن المحتمَل أن ينجح هذا النوع من السيناريوهات مع معظم سيناريوهات البيع بالتجزئة وغيرها من السيناريوهات ذات الصِّلة. ومع ذلك، يكون التنقيب عن قواعد الارتباط مفيدًا أيضًا في نطاقٍ من المجالات بخلاف البيع بالتجزئة. على سبيل المثال، في مجال الاتصالات عن بُعد، يساعد تطبيق التنقيب عن قواعد الارتباط على استخدام العملاء شركات الاتصالات عن بُعد في تصميم طرُق لتجميع الخدمات المختلفة معًا في باقات. وفي مجال التأمين، يُستخدم التنقيب عن قواعد الارتباط لمعرفة ما إذا كانت هناك علاقات ارتباطية بين المنتجات والمطالبات. وفي المجال الطبي، يُستخدم التنقيب عن قواعد الارتباط للتحقُّق مما إذا كان هناك تفاعُلات بين العلاجات والأدوية الموجودة وتلك الجديدة. وفي مجال الخدمات المصرفية والمالية، يُستخدم لمعرفة أي منتجاتٍ يمتلِكها العملاء عادة وما إذا كان من الممكن تطبيق هذه المنتجات على العملاء الجدد أو العملاء الحاليين. ويمكن الاستعانة بالتنقيب عن قواعد الارتباط لتحليل سلوكيات الشراء على مدى فترةٍ زمنية. على سبيل المثال، يميل العملاء إلى شراء المنتج «س» و«ص» اليوم، وفي غضون ثلاثة أشهر يشترون المنتج «ع». ويمكن اعتبار هذه الفترة الزمنية سلةَ تسوُّق، على الرغم من أنها فترة تمتدُّ على مدار ثلاثة أشهر. ويؤدي تنفيذ التنقيب عن قواعد الارتباط على هذا النوع من السلال المحدَّدة زمنيًّا إلى توسيع نطاقات تطبيق التنقيب عن قواعد الارتباط لتشمل جداول الصيانة واستبدال قطع الغيار والمكالمات الخدمية والمنتجات المالية وما إلى ذلك.
تسرُّب العملاء أو الاحتفاظ بهم، تلك هي المسألة (التصنيف)
يُستخدم مصطلح «تسرب العملاء» (أو خسارة العملاء) لوصف عملية تخلي العملاء عن خدمةٍ ما وانضمامهم إلى شركة خدمية أخرى. وبالتالي، تُعرَف مسألة التنبؤ بالعميل الذي من المحتمَل أن يتوقف عن استخدام الخدمة في المستقبل القريب باسم «التنبؤ بتسرُّب العملاء». وكما يُوحي الاسم، فهذه مهمة تنبؤية. وتتمثل هذه المهمة في تصنيف ما إذا كان العميل عُرضةً للتسرُّب من الخدمة أم لا. تستخدِم الكثير من الشركات هذا النوع من التحليل للتنبؤ باحتمالية تسرُّب العملاء في شركات الاتصالات وخدمات المرافق والخدمات البنكية والتأمين وغيرها من المجالات. وأحد المجالات النامية التي تركز عليها الشركات هو التنبؤ بمعدل دوران العمالة أو تسرُّب العمالة: أي العمالة التي من المرجَّح أن تترك الشركة في غضون فترةٍ زمنية محددة.
وعندما يُنتج نموذج التنبؤ تسميةً فئوية أو فئة لمُدخَلٍ ما، يُعرف النموذج باسم «نموذج التصنيف». ويتطلب تدريب نموذج التصنيف بياناتٍ قديمة، حيث يُسمى كل مثيلٍ بتسميةٍ فئوية ليشير إلى ما إذا كان الحدث المستهدَف قد وقع لذلك المثيل أم لا. على سبيل المثال، يتطلب تصنيف عملية تسرُّب العملاء مجموعة بيانات تُمنَح فيها تسمية فئوية لكل عميلٍ (صف واحد لكل عميل) بحيث تشير إلى ما إذا كان هذا العميل قد تسرَّب أم لا. وستشمل مجموعة البيانات سمة، تُعرف باسم «السمة المستهدَفة»، التي تدرج هذه التسمية الفئوية لكل عميل. وفي بعض المثيلات، يكون وضْعُ تسميةٍ فئوية إلى جوار خانة العميل، للدلالة على تسرُّبه أو عدمه، مهمةً بسيطة نسبيًّا. على سبيل المثال، ربما يتواصل العميل مع الشركة ويُلغي بكل بساطةٍ اشتراكه أو تعاقده مع الشركة. ومع ذلك، في بعض الحالات، ربما لا تُميَّز واقعة التسرب ببساطة. على سبيل المثال، ليس لدى جميع عملاء شركات خدمات الهواتف المحمولة عقودٌ شهرية. فبعضهم يمتلك عقود الدفع المسبق (أو الشحن المسبق) حيث يقومون فيها بشحن أرصدة هواتفهم على فتراتٍ غير منتظمة عند الحاجة إلى المزيد من الرصيد على الهاتف. وقد يكون من الصعب تحديد ما إذا كان هذا النوع من العملاء قد تسرَّبوا أم لا: هل خسرت الشركة العميل الذي لم يُجْرِ مكالمة هاتفية منذ أسبوعين، أم من الضروري أن يكون رصيد العميل صفرًا ولم يقم بأي نشاطٍ لمدة ثلاثة أسابيع قبل اعتباره عميلًا متسربًا؟ بمجرد تحديد حدث التسرُّب من المنظور التجاري، فمن الضروري إذن تطبيق هذا على هيئة كودٍ من أجل تعيين تسميةٍ فئوية مستهدفة لكل عميلٍ في مجموعة البيانات.
ثمة عامل تعقيد آخر مرتبط بإنشاء مجموعة بيانات مُدربة لنماذج التنبؤ بتسرُّب العملاء يتمثل في ضرورة أخذ الفجوات الزمنية في الاعتبار. فالهدف من وراء التنبؤ بتسرُّب العملاء هو عمل نموذج للمَيل (أو الاحتمالية) أن العميل سيتسرَّب في وقتٍ ما في المستقبل. ونتيجة لذلك، فإن لهذا النوع من النماذج بُعدًا زمنيًّا يجب وضعه في الاعتبار أثناء إنشاء مجموعة البيانات. ومجموعة السمات الواردة في مجموعة البيانات الخاصة بنموذج المَيل مأخوذة من فترتَين زمنيتَين منفصلتَين: فترة «المراقبة» وفترة «النتائج». وفترة المراقبة هي الفترة التي تُحسَب فيها قِيَم سمات كل مدخل. أما فترة النتائج فهي الفترة التي تحسب فيها السمة المستهدفة. والهدف التجاري من ابتكار نموذج للتنبؤ بتسرُّب العملاء هو تميكن الشركة من التدخل بشكلٍ أو بآخر قبل تسرُّب العميل؛ أو بعبارة أخرى إغراء العميل بمواصلة الاستعانة بالخدمة. وهذا يعني أنه يجب إجراء التنبؤ بتسرب العملاء في وقتٍ سابق على توقف العميل عن استخدام الخدمة فعليًّا. ومدة هذه الفترة مساوية لمدة فترة النتائج، والنتيجة التي يخرج بها نموذج التنبؤ تفيد بأن العميل سيتوقَّف عن استخدام الخدمة في غضون فترة النتائج هذه. على سبيل المثال، يمكن تدريب النموذج على التنبؤ بأن العميل سيتسرَّب في غضون شهر أو شهرين، بناءً على سرعة الشركة في إجراء عملية تدخل لإقناع العميل بالبقاء.
ويؤثر تحديد فترة النتائج على البيانات التي ينبغي استخدامها كمُدخلاتٍ للنموذج. فإذا كان النموذج مصممًا للتنبؤ بأن العميل سيتوقف عن استخدام الخدمة في غضون شهرَين من اليوم الذي يُشغَّل فيه النموذج على سجلِّ ذلك العميل، فعندما يتم تدريب هذا النموذج، ينبغي حساب السِّمات المدخَلة التي تصف العملاء القدامى الذين توقفوا عن استخدام الخدمة بالفعل باستخدام البيانات المتاحة عن هؤلاء العملاء قبل شهرين من توقفهم عن استخدام الخدمة. وبالمِثل ينبغي حساب السمات المدخَلة التي تصف العملاء النشطين حاليًّا باستخدام البيانات المتاحة عن نشاط هؤلاء العملاء منذ شهرَين. ويضمن إنشاء مجموعة البيانات بهذه الطريقة أن جميع المثيلات في مجموعة البيانات هذه — والتي تتضمَّن العملاء المتسرِّبين والعملاء النشِطين — تصف العملاء في وقت تصميم النموذج أثناء رحلتهم الفردية كعملاء للتنبؤ بما إذا كانوا سيتسرَّبون أم لا قبل شهرَين من اتخاذهم القرار.
بمجرد إنشاء مجموعة بيانات ذات تسمية فئوية، تكون المرحلة الكبرى في إنشاء نموذج التصنيف هي استخدام خوارزمية تعلُّم آلة لإنشاء النموذج. وأثناء النمذجة، من المفيد تجربة عددٍ من خوارزميات تعلُّم الآلة المختلفة لتحديد الخوارزمية التي تعمل بشكلٍ أفضل على مجموعة البيانات. وبمجرد اختيار النموذج النهائي، تُقدَّر الدقة المحتملة لتوقُّعات هذا النموذج على المثيلات الجديدة من خلال اختباره على مجموعةٍ فرعية من البيانات لم تُستخدَم أثناء مرحلة تدريب النموذج. وإذا اعتبر النموذج دقيقًا بالدرجة الكافية ومناسبًا لاحتياج الشركة، يُنشَر النموذج ويُطبَّق على البيانات الجديدة إما في عمليةٍ مجمعة أو في الوقت الفعلي. ومن أهم مراحل نشر النموذج التأكد من تشغيله بطريقةٍ ملائمة واستخدام الموارد المناسبة بحيث يُستغَل النموذج بفاعلية. لا فائدة تُرجى من إنشاء نموذج للتنبؤ بتسرُّب العملاء ما لم يَنتُج عن تنبؤات النموذج اتخاذ إجراءات لاستمالة العملاء لتستطيع الشركة الاحتفاظ بهم.
بالإضافة إلى التنبؤ بالتسمية التصنيفية، تستطيع نماذج التنبؤ أن تُعطينا مقياسًا عن مدى تأكد النموذج من التنبؤ الذي وصل إليه. يُسمى هذا المقياس «احتمالية صحة التنبؤ» وله قيمة تتراوح ما بين صفر وواحد. وكلما كانت القيمة أعلى، زاد احتمال أن يكون التنبؤ صحيحًا. ويمكن استخدام قيمة مقياس «احتمالية صحة التنبؤ» لإعطاء الأولوية للعملاء الذين يجِب التركيز عليهم. على سبيل المثال، في التنبؤ بتسرُّب العملاء تريد الشركة التركيز على العملاء الأكثر عرضةً للتوقُّف عن استخدام الخدمة. ومن خلال الاستعانة بقيمة احتمالية صحَّة التنبؤ وترتيب العملاء بناءً على هذه القيمة، يمكن للشركة أن تركز على العملاء الرئيسيين (الأكثر عُرضة للتوقُّف عن استخدام الخدمة) قبل الانتقال إلى العملاء ذوي القيمة الأقل فيما يخصُّ احتمالية صحة التنبؤ.
كم ستكون تكلفة هذا؟ (الانحدار)
التنبؤ بالأسعار هي مهمة تقدير سعر المنتج في نقطة زمنية مُعينة. قد يكون هذا المنتج سيارةً أو منزلًا أو برميل نفط أو سهمًا أو إجراءً طبيًّا. ومن الواضح أن الوصول إلى تقدير حقيقيٍّ لسعر شيءٍ ما هو أمر مهم بالنسبة إلى شخصٍ يفكر في شراء هذا الشيء. وتعتمد دقة نموذج التنبؤ بالأسعار على المجال. على سبيل المثال، نظرًا إلى تقلُّبات سوق الأوراق المالية، فمن الصعب جدًّا التنبؤ بسعر سهمٍ ما غدًا. وعلى العكس من ذلك، ربما يكون من الأسهل التنبؤ بسعر منزلٍ في مزادٍ نظرًا إلى أن تغيُّر أسعار المنازل يتم بوتيرةٍ أبطأ بكثيرٍ من الأسهم.
حقيقة أن التنبؤ بالأسعار يشمل تقدير قيمة سمةٍ مستمرة تعني أنه يُتعامَل معه بوصفه «مسألة انحدار». ومسألة الانحدار تُشبه من الناحية الهيكلية مسألة التصنيف، ففي كلتا الحالتَين، يشمل الحل الذي يُقدمه علم البيانات تصميم نموذج يُمكنه التنبؤ بالقيمة المفقودة لسمةٍ معينة بمعلومية مجموعة من السمات المدخلة. الفارق الوحيد أن التصنيف ينطوي على تقدير قيمة سمةٍ فئوية، أما الانحدار فينطوي على تقدير قيمة سمةٍ مستمرة. يتطلب تحليل الانحدار مجموعة بيانات مُدرَج فيها قيمة السمة المستهدفة في كل مثيلٍ قديم. ويوضح نموذج الانحدار الخطِّي، المتعدد المدخَلات الذي قدَّمناه في الفصل الرابع، البنية الأساسية لنموذج الانحدار، حيث إن معظم نماذج الانحدار الأخرى عبارة عن تنويعات لهذا المنهج. ولا تتغير البنية الأساسية لنموذج الانحدار الخاص بالتنبؤ بالأسعار بغضِّ النظر عن المنتج الذي يُطبق عليه النموذج؛ وكل ما يتغير هو أسماء السمات وعددها. على سبيل المثال، من أجل التنبُّؤ بسعر منزل، ستشمل المدخَلات سماتٍ مثل مساحة المنزل وعدد الغرف وعدد الطوابق ومتوسط سعر المنازل في المنطقة ومتوسط مساحة المنازل في المنطقة وما إلى ذلك. على النقيض من ذلك، من أجل التنبؤ بسعر سيارة، ستشمل السمات المدخَلة عمر السيارة وعدد الأميال التي قطعتها والمسجَّلة على عدَّاد المسافات، وحجم المحرك وماركة السيارة وعدد الأبواب وما إلى ذلك. وفي كل حالة، وبمعلومية البيانات المناسبة، تعمل خوارزمية الانحدار على تحديد إلى أي مدًى تُساهم كل سمةٍ من هذه السمات في السعر النهائي.
وكما هي الحال مع جميع الأمثلة التي ضربناها على مدار هذا الفصل، المثال التطبيقي على استخدام نموذج الانحدار للتنبؤ بالأسعار هو مثال توضيحي فقط لنوعية المشكلات التي يكون من المناسب صياغتها على شكل مهمةٍ لنمذجة الانحدار. ويمكن الاستعانة بتنبُّؤ الانحدار في مجموعةٍ واسعة النطاق من المسائل الأخرى في العالم الواقعي. وتشمل المسائل النمطية للتنبؤ باستخدام الانحدار حساب الأرباح، وقيمة المبيعات وحجمها، وحساب الحجم، والطلب، والمسافة، والجرعة.