مهام علم البيانات القياسية | علم البيانات

من هم عملاؤنا؟ (التجميع)

واحد من مجالات تطبيق علم البيانات الأكثر شيوعًا في أوساط العمل التجاري هو دعم حملات التسويق والمبيعات. يتطلَّب تصميم حملة تسويقية موجَّهة نحو عملاء بعينِهم فَهم العميل المستهدَف. ولدى معظم الشركات مجموعة متنوعة من العملاء ذوي احتياجاتٍ متنوعة، وبالتالي من المرجَّح أن يفشل استخدام منهج واحدٍ يناسِب الجميع مع شريحةٍ كبيرة من قاعدة العملاء. ثمة منهج أفضل يتمثل في تحديد عددٍ من نماذج الشخصيات للعملاء أو الملفَّات التعريفية للعملاء، بحيث يكون كلٌّ منها ذا صلةٍ بشريحة مهمة من قاعدة العملاء، وبالتالي ذا صلة بتصميم حملات التسويق الموجَّهة لكل نموذج شخصية. ويمكن إنشاء هذه النماذج باستخدام الخبرة التخصُّصية، إلا أنه من الجيد بوجهٍ عامٍّ أن تستند نماذج الشخصيات على البيانات التي تمتلكها الشركة عن عملائها. وكثيرًا ما يُغفِل الحدس البشري تجاه العملاء شرائح مهمة مُبهمة المعالم أو لا يوفر مستوى الدقة المطلوب من أجل التسويق المفصَّل. على سبيل المثال، تذكُر ميتا إس براون (٢٠١٤) كيف أن الصورة النمطية المعروفة ﻟ «الأم المهتمة بتمرين كرة القدم» (أي ربة المنزل التي تعيش في الضواحي وتقضي وقتًا طويلًا في توصيل أبنائها بالسيارة إلى تمرين كرة القدم أو أية رياضةٍ أخرى) لم تُصنف ضمن قاعدة عملاء في أحد مشروعات علم البيانات. غير أن الاستعانة بعملية تجميعٍ مبنية على البيانات أظهرت نماذج شخصياتٍ أكثر تحديدًا للعملاء، مثل «الأمهات العاملات بدوامٍ كامل خارج المنزل واللاتي لديهنَّ أطفال صغار يمكثون في مراكز رعاية نهارية» و«الأمهات العاملات بدوامٍ جزئي ولديهنَّ أولاد في المرحلة الثانوية» و«السيدات المهتمات بالغذاء والصحة واللاتي ليس لديهنَّ أبناء». وتُحدد هذه النماذج الخاصة بالعملاء أهدافًا أوضحَ من أجل حملات التسويق وربما تُسلط الضوء مسبقًا على شرائح غير معلومة في قاعدة العملاء.

كثيرًا ما يُغفِل الحدس البشري تجاه العملاء شرائح مُهمةً مُبهمةَ المعالم أو لا يوفر مستوى الدقة المطلوب من أجل التسويق المفصَّل.

ويتمثل منهج علم البيانات القياسي لهذا النوع من التحليلات في صياغة المشكلة على هيئة مهمة «تجميع». وينطوي التجميع على فرز المثيلات في مجموعة البيانات إلى مجموعاتٍ فرعية تحتوي على المثيلات المتشابهة. ويتطلَّب التجميع عادة مُحللًا مُتخصصًا ليُقرر أولًا عدد المجموعات الفرعية التي يودُّ تحديدها في البيانات. وربما يكون هذا القرار معتمدًا على معرفةٍ بالمجال أو على معرفة بأهداف المشروع. بعد ذلك تُشغَّل خوارزمية التجميع على البيانات مع إدخال العددِ المرغوب من المجموعات الفرعية بصفته أحدَ مُعامِلات الخوارزمية. وعندئذٍ تُنشئ الخوارزمية هذا العدد من المجموعات الفرعية من خلال تجميع المَثيلات بناءً على تشابُهِ قِيَم سِماتها. وبمجرد أن تُنشئ الخوارزمية العناقيد (التجميعات)، يُراجعها شخصٌ خبير بالمجال لتحديد ما إذا كانت ذات مغزًى أم لا. وفي سياق تصميم حملة التسويق، تشتمل هذه المراجعة على التأكُّد مما إذا كانت المجموعات تعكس نماذج شخصيات العملاء بصورةٍ منطقية أو تُحدد النماذج الشخصية الجديدة التي لم تكن توضع في الحسبان من قبل.

تعتبر السمات التي يمكن استخدامها لوصف العملاء من أجل وضعهم في مجموعاتٍ كثيرة للغاية؛ ولكنها تضمُّ على سبيل المثال معلوماتٍ فئوية (مثل العمر، والنوع، وما إلى ذلك)، ومعلومات عن الموقع (مثل الرمز البريدي، أو العنوان في القرية أو المدينة، وما إلى ذلك)، ومعلومات خاصة بالمعاملات (مثل ما المنتجات أو الخدمات التي قاموا بشرائها)، والإيرادات التي تُحققها الشركة منهم، ومنذ متى وهم يتعاملون مع الشركة، وما إذا كانوا أعضاء في برنامج بطاقة الولاء، وما إذا كانوا قد سبق لهم إرجاع مُنتجٍ أو تقديم شكوى بشأن الخدمة، وما إلى ذلك. وكما هو الحال بالنسبة إلى جميع مشروعات علم البيانات، فإن أحد أكبر التحدِّيات التي يُواجهها التجميع (تكوين العناقيد) هو تحديد أي السِّمات يُدمَج وأيها يُستبعَد لتحقيق أفضل النتائج. وينطوي اتخاذ هذا القرار بشأن اختيار السمات على تكرارَ التجارب والتحليل البشري لنتائج كلِّ عملية تكرار.

أشهر خوارزمية من خوارزميات تعلُّم الآلة مستخدِمة للتجميع هي خوارزمية «التجميع بالمتوسطات» (أو ما يُعرف بالإنجليزية بخوارزمية k-means). ويُشير حرف المستخدَم في التسمية الإنجليزية إلى أن الخوارزمية تبحث في البيانات عن التجميعات (العناقيد) التي عددها . وقيمة مُحدَّدة مسبقًا وغالبًا ما تُحدد من خلال عمليةٍ قائمة على التجربة والخطأ بقِيَمٍ مختلفة ﻟ . وتفترض هذه الخوارزمية أن جميع السمات التي تصف العملاء في مجموعة البيانات هي سمات عددية. وإذا تضمنت مجموعة البيانات سماتٍ غير عددية، إذن يجب تعيين هذه السمات إلى قِيَم عددية من أجل استخدام خوارزمية التجميع بالمتوسطات؛ وإلا يجب أن تُعدل الخوارزمية من أجل التعامل مع هذه القيم غير العددية. وتتعامل الخوارزمية مع كلِّ عميلٍ باعتباره نقطة في سحابة النقاط (أو مخطط التشتُّت)، حيث يتحدَّد موضع العميل من خلال قِيَم سماته في ملفِّه التعريفي. والهدف من الخوارزمية هو إيجاد موضع مركز كل عنقود في سحابة النقاط. وبما أن هناك عدد من العناقيد، إذن فهناك عدد من مراكز العناقيد (أو المتوسطات) — ومن هنا تأتي تسمية الخوارزمية.

تبدأ هذه الخوارزمية بانتقاء عدد من المثيلات بوصفِها مراكز عناقيد أولية. وأفضل ما يمكن القيام به حاليًّا هو استخدام خوارزمية تُسمَّى «خوارزمية التجميع بالمتوسطات++» لانتقاء مراكز العناقيد الأولية. والفكرة الأساسية وراء خوارزمية التجميع بالمتوسطات++ تحديدًا هي أنه من الأفضل نشر مراكز العناقيد الأولية بقدْر الإمكان. ومِن ثَم، في خوارزمية التجميع بالمتوسطات++ يُحدَّد أول مركز عنقودٍ عن طريق التحديد العشوائي لإحدى المثيلات في مجموعة البيانات. ويُحدَّد مركز العنقود الثاني وما يَليه من مراكز عن طريق تحديد مثيلٍ من مجموعة البيانات مع احتمالية أن المثيل المحدد يتناسب مع المسافة المربعة إلى أقرب مركز عنقود موجود. وبمجرد تحديد جميع مراكز العناقيد ذات العدد ، تعمل الخوارزمية عن طريق تكرار عملية تتكوَّن من خطوتَين: أولًا: توزيع كل مثيلٍ على أقرب مركز عنقود، ثم ثانيًا: تحديث مركز العنقود ليكون في منتصف المثيلات الموزَّعة عليه. وفي أول تكرار، تُوزع المَثيلات على أقرب مركز عنقود تُنتجه خوارزمية التجميع بالمتوسطات++ ثم تُحرك مراكز العناقيد هذه بحيث توضع في وسط المثيلات الموزعة عليها. ومن المرجَّح أن يؤدي نقل مراكز العناقيد إلى وضعها على نحوٍ أقرب من بعض المثيلات وأبعد عن مثيلات أخرى (من ذلك أن تكون أبعد عن بعض المثيلات الموزعة على مركز العنقود). ثم يُعاد توزيع المثيلات مرةً أخرى على أقرب مركز عنقود مُحدَّث. وستظلُّ بعض المثيلات موزعةً على المركز نفسه، وربما يُعاد توزيع مثيلات أخرى على مركز عنقود آخر. وتستمرُّ هذه العملية الخاصة بتوزيع المثيلات وتحديث المراكز إلى أن تتوقف المثيلات عن التوزيع على مركز عنقودٍ آخر أثناء عملية التكرار. وخوارزمية التجميع بالمتوسطات ليست خوارزمية حتمية، بمعنى أنه من المرجح أن تُسفر مواضع البدء المختلفة لمراكز العناقيد عن عناقيد مختلفة. ونتيجة لذلك، تُشغَّل الخوارزمية عادةً عدة مرات، ثم تُقارَن نتائج مرات التشغيل المختلفة هذه لتحديد أي من هذه العناقيد أكثر منطقيةً في ضوء معرفة عالِم البيانات وفهمه للمجال.

وكما هو الحال بالنسبة إلى جميع مشروعات علم البيانات، فإن أحد أكبر التحديات التي يواجهها التجميع هو تحديد أي السِّمات يُدمج وأيها يُستبعَد لتحقيق أفضل النتائج.

عندما يُحكَم على مجموعة من عناقيد نماذج شخصيات العملاء بأنها مفيدة، عادةً ما تُمنح هذه العناقيد أسماءً لتعكس السمات الرئيسية الخاصة بنماذج الشخصيات. ويُحدد مركز كل عنقودٍ نموذج شخصية مختلفًا، حيث ينتج وصف نموذج الشخصية من قِيم السمات الخاصة بمركز العنقود ذي الصلة. وخوارزمية التجميع بالمتوسطات ليست مُلزمةً بإنتاج عناقيد متساوية الحجم، بل إنها من المرجَّح أن تُنتج عناقيد مختلفة الحجم. وأحجام العناقيد من الممكن أن تكون مفيدة، لأنها ربما تساعد في توجيه عملية التسويق. على سبيل المثال، قد تكشف عملية التجميع (تكوين العناقيد) عن عناقيد صغيرة مركزة من العملاء تَغفُل عنها حملات التسويق الحالية. أو ربما تركز استراتيجية بديلة على عناقيد تحتوي على عملاء يجلبون نسبةً كبيرة من الإيرادات. وأيًّا كانت استراتيجية التسويق المتبعة، يُعتبر فهم الشرائح داخل قاعدة العملاء شرطًا أساسيًّا لنجاح التسويق.

إحدى مُميزات التجميع كمنهجٍ تحليلي هو أنه يمكن تطبيقه على معظم أنواع البيانات. ونظرًا إلى تعدُّد استعمالاته، عادةً ما يُستخدم التجميع كأداة لاستكشاف البيانات أثناء مرحلة فهم البيانات في كثيرٍ من مشروعات علم البيانات. كما يُعَد التجميع مفيدًا في مجموعةٍ واسعة من المجالات الأخرى. على سبيل المثال، استخدم التجميع لتحليل الطلاب المسجلين في دورة دراسية مُعينة من أجل تحديد مجموعات الطلاب الذين يحتاجون إلى دعمٍ إضافي أو الذين يُفضلون مناهج تعليميةً مختلفة. كما أنه استُخدِم من أجل تحديد مجموعات المستندات المتشابهة في مجموعةٍ من المستندات، وفي مجال العلوم، استُخدِم في مجال المعلوماتية الحيوية لتحليل تسلسُل الجينات في تحليل الرقائق الجينية الدقيقة.

هل هذا احتيال؟ (اكتشاف الشذوذ)

يتضمن اكتشاف الشذوذ أو تحليل القيم الشاذة البحث عن مَثيلات لا تتوافق مع البيانات النمطية الواردة في مجموعة البيانات وتحديد هذه المثيلات. وكثيرًا ما يُشار إلى هذه الحالات غير المتوافقة ﺑ «قيم الشذوذ» أو «القيم الشاذة». وغالبًا ما يُستخدم اكتشاف الشذوذ في تحليل المعاملات المالية من أجل رصد أنشطة الاحتيال المحتملة وبدء تحقيقاتٍ بشأنها. فعلى سبيل المثال، ربما يؤدي اكتشاف الشذوذ إلى كشف النقاب عن معاملاتٍ احتيالية لبطاقة الائتمان من خلال تحديد المعاملات التي حدثت في مكانٍ غير معتاد أو تلك التي تضمنت مبالغ كبيرةً غير معتادة مقارنةً بمعاملاتٍ أخرى مُسجَّلة على بطاقةٍ ائتمانية مُعينة.

يتمثل المنهج الأول الذي تستعين به أغلب الشركات لاكتشاف الشذوذ في تحديد عددٍ من القواعد يدويًّا بناءً على الخبرة بالمجال والتي تُساعد في تحديد الأحداث الشاذة. وعادةً ما يتمُّ تحديد هذه المجموعة من القواعد باستخدام لغة الاستعلام الهيكلية أو أية لغةٍ أخرى وتُطبَّق على البيانات الواردة في قواعد بيانات الشركة أو مخزن البيانات. لقد بدأت بعض لغات البرمجة تضمين أوامر مُحددة لتيسير عملية تشفير هذه الأنواع من القواعد. فعلى سبيل المثال، تشمل تطبيقات قواعد البيانات المكتوبة بلغة الاستعلام الهيكلية الآن دالَّة التعرُّف على الأنماط المتطابقة (أو ما تُعرف باسم داخلة MATCH_RECOGNIZE) من أجل تيسير التعرُّف على الأنماط المتطابقة في البيانات. ويتمثل نمط شائع لعمليات الاحتيال الخاصة ببطاقات الائتمان عندما تُسرق بطاقة ائتمان، ويتأكد السارق أولًا من أن البطاقة لا تزال قيدَ العمل وذلك من خلال شراء شيءٍ صغير باستخدام البطاقة، وإذا تمت تلك المعاملة بنجاح، يُتبِع السارق عملية الشراء بعمليةٍ أخرى لشيء باهظ الثمن بأسرع ما يمكن قبل أن توقَف البطاقة. تُمكِّن دالةُ التعرف على الأنماط المتطابقة بلغة الاستعلام الهيكلية مبرمجي قواعد البيانات من كتابةِ نصوص برمجة تتعرَّف على سلاسل المعاملات التي تتم على بطاقة الائتمان التي تتطابق مع هذا النمط وإما توقف البطاقة تلقائيًّا أو تُرسِل تحذيرًا إلى الشركة المصدِرة لبطاقة الائتمان. وبمرور الوقت، ومع التعرُّف على مزيدٍ من المعاملات الشاذة — على سبيل المثال من خلال العملاء الذين يُبلِّغون عن معاملاتٍ احتيالية — يُتوسَّع في مجموعة القواعد التي تُحدد المعاملات الاحتيالية من أجل التعامل مع هذه المثيلات الجديدة.

العيب الأساسي في المنهج القائم على القواعد المستخدَم لاكتشاف الشذوذ هو أن تحديد القواعد بهذه الطريقة يعني أن الأحداث الشاذة لن يُتعرَّف عليها إلا بعد وقوعها بالفعل ولفت انتباه الشركة إليها. فمن الناحية المثالية، تودُّ معظم المؤسسات أن تتمتَّع بالقدرة على تحديد القِيَم الشاذة فور ظهورها لأول مرة أو إذا ظهرت رغم عدم الإبلاغ عنها. يُعد اكتشاف الشذوذ، في بعض النواحي، نقيضًا للتجميع: الهدف من التجميع هو تحديد مجموعات المثيلات المتشابهة، في حين أن الهدف من اكتشاف الشذوذ هو العثور على المثيلات المختلفة عن باقي البيانات في مجموعة البيانات. ومن هذا المنطلق، يمكن الاستعانة بالتجميع لتحديد القِيَم الشاذَّة تلقائيًّا. وثمة منهجان للاستعانة بالتجميع في اكتشاف الشذوذ. المنهج الأول هو أنه ستُجمَّع البيانات العادية معًا، وستكون السجلات الشاذة في عناقيد منفصلة. ستكون العناقيد التي تحتوي على السجلَّات الشاذة صغيرة، وبالتالي ستكون مختلفة بوضوح عن العناقيد الكبيرة التي تُوجد فيها الكتلة الأساسية من السجلات. والمنهج الثاني هو قياس المسافة بين كلِّ مثيلٍ ومركز العنقود. وكلما كان المثيل بعيدًا عن مركز العنقود، زاد الاحتمال أن يكون شاذًّا وبالتالي يستلزم التحقيق.

وثمة منهج آخر لاكتشاف الشذوذ وهو تدريب نموذج تنبُّؤ، مثل هيكلٍ شجري، لتصنيف المَثيلات إما شاذة أو غير ذلك. ومع ذلك، تدريب هذا النموذج يستلزم عادةً مجموعة بيانات تدريبية تحتوي على سجلَّات شاذة وأخرى عادية. ولا يكفي أن يكون لديك عددٌ قليل من المثيلات التي تحتوي على سجلَّات شاذة؛ فمن أجل تدريب نموذج تنبؤ عادي، يجب أن تحتوي مجموعة البيانات على عددٍ معقول من المثيلات من كل فئة. ومن الناحية المثالية، يجب أن تكون مجموعة البيانات متوازنة؛ في حالة النتيجة الثنائية، من شأن التوازن أن يعني تقسيم البيانات بنسبة ٥٠:٥٠. وبوجهٍ عام، لا يمكن الحصول على هذا النوع من بيانات التدريب لاكتشاف الشذوذ؛ إذ بحكم تعريفها، القيم الشاذة هي أحداث نادرة، ربما تظهر في ١ إلى ٢ بالمائة من البيانات أو أقل. وهذا القصور في البيانات يعوق استخدام نماذج التنبُّؤ العادية الجاهزة. ومع ذلك، ثمة خوارزميات تعلُّم الآلة تُعرَف باسم «مُصنفات الفئة الواحدة» مُصمَّمة للتعامل مع نوعية البيانات غير المتوازنة التي تتميز بها مجموعات بيانات اكتشاف الشذوذ.

تُعد خوارزمية «آلة المتَّجه الدَّاعم ذات الفئة الواحدة» من مصنفات الفئة الواحدة المعروفة. بصفة عامة، تفحص هذه الخوارزمية البيانات كوحدة واحدة (أي فئة واحدة) وتُحدد السمات الأساسية للمثيلات وسلوكها المتوقع. وتشير الخوارزمية بعد ذلك إلى مدى تشابُه أو عدم تشابُه كل مثيلٍ عن السمات الأساسية والسلوك المتوقع. يمكن استغلال هذه المعلومات بعد ذلك لتحديد المثيلات التي تستحق المزيد من التحقيق (أي القيم الشاذة المسجلة). وكلما زاد اختلاف المثيل، زادت احتمالية ضرورة التحقُّق منه.

وتعني حقيقة أن القيم الشاذة نادرة أنه قد يسهل عدم الانتباه لها ويصعب تحديدها. ونتيجة لذلك، عادةً ما يجمع عالِم البيانات عددًا من النماذج المختلفة لاكتشاف القِيَم الشاذة. الفكرة هي أن النماذج المختلفة ستكتشف نوعيات مختلفة من القيم الشاذة. وبوجهٍ عام، هذه النماذج تُستخدَم لتكملة القواعد المعروفة داخل المؤسسة التي حددت الأنواع المختلفة من الأنشطة الشاذة. تُدمج النماذج المختلفة معًا في حلٍّ لإدارة القرار يُمكِّننا من الاستفادة من التنبؤات الناتجة من كل نموذج في تنوير القرار الخاص بناتج التنبؤ النهائي. على سبيل المثال، إذا صنف نموذج واحد فقط من أصل أربعة نماذج إحدى المعاملات على إنها معاملة احتيالية، فربما يقرر نظام اتخاذ القرار أنها ليست معاملة احتيالية حقيقية، وقد تُتجاهَل المعاملة. وعلى العكس من ذلك، إذا صنفت ثلاثة أو أربعة نماذج من أصل الأربعة نماذج المعاملة على أنها معاملة احتيالية محتملة، فسيتم وضع علامة بجوار المعاملة لكي يتحقق منها عالِم البيانات.

ويمكن تطبيق عملية اكتشاف الشذوذ في الكثير من المجالات الإشكالية بخلاف حالات الاحتيال في بطاقات الائتمان. وبصفة عامة، يُستخدم اكتشاف الشذوذ في غرف المقاصَّة لتحديد المعاملات المالية التي تستلزم المزيد من التحقيق لتحديد ما إذا كانت حالات احتيال مُحتملة أو غسيل أموال. ويُستخدم في تحليل مطالبات التأمين لتحديد ما لا يتوافق مع المطالبات النموذجية للشركة. وفي الأمن السيبراني، تُستخدَم لتحديد عمليات اقتحام الشبكة من خلال رصد حالات القرصنة المحتملة أو السلوك غير النمطي من قبل الموظفين. وفي المجال الطبي، قد يكون تحديد القيم الشاذة في السجلَّات الطبية مفيدًا في تشخيص الأمراض ودراسة العلاجات وآثارها على الجسم. وفي النهاية، ومع انتشار أجهزة الاستشعار والاستخدام المتزايد لتكنولوجيا إنترنت الأشياء، سيلعب اكتشاف الشذوذ دورًا مهمًّا في مراقبة البيانات وتحذيرنا عند وقوع أحداث شاذة تستلزم اتخاذ إجراء.

هل تريد بطاطس مقلية مع هذا الطلب؟ (التنقيب عن قواعد الارتباط)

يُعد البيع المتقاطع — أو الاقتراح على العملاء الذين يشترون منتجات أنهم ربما بحاجةٍ أيضًا إلى شراء منتجات تكميلية أخرى أو منتجات ذات صلة — من الاستراتيجيات القياسية في المبيعات. الفكرة هي زيادة إجمالي معدل إنفاق العملاء من خلال حثِّهم على شراء المزيد من المنتجات وفي الوقت نفسه تحسين خدمة العملاء من خلال تذكيرهم بمنتجات أرادوا شراءها على الأرجح؛ ولكنهم ربما نسوها. والمثال الكلاسيكي على البيع المتقاطع هو عندما يسأل نادل في مطعم هامبورجر زبونًا طلبَ للتو هامبورجر: «هل تريد بطاطس مقلية مع هذا الطلب؟» تعرف محلات السوبر ماركت ومتاجر البيع بالتجزئة أن المتسوِّقين يشترون المنتجات في مجموعاتٍ ويستغلون هذه المعلومة لخلق فُرَصٍ للبيع المتقاطع. على سبيل المثال، عملاء السوبر ماركت الذين يشترون النقانق من المرجَّح أن يشتروا كاتشب وبيرة أيضًا. وبالاستعانة بهذه النوعية من المعلومات، يستطيع المتجر أن يُصمم نسقًا معينًا لتوزيع المنتجات على الأرفف. وبالتالي، فإن وضع النقانق والكاتشب والبيرة بعضها بجوار بعض على أرفف المتجر يساعد العملاء في جمع هذه المجموعة من المنتجات سريعًا وربما يؤدي أيضًا إلى زيادة المبيعات لأن العملاء الذين يشترون النقانق ربما يرون منتجَي الكاتشب والبيرة اللذين نسوا حاجتهم إليهما وبالتالي يشترونهما. إن فهم هذه النوعيات من الارتباط بين المنتجات هو أساس جميع عمليات البيع المتقاطع.

يُعتبر التنقيب عن قواعد الارتباط تقنية تحليل بيانات غير خاضعة للإشراف تهدف إلى البحث عن مجموعات العناصر التي كثيرًا ما يتكرَّر وجودها معًا. ويتمثل المثال الكلاسيكي للتنقيب عن قواعد الارتباط في «تحليل سلة التسوق»؛ حيث تحاول متاجر البيع بالتجزئة تحديد مجموعات السلع التي تُشترى معًا مثل النقانق والكاتشب والبيرة. ومن أجل إجراء هذا النوع من تحليل البيانات، يتعقَّب المتجر مجموعة السلع (أو سلة التسوق) التي يشتريها كل عميل أثناء كل زيارة إلى المتجر. ويصف كل صفٍّ في مجموعة البيانات سلة واحدة من السلع التي اشتراها عميل مُعين في زيارة معينة إلى المتجر. وهكذا تكون السمات في مجموعة البيانات هي المنتجات التي يبيعها المتجر. وبأخذ هذه البيانات في الاعتبار، تبحث عملية التنقيب عن قواعد الارتباط عن السلع التي يتكرَّر وجودها معًا داخل سلة التسوق في كل مرة. وخلافًا للتجميع واكتشاف الشذوذ، اللذين يُركزان على تحديد أوجه التشابُه أو الاختلاف بين المثيلات (أو الصفوف) في مجموعة البيانات، فإن التنقيب عن قواعد الارتباط يركز على البحث في العلاقات بين السِّمات (أو الأعمدة) في مجموعة البيانات. وبوجهٍ عام، فإنها تبحث عن علاقات الارتباط بين المنتجات التي تُشترى في نفس الوقت. وباستخدام التنقيب عن قواعد الارتباط، يستطيع المتجر البدء في الإجابة عن أسئلةٍ بخصوص سلوكيات العملاء من خلال البحث عن أنماط ربما تُوجَد في البيانات. ومن بين الأسئلة التي يمكن الاستعانة بتحليل سلة التسوق للإجابة عنها ما يلي: «هل كانت حملة التسويق مُجدية؟ هل تغيرت أنماط الشراء لدى هذا العميل؟ هل وقع حدث مهم في حياة العميل؟ هل تتأثر سلوكيات الشراء بموقع المنتج في المتجر؟ من الذي يجب أن نستهدفه بمنتجنا الجديد؟»

خوارزمية أبريوري هي الخوارزمية الأساسية المستخدمة لإنتاج قواعد الارتباط. وتحتوي على عملية من خطوتين:

(١)
إيجاد جميع توليفات العناصر التي توجَد معًا في مجموعة من التعاملات بحدٍّ أدنى مُحدد من التواتر والتكرار. ويُطلق على هذه التوليفات «مجموعة العناصر المتكررة».
(٢)
إنشاء قواعد تعبر عن احتمالية وجود العناصر معًا داخل مجموعة العناصر المتكررة. تحسب خوارزمية أبريوري احتمالية وجود عنصرٍ في مجموعة العناصر المتكررة بمعلومية وجود عنصرٍ آخر أو عناصر أخرى.

تُنشئ خوارزمية أبريوري قواعد ارتباط تُعبر عن وجود علاقات محتملة بين العناصر الموجودة في مجموعات العناصر المتكررة. وتتَّخذ قاعدة الارتباط الصيغة التالية: IF antecedent, THEN consequent (بمعنى إذا توافر العنصر «السابق»، فهذا يعني توافر العنصر «التالي»). تنص هذه القاعدة على أن وجود العنصر أو مجموعة العناصر «السابقة»، يعني ضمنيًّا وجود عنصر أو عناصر أخرى في سلة التسوق نفسها «العناصر التالية». على سبيل المثال، ربما تنصُّ القاعدة المستمدة من مجموعة العناصر المتكررة التي تحتوي على العناصر «أ» و«ب» و«ﺟ» على أنه إذا توافر العنصران «أ» و«ب» معًا في معاملة ما، فمن المرجح أن تتضمن المعاملة العنصر «ﺟ» أيضًا:

IF {hot-dogs, ketchup}, THEN {beer}.

تشير هذه القاعدة إلى أن العملاء الذين يشترون النقانق والكاتشب من المرجَّح أن يقوموا بشراء البيرة أيضًا. وثمة مثال مُتكرر على قوة التنقيب عن قواعد الارتباط يتمثل في مثال الارتباط بين «البيرة والحفاضات» الذي يصف كيف استغل أحد المتاجر الأمريكية المغمورة في الثمانينيات من القرن العشرين نظامًا حاسوبيًّا قديمًا لتحليل بيانات فواتير المشتريات الخاصة بالمتجر ووجد علاقة ارتباطية غريبة بين الحفَّاضات والبيرة في مشتريات العملاء. ووُضعت نظرية لفهم هذه القاعدة ألا وهي أن الأُسَر التي لديها أطفال صغار تستعدُّ لقضاء عطلات نهاية الأسبوع وأنها تدرك أنها ستكون بحاجة إلى حفاضات للأطفال وستقضي العطلة معًا في المنزل. وضع المتجر العنصرَين (الحفاضات والبيرة) مُتجاورَين، وبالتبعية ارتفعت المبيعات. فُنِّدت قصة وجود ارتباط بين البيرة والحفاضات باعتبارها قصة ملفَّقة، غير أنها لا تزال تُقدم مثالًا مفيدًا على الفوائد المحتملة للتنقيب عن قواعد الارتباط بالنسبة إلى متاجر البيع بالتجزئة.

ثمة قياسان إحصائيَّان أساسيَّان مرتبطان بقواعد الارتباط؛ ألا وهما: «الدعم» و«الثقة». تشير نسبة «دعم» قاعدة الارتباط — أو معدل المعاملات التي تشمل كلًّا من العناصر السابقة والعناصر التالية نسبةً إلى العدد الإجمالي للمعاملات — إلى مدى تكرار وجود العناصر الواردة في قاعدة الارتباط معًا. أما نسبة «الثقة» في قاعدة الارتباط — أو معدل عدد المعاملات التي تشمل كلًّا من العناصر السابقة والعناصر التالية بالنسبة إلى عدد المعاملات التي تشمل العناصر السابقة — فهي الاحتمال الشرطي بأن العنصر التالي سوف يتوفر بشرط وجود العنصر السابق. إذن، على سبيل المثال، تعني نسبة الثقة التي تساوي ٧٥ بالمائة في قاعدة ارتباط تربط بين عنصري «النقانق» و«الكاتشب» وعنصر «البيرة» أنه في ٧٥ بالمائة من الحالات التي يشتري فيها العملاء كلًّا من «النقانق» و«الكاتشب»، سيشترون أيضًا «البيرة». أما نسبة دعم القاعدة فتشير ببساطة إلى نسبة السلال التي تنطبق عليها القاعدة في مجموعة البيانات. على سبيل المثال، تشير نسبة الدعم التي تساوي ٥ بالمائة إلى أن ٥ بالمائة من جميع السلال في مجموعة البيانات تحتوي على العناصر الثلاثة الموجودة في قاعدة «النقانق والكاتشب والبيرة».

حتى مجموعات البيانات الصغيرة قد تسفر عن إنشاء عددٍ كبير من قواعد الارتباط. ومن أجل التحكم في درجة تعقيد تحليل هذه القواعد، من المعتاد تنقيح مجموعة القواعد المتولدة لتشمل فقط القواعد التي تتميز بنسبة دعمٍ وثقة عاليتَين. والقواعد التي لا تتمتع بنسبتَين عاليتين من الدعم والثقة ليست مثيرة للاهتمام نظرًا إلى أن القاعدة لا تُغطي سوى نسبةٍ صغيرة جدًّا من السلال (نسبة دعم منخفضة)، أو لأن العلاقة بين العناصر السابقة والعناصر التالية ضعيفة (نسبة ثقة منخفضة). وينبغي أيضًا تنقيح القواعد عديمة الأهمية أو غير القابلة للتفسير. تُمثل القواعد عديمة الأهمية علاقاتٍ ارتباطية واضحة ومعروفة جيدًا لأي شخصٍ يفهم في هذا المجال من الأعمال. وتمثل القاعدة غير القابلة للتفسير علاقاتٍ ارتباطية غريبة جدًّا لدرجةٍ يصعب معها فهم كيف يمكن تحويل القاعدة إلى إجراءٍ مفيد بالنسبة إلى الشركة. ومن المرجَّح أن تكون القاعدة غير القابلة للتفسير ناتجة عن عينة بياناتٍ غريبة (أي أن القاعدة تمثل ارتباطًا زائفًا). وبمجرد أن تُنقَّح مجموعة القواعد، يستطيع عالِم البيانات تحليل القواعد المتبقية لفهم أي المنتجات يرتبط بعضها ببعض، وتطبيق هذه المعلومة الجديدة في الشركة. وعادة ستستخدم الشركات هذه المعلومة الجديدة لتحديد نسَق توزيع المنتجات في المتجر أو لتنفيذ بعض حملات التسويق الموجَّه إلى العملاء. وقد تشمل هذه الحملات إجراء تحديثات لمواقعها الإلكترونية لتشمل المنتجات الموصى بها، والإعلانات داخل المَتجر، ورسائل البريد الإلكتروني المباشرة، والبيع المتقاطع لمنتجاتٍ أخرى من خلال فريق التحصيل (كاشير) وهلم جرًّا.

وتصير عملية التنقيب عن قواعد الارتباط أقوى عندما ترتبط سلال العناصر ببياناتٍ ديموغرافية بخصوص العملاء. ولهذا السبب ينفذ الكثير من تجار التجزئة برامج بطاقة الولاء نظرًا إلى أن هذه البرامج تسمح لهم ليس فقط بالربط بين العميل وبين سلال التسوق المختلفة له بمرور الوقت وإنما تسمح لهم أيضًا بربط سلة التسوق بالمعلومات الديموغرافية الخاصة بالعميل. ويمكِّن دمج هذه المعلومات الديموغرافية في تحليل الارتباط من أن يكون التحليل مُركِّزًا على معلومات ديموغرافية مُعينة، والتي قد تساعد أكثر في التسويق والإعلانات الموجَّهة. على سبيل المثال، يمكن استخدام قواعد الارتباط المزوَّدة بمعلوماتٍ ديموغرافية مع العملاء الجدد الذين لا يتوافر لدى الشركة معلوماتٍ عن عاداتهم الشرائية؛ ولكن لديها معلومات ديموغرافية عنهم. وفيما يلي مثال على قاعدة ارتباط مزوَّدة بمعلومات ديموغرافية:

IF gender(male) and age(<35) and {hot-dogs, ketchup}, THEN {beer}.

[Support = 2%, Confidence = 90%.]

وتعني أنه إذا كان النوع الاجتماعي للعميل ذكَرًا والسنُّ أقلَّ من ٣٥ واشترى نقانق وكاتشب، فسوف يشتري بيرة).

[الدعم = ٢٪، الثقة = ٩٠٪.]

يركز نطاق التطبيق المعتاد للتنقيب عن قواعد الارتباط على ماهية المنتجات الموجودة في سلَّة التسوق وماهية المنتجات غير الموجودة في هذه السلة. يفترِض هذا أن المنتجات تُشترى في زيارةٍ واحدة إلى المتجر أو الموقع الإلكتروني. ومن المحتمَل أن ينجح هذا النوع من السيناريوهات مع معظم سيناريوهات البيع بالتجزئة وغيرها من السيناريوهات ذات الصِّلة. ومع ذلك، يكون التنقيب عن قواعد الارتباط مفيدًا أيضًا في نطاقٍ من المجالات بخلاف البيع بالتجزئة. على سبيل المثال، في مجال الاتصالات عن بُعد، يساعد تطبيق التنقيب عن قواعد الارتباط على استخدام العملاء شركات الاتصالات عن بُعد في تصميم طرُق لتجميع الخدمات المختلفة معًا في باقات. وفي مجال التأمين، يُستخدم التنقيب عن قواعد الارتباط لمعرفة ما إذا كانت هناك علاقات ارتباطية بين المنتجات والمطالبات. وفي المجال الطبي، يُستخدم التنقيب عن قواعد الارتباط للتحقُّق مما إذا كان هناك تفاعُلات بين العلاجات والأدوية الموجودة وتلك الجديدة. وفي مجال الخدمات المصرفية والمالية، يُستخدم لمعرفة أي منتجاتٍ يمتلِكها العملاء عادة وما إذا كان من الممكن تطبيق هذه المنتجات على العملاء الجدد أو العملاء الحاليين. ويمكن الاستعانة بالتنقيب عن قواعد الارتباط لتحليل سلوكيات الشراء على مدى فترةٍ زمنية. على سبيل المثال، يميل العملاء إلى شراء المنتج «س» و«ص» اليوم، وفي غضون ثلاثة أشهر يشترون المنتج «ع». ويمكن اعتبار هذه الفترة الزمنية سلةَ تسوُّق، على الرغم من أنها فترة تمتدُّ على مدار ثلاثة أشهر. ويؤدي تنفيذ التنقيب عن قواعد الارتباط على هذا النوع من السلال المحدَّدة زمنيًّا إلى توسيع نطاقات تطبيق التنقيب عن قواعد الارتباط لتشمل جداول الصيانة واستبدال قطع الغيار والمكالمات الخدمية والمنتجات المالية وما إلى ذلك.

تسرُّب العملاء أو الاحتفاظ بهم، تلك هي المسألة (التصنيف)

إحدى مهام العمل القياسية في إدارة العلاقات مع العملاء هي تقييم احتمالية أن يتَّخذ عميل فردي إجراءً ما. يُستخدم مصطلح «نمذجة المَيل» لوصف هذه المهمة، لأن الهدف منها هو وضع نموذج لمَيل الفرد نحو القيام بشيءٍ ما. وقد يكون هذا الإجراء أيَّ شيءٍ، بداية من الاستجابة إلى حملات التسويق وصولًا إلى التعثر في سداد قرضٍ أو التوقُّف عن استخدام خدمة. إن القدرة على تحديد العملاء الذين من المرجَّح أن يتوقفوا عن استخدام خدمةٍ مُعينة هو أمر ذو أهمية بالِغة بالنسبة إلى شركات خدمات الهاتف المحمول. تتكلف هذه الشركات مبالغ طائلة لاجتذاب العملاء الجدد. وفي الواقع، تشير التقديرات بوجهٍ عام إلى أن اجتذاب عميل جديد يكلف أكثر من الاحتفاظ بعميلٍ حالي بمقدارٍ يتراوح بين خمس وستِّ مرات (Verbeke et al. 2011). ونتيجة لذلك، تحرص الكثير من الشركات أشدَّ الحرص على الاحتفاظ بعملائها الحاليِّين. ومع ذلك، تريد هذه الشركات أن تُقلل التكاليف أيضًا إلى الحد الأدنى. وعلى الرغم من أنه قد يكون من السهل الاحتفاظ بالعملاء، من خلال تقديم أسعار مُخفَّضة وتحديثات رائعة لخدمات الهاتف إلى جميع العملاء، فإن هذا لا يُعَد خيارًا واقعيًّا. وبدلًا من ذلك، ترغب هذه الشركات أن تقتصر العروض التي توفرها لعملائها على أولئك الذين من المرجَّح أن يتركوا الشركة في المستقبل القريب. فإذا استطاعت تحديد العميل الذي بصدد التوقف عن استخدام الخدمة وإقناعه بمواصلة استخدامها، ربما من خلال تقديم تحديثٍ أو حزمة جديدة للفواتير، يُمكنها توفير الفارق بين تكلفة إغراء العميل بالبقاء وتكلفة اجتذاب عميل جديد.

يُستخدم مصطلح «تسرب العملاء» (أو خسارة العملاء) لوصف عملية تخلي العملاء عن خدمةٍ ما وانضمامهم إلى شركة خدمية أخرى. وبالتالي، تُعرَف مسألة التنبؤ بالعميل الذي من المحتمَل أن يتوقف عن استخدام الخدمة في المستقبل القريب باسم «التنبؤ بتسرُّب العملاء». وكما يُوحي الاسم، فهذه مهمة تنبؤية. وتتمثل هذه المهمة في تصنيف ما إذا كان العميل عُرضةً للتسرُّب من الخدمة أم لا. تستخدِم الكثير من الشركات هذا النوع من التحليل للتنبؤ باحتمالية تسرُّب العملاء في شركات الاتصالات وخدمات المرافق والخدمات البنكية والتأمين وغيرها من المجالات. وأحد المجالات النامية التي تركز عليها الشركات هو التنبؤ بمعدل دوران العمالة أو تسرُّب العمالة: أي العمالة التي من المرجَّح أن تترك الشركة في غضون فترةٍ زمنية محددة.

وعندما يُنتج نموذج التنبؤ تسميةً فئوية أو فئة لمُدخَلٍ ما، يُعرف النموذج باسم «نموذج التصنيف». ويتطلب تدريب نموذج التصنيف بياناتٍ قديمة، حيث يُسمى كل مثيلٍ بتسميةٍ فئوية ليشير إلى ما إذا كان الحدث المستهدَف قد وقع لذلك المثيل أم لا. على سبيل المثال، يتطلب تصنيف عملية تسرُّب العملاء مجموعة بيانات تُمنَح فيها تسمية فئوية لكل عميلٍ (صف واحد لكل عميل) بحيث تشير إلى ما إذا كان هذا العميل قد تسرَّب أم لا. وستشمل مجموعة البيانات سمة، تُعرف باسم «السمة المستهدَفة»، التي تدرج هذه التسمية الفئوية لكل عميل. وفي بعض المثيلات، يكون وضْعُ تسميةٍ فئوية إلى جوار خانة العميل، للدلالة على تسرُّبه أو عدمه، مهمةً بسيطة نسبيًّا. على سبيل المثال، ربما يتواصل العميل مع الشركة ويُلغي بكل بساطةٍ اشتراكه أو تعاقده مع الشركة. ومع ذلك، في بعض الحالات، ربما لا تُميَّز واقعة التسرب ببساطة. على سبيل المثال، ليس لدى جميع عملاء شركات خدمات الهواتف المحمولة عقودٌ شهرية. فبعضهم يمتلك عقود الدفع المسبق (أو الشحن المسبق) حيث يقومون فيها بشحن أرصدة هواتفهم على فتراتٍ غير منتظمة عند الحاجة إلى المزيد من الرصيد على الهاتف. وقد يكون من الصعب تحديد ما إذا كان هذا النوع من العملاء قد تسرَّبوا أم لا: هل خسرت الشركة العميل الذي لم يُجْرِ مكالمة هاتفية منذ أسبوعين، أم من الضروري أن يكون رصيد العميل صفرًا ولم يقم بأي نشاطٍ لمدة ثلاثة أسابيع قبل اعتباره عميلًا متسربًا؟ بمجرد تحديد حدث التسرُّب من المنظور التجاري، فمن الضروري إذن تطبيق هذا على هيئة كودٍ من أجل تعيين تسميةٍ فئوية مستهدفة لكل عميلٍ في مجموعة البيانات.

ثمة عامل تعقيد آخر مرتبط بإنشاء مجموعة بيانات مُدربة لنماذج التنبؤ بتسرُّب العملاء يتمثل في ضرورة أخذ الفجوات الزمنية في الاعتبار. فالهدف من وراء التنبؤ بتسرُّب العملاء هو عمل نموذج للمَيل (أو الاحتمالية) أن العميل سيتسرَّب في وقتٍ ما في المستقبل. ونتيجة لذلك، فإن لهذا النوع من النماذج بُعدًا زمنيًّا يجب وضعه في الاعتبار أثناء إنشاء مجموعة البيانات. ومجموعة السمات الواردة في مجموعة البيانات الخاصة بنموذج المَيل مأخوذة من فترتَين زمنيتَين منفصلتَين: فترة «المراقبة» وفترة «النتائج». وفترة المراقبة هي الفترة التي تُحسَب فيها قِيَم سمات كل مدخل. أما فترة النتائج فهي الفترة التي تحسب فيها السمة المستهدفة. والهدف التجاري من ابتكار نموذج للتنبؤ بتسرُّب العملاء هو تميكن الشركة من التدخل بشكلٍ أو بآخر قبل تسرُّب العميل؛ أو بعبارة أخرى إغراء العميل بمواصلة الاستعانة بالخدمة. وهذا يعني أنه يجب إجراء التنبؤ بتسرب العملاء في وقتٍ سابق على توقف العميل عن استخدام الخدمة فعليًّا. ومدة هذه الفترة مساوية لمدة فترة النتائج، والنتيجة التي يخرج بها نموذج التنبؤ تفيد بأن العميل سيتوقَّف عن استخدام الخدمة في غضون فترة النتائج هذه. على سبيل المثال، يمكن تدريب النموذج على التنبؤ بأن العميل سيتسرَّب في غضون شهر أو شهرين، بناءً على سرعة الشركة في إجراء عملية تدخل لإقناع العميل بالبقاء.

ويؤثر تحديد فترة النتائج على البيانات التي ينبغي استخدامها كمُدخلاتٍ للنموذج. فإذا كان النموذج مصممًا للتنبؤ بأن العميل سيتوقف عن استخدام الخدمة في غضون شهرَين من اليوم الذي يُشغَّل فيه النموذج على سجلِّ ذلك العميل، فعندما يتم تدريب هذا النموذج، ينبغي حساب السِّمات المدخَلة التي تصف العملاء القدامى الذين توقفوا عن استخدام الخدمة بالفعل باستخدام البيانات المتاحة عن هؤلاء العملاء قبل شهرين من توقفهم عن استخدام الخدمة. وبالمِثل ينبغي حساب السمات المدخَلة التي تصف العملاء النشطين حاليًّا باستخدام البيانات المتاحة عن نشاط هؤلاء العملاء منذ شهرَين. ويضمن إنشاء مجموعة البيانات بهذه الطريقة أن جميع المثيلات في مجموعة البيانات هذه — والتي تتضمَّن العملاء المتسرِّبين والعملاء النشِطين — تصف العملاء في وقت تصميم النموذج أثناء رحلتهم الفردية كعملاء للتنبؤ بما إذا كانوا سيتسرَّبون أم لا قبل شهرَين من اتخاذهم القرار.

تستخدِم جميع نماذج مَيل العملاء تقريبًا سماتٍ تصف المعلومات الديموغرافية الخاصة بالعميل كمُدخلات: السن، والنوع الاجتماعي، والوظيفة، وما إلى ذلك. وفي السيناريوهات المتعلقة بخدمة مستمرة، من المرجَّح أيضًا أن تشتمل على سماتٍ تصف المرحلة التي يُوجَد فيها العميل في مراحل تطوُّر العملاء: «عميل مستجد»، «عميل لا يزال في منتصف فترة التعاقد»، «عميل يقترب من نهاية التعاقد». ومن المحتمَل أيضًا أن يكون هناك سماتٌ متعلقة بمجالٍ بعينه. على سبيل المثال، من السمات المعتادة في نماذج تسرب العملاء من شركات الاتصالات متوسط فاتورة العميل، والتغيرات الطارئة على مبالغ الفواتير، ومتوسط الاستخدام، والالتزام بدقائق الاستخدام التي توفرها له الخطة التي اشترك فيها أو تَخطِّيها بصفةٍ عامة، ونسبة المكالمات الموجهة لمستخدمي الشبكة إلى الموجهة لمن هم خارجها وربما نوعية الهاتف المستخدَم.¹ ورغم ذلك، تتنوع السمات المحددة المستخدمة في كل نموذجٍ من مشروع إلى آخر. وسجل جوردون لينوف ومايكل بيري (٢٠١١) أنه في أحد مشاريع التنبؤ بتسرُّب العملاء في كوريا الجنوبية، وجد الباحثون أنه من المفيد تضمين سمةٍ تصف معدل تسرُّب العملاء المرتبط بهاتف العميل (أي نسبة تسرُّب العملاء الذين يستخدمون هذا الهاتف بالذات خلال فترة المراقبة). ومع ذلك، عندما ذهبوا إلى تصميم نموذجٍ مُشابه للتنبؤ بتسرُّب العملاء في كندا، كانت سمة الهاتف المستخدم/معدل التسرب عديمة الفائدة. كان الفارق أنه في كوريا الجنوبية قدمت شركة خدمات الهاتف المحمول خصوماتٍ كبيرة على الهواتف الجديدة للعملاء الجدد، في حين أنه في كندا قُدمت نفس نسبة الخصومات إلى العملاء الحاليين والجدد على حدٍّ سواء. وكان التأثير الإجمالي أن الهواتف القديمة في كوريا الجنوبية شجَّعت تسرُّب العملاء؛ وشُجِّع الناس على ترك شركة والانضمام إلى أُخرى من أجل الاستفادة بالخصومات، ولكن في كندا لم يكن هذا الحافز موجودًا من الأساس.

بمجرد إنشاء مجموعة بيانات ذات تسمية فئوية، تكون المرحلة الكبرى في إنشاء نموذج التصنيف هي استخدام خوارزمية تعلُّم آلة لإنشاء النموذج. وأثناء النمذجة، من المفيد تجربة عددٍ من خوارزميات تعلُّم الآلة المختلفة لتحديد الخوارزمية التي تعمل بشكلٍ أفضل على مجموعة البيانات. وبمجرد اختيار النموذج النهائي، تُقدَّر الدقة المحتملة لتوقُّعات هذا النموذج على المثيلات الجديدة من خلال اختباره على مجموعةٍ فرعية من البيانات لم تُستخدَم أثناء مرحلة تدريب النموذج. وإذا اعتبر النموذج دقيقًا بالدرجة الكافية ومناسبًا لاحتياج الشركة، يُنشَر النموذج ويُطبَّق على البيانات الجديدة إما في عمليةٍ مجمعة أو في الوقت الفعلي. ومن أهم مراحل نشر النموذج التأكد من تشغيله بطريقةٍ ملائمة واستخدام الموارد المناسبة بحيث يُستغَل النموذج بفاعلية. لا فائدة تُرجى من إنشاء نموذج للتنبؤ بتسرُّب العملاء ما لم يَنتُج عن تنبؤات النموذج اتخاذ إجراءات لاستمالة العملاء لتستطيع الشركة الاحتفاظ بهم.

بالإضافة إلى التنبؤ بالتسمية التصنيفية، تستطيع نماذج التنبؤ أن تُعطينا مقياسًا عن مدى تأكد النموذج من التنبؤ الذي وصل إليه. يُسمى هذا المقياس «احتمالية صحة التنبؤ» وله قيمة تتراوح ما بين صفر وواحد. وكلما كانت القيمة أعلى، زاد احتمال أن يكون التنبؤ صحيحًا. ويمكن استخدام قيمة مقياس «احتمالية صحة التنبؤ» لإعطاء الأولوية للعملاء الذين يجِب التركيز عليهم. على سبيل المثال، في التنبؤ بتسرُّب العملاء تريد الشركة التركيز على العملاء الأكثر عرضةً للتوقُّف عن استخدام الخدمة. ومن خلال الاستعانة بقيمة احتمالية صحَّة التنبؤ وترتيب العملاء بناءً على هذه القيمة، يمكن للشركة أن تركز على العملاء الرئيسيين (الأكثر عُرضة للتوقُّف عن استخدام الخدمة) قبل الانتقال إلى العملاء ذوي القيمة الأقل فيما يخصُّ احتمالية صحة التنبؤ.

كم ستكون تكلفة هذا؟ (الانحدار)

التنبؤ بالأسعار هي مهمة تقدير سعر المنتج في نقطة زمنية مُعينة. قد يكون هذا المنتج سيارةً أو منزلًا أو برميل نفط أو سهمًا أو إجراءً طبيًّا. ومن الواضح أن الوصول إلى تقدير حقيقيٍّ لسعر شيءٍ ما هو أمر مهم بالنسبة إلى شخصٍ يفكر في شراء هذا الشيء. وتعتمد دقة نموذج التنبؤ بالأسعار على المجال. على سبيل المثال، نظرًا إلى تقلُّبات سوق الأوراق المالية، فمن الصعب جدًّا التنبؤ بسعر سهمٍ ما غدًا. وعلى العكس من ذلك، ربما يكون من الأسهل التنبؤ بسعر منزلٍ في مزادٍ نظرًا إلى أن تغيُّر أسعار المنازل يتم بوتيرةٍ أبطأ بكثيرٍ من الأسهم.

حقيقة أن التنبؤ بالأسعار يشمل تقدير قيمة سمةٍ مستمرة تعني أنه يُتعامَل معه بوصفه «مسألة انحدار». ومسألة الانحدار تُشبه من الناحية الهيكلية مسألة التصنيف، ففي كلتا الحالتَين، يشمل الحل الذي يُقدمه علم البيانات تصميم نموذج يُمكنه التنبؤ بالقيمة المفقودة لسمةٍ معينة بمعلومية مجموعة من السمات المدخلة. الفارق الوحيد أن التصنيف ينطوي على تقدير قيمة سمةٍ فئوية، أما الانحدار فينطوي على تقدير قيمة سمةٍ مستمرة. يتطلب تحليل الانحدار مجموعة بيانات مُدرَج فيها قيمة السمة المستهدفة في كل مثيلٍ قديم. ويوضح نموذج الانحدار الخطِّي، المتعدد المدخَلات الذي قدَّمناه في الفصل الرابع، البنية الأساسية لنموذج الانحدار، حيث إن معظم نماذج الانحدار الأخرى عبارة عن تنويعات لهذا المنهج. ولا تتغير البنية الأساسية لنموذج الانحدار الخاص بالتنبؤ بالأسعار بغضِّ النظر عن المنتج الذي يُطبق عليه النموذج؛ وكل ما يتغير هو أسماء السمات وعددها. على سبيل المثال، من أجل التنبُّؤ بسعر منزل، ستشمل المدخَلات سماتٍ مثل مساحة المنزل وعدد الغرف وعدد الطوابق ومتوسط سعر المنازل في المنطقة ومتوسط مساحة المنازل في المنطقة وما إلى ذلك. على النقيض من ذلك، من أجل التنبؤ بسعر سيارة، ستشمل السمات المدخَلة عمر السيارة وعدد الأميال التي قطعتها والمسجَّلة على عدَّاد المسافات، وحجم المحرك وماركة السيارة وعدد الأبواب وما إلى ذلك. وفي كل حالة، وبمعلومية البيانات المناسبة، تعمل خوارزمية الانحدار على تحديد إلى أي مدًى تُساهم كل سمةٍ من هذه السمات في السعر النهائي.

وكما هي الحال مع جميع الأمثلة التي ضربناها على مدار هذا الفصل، المثال التطبيقي على استخدام نموذج الانحدار للتنبؤ بالأسعار هو مثال توضيحي فقط لنوعية المشكلات التي يكون من المناسب صياغتها على شكل مهمةٍ لنمذجة الانحدار. ويمكن الاستعانة بتنبُّؤ الانحدار في مجموعةٍ واسعة النطاق من المسائل الأخرى في العالم الواقعي. وتشمل المسائل النمطية للتنبؤ باستخدام الانحدار حساب الأرباح، وقيمة المبيعات وحجمها، وحساب الحجم، والطلب، والمسافة، والجرعة.