لماذا البيانات الضخمة مميَّزة؟
لم تنشأ البيانات الضخمة من العَدَم؛ فهي وثيقة الصلة بتطور تكنولوجيا الكمبيوتر. أدَّى معدل النمو السريع للقدرات الحاسوبية وسعات التخزين إلى جمع كميات أكبر من البيانات مع الوقت، وبغض النظر عمَّن كان أول مَن صاغ مصطلح «البيانات الضخمة»، فإن الأمر كان يتعلَّق في البداية بالحجم فقط. ولكن، لا يمكن أن نقصُر تعريف البيانات الضخمة على عدد البيتابايت، أو حتى الإكسابايت، التي تُنتَج وتُخزَّن. ومع ذلك، فإن إحدى الوسائل المفيدة للحديث عن «البيانات الضخمة»، الناتجة عن انفجار البيانات، يقدِّمها مصطلح «البيانات الصغيرة»، وإن كان هذا المصطلح غير شائع الاستخدام بين جموع الإحصائيين. ولا شك أن مجموعات البيانات الضخمة كبيرة ومعقَّدة، ولكن، لكي نتوصَّل إلى تعريف لها، علينا أولًا أن نتعرَّف على «البيانات الصغيرة» ودورها في التحليل الإحصائي.
البيانات الضخمة في مقابل البيانات الصغيرة
عام ١٩١٩، وصل رونالد فيشر، الذي أصبح يشتهر الآن بكونه مؤسِّس علم الإحصاء الحديث بوصفه منهجًا أكاديميًّا دقيقًا، إلى محطة روتهامستد التجريبية الزراعية في المملكة المتحدة ليتولَّى مهمة تحليل بيانات المحاصيل الزراعية. جُمعَت البيانات من التجارب الميدانية الكلاسيكية التي أُجريت في روتهامستد منذ أربعينيات القرن التاسع عشر، بما في ذلك أبحاثها على القمح الشتوي والشعير الربيعي، وبيانات الأرصاد الجوية من المحطة الميدانية. أطلق فيشر مشروع «برودبالك» الذي درسَ تأثيرات الأسمدة المختلفة على القمح، ولا يزال هذا المشروع جاريًا حتى الآن.
حالما أدرك فيشر الحالة الفوضوية التي كانت عليها البيانات، اشتهر عنه أنه وصفَ بحثه الأولي هناك بأنه «التخلص من كومة الوحل». ولكن، من خلال الدراسة المدققة لنتائج التجارب التي كانت مسجَّلةً بعناية في دفاتر ملاحظات ذات أغلفة جلدية، تمكَّن فيشر من فهم ما تعنيه البيانات. كان فيشر يعمل وفقًا لإمكانات عصره المحدودة، قبل ظهور التكنولوجيا الحاسوبية المعاصرة، ولم يساعده إلا آلة حاسبة ميكانيكية في إجراء الحسابات، بشكل صحيح رغم ذلك، على البيانات المتراكمة على مدار ٧٠ عامًا. كانت هذه الآلة الحاسبة، المعروفة باسم «المليونير»، والتي كانت تعتمد في عملها على عملية تدوير شاقة لذراع يدوي، هي أحدث ابتكارات ذلك العصر؛ فقد كانت الآلةَ الحاسبة الأولى المتاحة تجاريًّا التي يمكن استخدامها لإجراء عملية الضرب. كان عمل فيشر مليئًا بالحسابات، ولعبت الآلة الحاسبة «المليونير» دورًا مهمًّا في تمكينه من إجراء العمليات الحسابية الكثيرة التي يمكن لأي كمبيوتر حديث إجراؤها في غضون ثوانٍ.
على الرغم من أن فيشر رتَّب الكثير من البيانات وحلَّلها، فإنها لا تُعد كميةً كبيرة بالمفهوم المعاصر، وممَّا لا شك فيه أنها لا تُعَد «بيانات ضخمة». كان جوهر عمل فيشر هو استخدام تجارِب محدَّدة بدقة ومُراقبَة بعناية، ومُصمَّمة لإنتاج عينات بيانات عالية التنظيم وغير متحيِّزة. كان أسلوب العمل هذا ضروريًّا؛ لأنه لم يكن من الممكن تطبيق الأساليب الإحصائية التي توافرت في ذلك الوقت إلا على البيانات الهيكلية. ولا شك أن هذه الأساليب القيِّمة لا تزال تُمثِّل حجر الأساس لتحليل مجموعات البيانات الهيكلية الصغيرة. ولكن، لا يمكن تطبيق هذه الأساليب على كميات البيانات الكبيرة جدًّا التي أصبحنا قادرين على الوصول إليها حاليًّا عبر الكثير من المصادر الرقمية المختلفة المتاحة لنا.
تعريف البيانات الضخمة
في العصر الرقمي، لم نعد نعتمد بالكامل على العينات؛ وذلك لأننا أصبحنا قادرين على جمع كل البيانات التي نحتاجها عن شعوب بأكملها. إلا أن حجم هذه المجموعات من البيانات التي تزداد ضخامةً لا يمكنه بمفرده أن يقدِّم تعريفًا لمصطلح «البيانات الضخمة»، فعلينا أن نُدرج «التعقيد» في أيٍّ من تعريفاتها. وبدلًا من العينات المُعدَّة بعناية من «البيانات الصغيرة»، أصبحنا نتعامل الآن مع كميات هائلة من البيانات التي لم تُجمَع للإجابة عن أي أسئلة مطروحة، والتي تكون غير هيكلية عادة. من أجل توصيف السمات الرئيسية التي تجعل البيانات ضخمة، والاقترابِ من وضع تعريف للمصطلح، اقترح دوج لاني، في مقال كتبه عام ٢٠٠١، استخدام خصائص البيانات الضخمة الثلاث: الحجم، والتنوع، والسرعة. وبتناول كل عنصر من هذه العناصر على حدة، يمكننا تكوين فكرة أفضل عمَّا يعنيه مصطلح «البيانات الضخمة».
الحجم
يشير «الحجم» إلى كم البيانات الإلكترونية التي تُجمَع وتُخزَّن في الوقت الحالي، والذي ينمو بمعدَّل متزايد. البيانات الضخمة ضخمة بالفعل، ولكن ما مدى ضخامتها؟ قد يكون من السهل تحديد حجم معين لِمَا تعنيه كلمة «ضخمة» في هذا السياق، ولكن، ما كان يُعَد «ضخمًا» في الماضي، لم يَعُد ضخمًا بمعايير العصر الحالي. أصبح الحصول على البيانات يتزايد بمعدل ترتفع معه وتيرة التقادم الحتمي لأي حد نختاره. عام ٢٠١٢، أعلنت شركة آي بي إم وجامعة أكسفورد عن نتائج استطلاع رأي عن عمل البيانات الضخمة. في هذا الاستطلاع الدولي الذي شارك فيه ١١٤٤ مختصًّا يعملون في ٩٥ دولةً مختلفة، قال أكثر من نصفهم إن مجموعات البيانات التي يتراوح حجمها ما بين ١تيرابايت و١بيتابايت تُعد ضخمة، بينما جاء حوالي ثُلث المشاركين في فئة «لا أعلم». طلب الاستطلاعُ من المشاركين أن يختاروا سمةً أو اثنتَين من السمات المميِّزة للبيانات الضخمة من بين ثماني سمات، وصوَّتت نسبة ١٠ بالمائة فقط من المشاركين لسمة «الأحجام الكبيرة للبيانات»، في حين كانت السمة الأكثر اختيارًا هي «نطاق أكبر من المعلومات»، والتي اجتذبت نسبة ١٨ بالمائة من المشاركين. السبب الآخر لعدم إمكانية وجود حد معين بناءً على الحجم فقط، هو أن ثمة عوامل أخرى، مثل سعة التخزين ونوع البيانات التي تُجمع، تتغيَّر بمرور الزمن، وتؤثِّر على إدراكنا للحجم. ولا شك أن بعض مجموعات البيانات ضخمة للغاية بالفعل، ومن بينها، على سبيل المثال لا الحصر، مجموعات البيانات الناتجة عن مصادم الهدرونات الكبير في مختبر سِرن، وهو مسارع الجسيمات الأول في العالم، والذي بدأ عمله عام ٢٠٠٨. حتى بعد استخراج نسبة واحد بالمائة فقط من إجمالي البيانات المُنتَجة، سيظل لدى العلماء ٢٥بيتابايت من البيانات ليعملوا على معالجتها سنويًّا. بوجهٍ عام، يمكننا القول إن معيار الحجم يمكن تلبيته إذا كانت مجموعة البيانات لا يمكن جمعها، وتخزينها، وتحليلها باستخدام أساليب الحوسبة والإحصاء التقليدية. تُعد بيانات الاستشعار، مثل تلك الناتجة عن مصادم الهدرونات الكبير، نوعًا واحدًا من البيانات الضخمة؛ ولذا دعونا نتناول بعضًا من الأنواع الأخرى.
التنوُّع
بمجرد اتصالنا بالويب، يصبح لدينا وصول إلى مجموعة غير منظَّمة من البيانات، من مصادر موثوقة ومشبوهة، تكون عُرضةً للتكرار والخطأ. وهذا بعيد كل البُعد عن البيانات المرتَّبة الدقيقة التي تتطلَّبها أساليب الإحصاء التقليدية. على الرغم من أن البيانات المُجمَّعة من الويب يمكن أن تكون هيكلية، أو غير هيكلية، أو شبه هيكلية؛ ما ينتج عنه تنوُّع كبير (مثل مستندات معالجة النصوص أو منشورات مواقع شبكات التواصل الاجتماعي غير الهيكلية؛ وجداول البيانات شبه الهيكلية)، فإن أغلب البيانات الضخمة المستقاة من الويب تكون غير هيكلية. ينشر مستخدمو تويتر، على سبيل المثال، حوالي ٥٠٠ مليون رسالة مكوَّنة من ١٤٠ حرفًا كحدٍّ أقصى، أو «تغريدة»، كل يوم على مستوى العالم. تحمل هذه الرسائل القصيرة قيمةً تجارية عالية، وغالبًا ما تُحلَّل حسب إذا ما كانت المشاعر المُعبَّر عنها إيجابية، أم سلبية، أم محايدة. هذا المجال الجديد لتحليل المشاعر يتطلَّب أساليب مطوَّرةً بأسلوب خاص، وهو شيءٌ لا يمكن أن نؤديه بفاعلية إلا باستخدام تحليلات البيانات الضخمة. على الرغم من التنوُّع الكبير للبيانات التي تجمعها المستشفيات، والجيش، والكثير من الشركات التجارية لأغراضٍ عدَّة، فإنه يمكن تصنيفها جميعها في نهاية المطاف بأنها هيكلية، أو غير هيكلية، أو شبه هيكلية.
السرعة
تتدفَّق البيانات في العصر الحالي باستمرار من مصادر على غرار الويب، والهواتف الذكية، وأجهزة الاستشعار. والسرعة ترتبط حتمًا بالحجم؛ كلما زادت سرعة إنتاج البيانات، زادت كميتها. على سبيل المثال، تنتقل الرسائل، التي أصبحت «تنتشر بسرعة»، على شبكات التواصل الاجتماعي بطريقة تجعل لها تأثير كُرة الثلج؛ أنشرُ شيئًا على إحدى شبكات التواصل الاجتماعي، ويراه أصدقائي، ويشاركه كلٌّ منهم مع أصدقائه، وهكذا. وتنتشر هذه الرسائل في جميع أنحاء العالم بسرعة كبيرة للغاية.
تُشير السرعة أيضًا إلى السرعة التي تُعالَج بها البيانات إلكترونيًّا. على سبيل المثال، من الضروري أن تُنتج بيانات الاستشعار، على غرار البيانات الناتجة عن السيارات الذاتية القيادة، في الوقت الحقيقي. فمن أجل أن تعمل السيارة بكفاءة، يجب أن تُحلَّل البيانات، التي تُرسَل لا سلكيًّا إلى موقع مركزي، بسرعة كبيرة للغاية حتى يمكن إرسال التعليمات الضرورية مرةً أخرى إلى السيارة على نحو آنٍ.
يمكن اعتبار التباين بُعدًا إضافيًّا لمفهوم السرعة؛ فهو يشير إلى معدلات التغيُّر في تدفق البيانات، مثل الزيادة الكبيرة في تدفق البيانات خلال أوقات الذروة. ويُعد هذا البُعد مهمًّا لأن أنظمة الكمبيوتر أصبحت حاليًّا أكثر عُرضةً للتعطُّل.
الموثوقية
بالإضافة إلى العناصر الثلاثة التي اقترحها لاني، يمكننا إضافة «الموثوقية» بوصفها العنصر الرابع. وتشير الموثوقية إلى جودة البيانات الجاري جمعها. كانت البيانات الدقيقة والموثوقة هي السمة المميِّزة للتحليل الإحصائي خلال القرن الماضي. وكان فيشر وغيره يَتُوقون إلى ابتكار أساليب تتضمَّن هذَين المفهومَين، إلا أن البيانات التي تُنتج في العصر الرقمي عادةً ما تكون غير هيكلية، وعادةً ما تُجمَع دون تصميم تجريبي، أو، بالتأكيد، دون أي فكرة عن الأسئلة التي قد تكون محور الاهتمام. ولكننا نسعى إلى الحصول على معلومات من هذا المزيج. لنتناوَل مثالًا على ذلك البيانات التي تُنتجها مواقع شبكات التواصل الاجتماعي. هذه البيانات، بطبيعتها، ليست دقيقة، أو موثوقة، وعادةً لا تكون المعلومات المنشورة صحيحة. كيف نثق إذن في أن البيانات تعطي نتائج ذات معنًى؟ يمكن أن يساعد الحجم في التغلُّب على هذه المشكلات، مثلما رأينا في الفصل الأول، عندما وصف ثيوسيديدز استعانة القوات البلاتية بأكبر عدد ممكن من الجنود لعَدِّ الطوب من أجل زيادة أرجحية تخمين الارتفاع الصحيح (التقريبي) للجدار الذي رغبوا في تسلُّقه. ولكن، علينا أن نكون أكثر حذرًا، حيث نعلم من النظرية الإحصائية أن زيادة الحجم يمكن أن تؤدِّي إلى نتائج عكسية؛ وذلك لأنه حتى في ظل وجود كمية كافية من بيانات، يمكننا العثور على عددٍ كبير من العلاقات الزائفة.
التمثيل المرئي والخصائص الأخرى
ظهر العديد من خصائص البيانات الضخمة الأخرى التي تنافست فيما بينها لتُضاف إلى خصائص البيانات الضخمة الثلاث الأصلية التي اقترحها لاني أو تحل محلها، مثل «قابلية التعرُّض للخطر» و«قابلية التطبيق»، ولعل أهم هذه الخصائص الإضافية «القيمة» و«التمثيل المرئي». تُشير القيمة بوجه عام إلى جودة النتائج المُستخرجة من تحليل البيانات الضخمة. كما أنها تُستخدَم لوصف عمليات بيع البيانات من قِبل الشركات التجارية إلى الشركات التي تتولَّى معالجتها باستخدام أساليب التحليل لديها؛ ومن ثمَّ فالقيمة مصطلحٌ شائع الاستخدام في مجال الأعمال القائمة على البيانات.
لا يُعَد التمثيل المرئي أحد الخصائص المُحدِّدة للبيانات الضخمة، ولكنه مهمٌّ فيما يخصُّ عرض النتائج التحليلية والتعريف بها. زاد تطوُّر الشكل المألوف للمخططات الدائرية الثابتة ورسوم التمثيل البياني بالأعمدة، التي ساعدتنا في فهم مجموعات البيانات الصغيرة، لمساعدتنا في تفسير البيانات الضخمة مرئيًّا، إلا أن إمكانية تطبيقها محدودة. على سبيل المثال، تُقدِّم المخططات البيانية للمعلومات عرضًا أكثر تعقيدًا، ولكنها مخططات ثابتة. وبما أن البيانات الضخمة يُضاف إليها المزيد باستمرار، فإن أفضل التمثيلات المرئية لها تكون تفاعليةً مع المستخدم، ويحدِّثها منشئُها بصفة منتظمة. على سبيل المثال، عندما نستخدم نظام تحديد المواقع العالمي (جي بي إس) لتخطيط مسار رحلة بالسيارة، فإننا نتعامل مع تمثيلاتٍ رسومية تفاعلية إلى حدٍّ كبير، بناءً على البيانات المُرسَلة من الأقمار الصناعية، لتتبُّع موقعنا.
تُمثِّل هذه الخصائص الأربع الرئيسية للبيانات الضخمة مجتمِعة؛ الحجم، والتنوُّع، والسرعة، والموثوقية، تحديًا كبيرًا فيما يتعلَّق بإدارة البيانات. ويمكن فهم المميزات التي نتوقَّع الحصول عليها من مواكبة هذه التحديات والأسئلة التي نأمل في الإجابة عنها باستخدام البيانات الضخمة، من خلال التنقيب في البيانات.
التنقيب في البيانات الضخمة
«البيانات هي النفط الجديد»، عبارة أصبحت متداولةً على نطاق واسع بين روَّاد الصناعة، والتجارة، والسياسة، وتُنسَب عادةً إلى كلايف همبي، مُبتكِر بطاقة ولاء عملاء تيسكو، عام ٢٠٠٦. وهي عبارة جذَّابة تشير إلى أن البيانات، على غرار النفط، ذات قيمة كبيرة للغاية، ولكن يجب معالجتها أولًا قبل أن تُحقِّق هذه القيمة. استُخدِمَت هذه العبارة في الأساس كحيلة تسويقية استخدمها مزوِّدو خدمات تحليل البيانات على أمل أن يتمكَّنوا من بيع منتجاتهم عن طريق إقناع الشركات بأن البيانات الضخمة هي المستقبل. وقد تكون كذلك بالفعل، ولكن، ظلَّت هذه الاستعارة قائمةً حتى يومنا هذا. فبمجرد أن تحصل على النفط، تكون لديك سلعة قابلة للتسويق. ولكن، لا ينطبق ذلك على البيانات الضخمة، فإنك لن تُنتِج أيَّ شيءٍ ذي قيمة إلا إذا امتلكَت البيانات المناسبة. تُمثِّل الملكية مشكلة، وتُمثِّل الخصوصية مشكلة؛ وعلى النقيض من النفط، لا يبدو أن البيانات مورد غير متجدِّد. ولكن، استمرارًا لهذه الاستعارة الصناعية، فإن التنقيب في البيانات الضخمة هو مهمة استخراج معلوماتٍ مفيدة وقيمة من مجموعات البيانات الهائلة الحجم.
باستخدام طريقتَي التنقيب في البيانات وتعلُّم الآلة، وكذلك الخوارزميات، لن يكون من الممكن اكتشاف الأنماط غير المعتادة أو الحالات غير المألوفة في البيانات فحسب، بل سيكون من الممكن أيضًا توقعها. وللحصول على هذا النوع من المعرفة من مجموعات البيانات الضخمة، قد يكون تعلُّم الآلة، بإشراف أو دون إشراف، أحد الأساليب المستخدمة. ويمكن اعتبار تعلُّم الآلة الخاضع للإشراف شبيهًا إلى حدٍّ ما بالتعلُّم القائم على الأمثلة لدى البشر. باستخدام بيانات التدريب، حيث تكون الأمثلة الصحيحة موسومةً أو مميَّزة، ينشئ برنامج كمبيوتر ما قاعدةً أو خوارزمية لتصنيف أمثلة جديدة. وتُفحَص هذه الخوارزمية باستخدام بيانات الاختبار. على النقيض من ذلك، تستخدم خوارزميات التعلُّم دون إشراف بياناتٍ مُدخلَة غير موسومة ومن دون تحديد هدف معين؛ فهي مُصمَّمة لاستكشاف البيانات واكتشاف الأنماط الخفية.
وكمثال على ذلك، دعونا نتناول كشف الاحتيال المرتبط ببطاقات الائتمان، ونرى كيف تُستخدم كل طريقة.
كشف الاحتيال في استخدام بطاقات الائتمان
تُبذل الكثير من الجهود لاكتشاف الاحتيال في استخدام بطاقات الائتمان والحيلولة دون حدوثه. إذا كنت تعِسَ الحظ ووصلتكَ مكالمة من مكتب كشف احتيال بطاقات الائتمان التابع له، فقد تتساءل كيف اتُّخذ القرار بأن آخِر عملية شراء تمَّت باستخدام بطاقتك الائتمانية من المحتمل أن تكون ضربًا من الاحتيال. بالنظر إلى العدد الهائل للمعاملات التي تتم باستخدام بطاقات الائتمان، لم يعد من المناسب أن يتولَّى البشر فحص هذه العمليات باستخدام طرق تحليل البيانات التقليدية؛ ومن ثمَّ أصبحت أدوات تحليل البيانات الضخمة على نحو متزايد ضرورةً لا غنى عنها. إن عزوف المؤسسات المالية عن مشاركة تفاصيل أساليبها للكشف عن الاحتيال ببطاقات الائتمان أمرٌ مفهوم؛ حيث إن ذلك سيمنح المجرمين الإلكترونيين المعلومات التي يحتاجونها لابتكار طرق للتحايل عليها. ولكن، يمكن أن نحصل على فكرة جيدة عن هذا الموضوع دون الخوض في تفاصيله الكاملة.
ثمة العديد من السيناريوهات المحتملة، ولكننا سنتناول الخدمات المصرفية الشخصية وسنستعرض حالات سرقة بطاقات الائتمان واستخدامها مع معلومات أخرى مسروقة، مثل رقم التعريف الشخصي للبطاقة (بي آي إن). في هذه الحالة، قد تُظهِر البطاقة زيادةً مفاجئة في الإنفاق، وهي عملية احتيال من السهل اكتشافها بواسطة الجهة المُصدِرة للبطاقة. وفي أغلب الأحيان، يستخدم المحتال البطاقة المسروقة للمرة الأولى في إجراء «معاملة تجريبية» حيث يشتري شيئًا غير باهظ الثمن. وإن لم تُثِر هذه المعاملة أي إنذارات، يبدأ في الاستيلاء على مبالغ أكبر. قد تنطوي هذه المعاملات على احتيال وقد لا تنطوي؛ فربما اشترى صاحب البطاقة شيئًا خارج نمط مشترياته المعتاد، أو ربما أنفق فعلًا الكثير من المال خلال هذا الشهر. كيف نكتشف إذن المعاملات التي تنطوي على احتيال؟ دعونا نتناول أولًا أسلوبًا دون إشراف يُدعى «التجميع»، وكيف يمكن استخدامه في مثل هذا الموقف.
التجميع
بِناءً على خوارزميات الذكاء الاصطناعي، يمكن استخدام أساليب التجميع في اكتشاف التضارب أو الانحراف في سلوكيات العملاء الشرائية. ويتحقَّق ذلك عن طريق البحث في بيانات المعاملات بغرض اكتشاف أي شيءٍ غير معتاد أو مشتبه فيه، والذي ربما يكون ضربًا من الاحتيال أو لا يكون.
تجمع شركات بطاقات الائتمان كمًّا كبيرًا من البيانات وتستخدمه في إنشاء ملفات بياناتٍ تعرض سلوكيات الشراء لدى عملائها. ومن ثمَّ، تُحدَّد مجموعاتٌ من ملفات البيانات ذات الخصائص المتماثلة إلكترونيًّا بواسطة برنامج كمبيوتر «تكراري» (أي يُكرِّر عمليةً ما حتى يصل إلى نتيجة معينة). على سبيل المثال، قد تُحدَّد مجموعة للحسابات طبقًا للموقع أو لنطاق الإنفاق المعتاد، أو طبقًا للحد الأعلى لإنفاق العميل، أو طبقًا لنوع السلع المُشتراة، وكلٌّ منها تتولَّد عنه مجموعة منفصلة.
عندما تُجمَع البيانات بواسطة أحد مزوِّدي خدمة بطاقات الائتمان فإنها لا تحمل أي وصف يشير إلى أن المعاملات مشروعة أو احتيالية. ومهمتنا هي استخدام هذه البيانات بوصفها مُدخلات، واستخدام إحدى الخوارزميات المناسبة، وتصنيف المعاملات بدقة. ولتحقيق ذلك، سنحتاج إلى البحث عن مجموعات، أو فئات، مماثلة ضمن بيانات المُدخلات. إذن، يمكننا أن نجمع البيانات، على سبيل المثال، طبقًا للمبالغ المُنفقَة، أو مكان إجراء المعاملة، أو نوع عملية الشراء، أو عُمر صاحب البطاقة. وعند إجراء معاملة جديدة، يُسجَّل رقم تعريف المجموعة لهذه المعاملة، وإذا كان مختلفًا عن رقم تعريف المجموعة الحالية للعميل، تُعتبر المعاملة مشتبهًا فيها. حتى وإن حلَّت المعاملة ضمن المجموعة المعتادة، فإنها تظل مثار شك إذا كانت بعيدةً بقدرٍ كافٍ عن مركز المجموعة.
تُوضِّح المجموعة (ب) نفقات الجَدَّة الشهرية المعتادة مُجمَّعةً في مجموعة واحدة مع أشخاص آخرين ينفقون نفس المبالغ شهريًّا. ولكن، في بعض الحالات، كالحال عند حصولها على عطلتها السنوية، تزداد نفقات الجَدَّة خلال هذا الشهر، وربما تُوضَع في هذه الحالة مع الأشخاص في المجموعة (ج)، والتي لا تبعد كثيرًا عن المجموعة (ب)؛ ومن ثمَّ، لا تُعد مختلفةً عنها إلى حدٍّ كبير. حتى وإن كان الأمر كذلك، بما أن هذه المصروفات حلَّت في مجموعة مختلفة، فسيتم التحقُّق منها بوصفها نشاطًا مشبوهًا للحساب، إلا أن شراءها للسيارة الرياضية الجذابة عبر حسابها يضع مصروفاتها في المجموعة (أ)، والتي تبعد كثيرًا عن مجموعتها المعتادة، وعليه، فمن غير المرجَّح أن تعكس عملية شراء مشروعة.
وعلى النقيض من هذه الحالة، إذا كان لدينا بالفعل مجموعة من الأمثلة التي نعلم يقينًا أن احتيالًا حدث خلالها، فبدلًا من خوارزميات التجميع، يمكننا استخدام أساليب التصنيف، التي من شأنها أن تمدَّنا بأسلوب آخر من أساليب التنقيب في البيانات، يُستخدم في الكشف عن الاحتيال.
التصنيف
التصنيف هو أحد أساليب التعلُّم الخاضع لإشراف، ويتطلَّب معرفةً مسبقة بمجموعات البيانات المستخدمة. في هذا الأسلوب، نبدأ بمجموعة بيانات تكون فيها كلُّ ملاحظة مضافًا إليها وصف أو مُصنَّفة على نحو صحيح بالفعل. وتنقسم مجموعة البيانات هذه إلى «مجموعة تدريب»، تُمكِّننا من إنشاء نموذج تصنيف من البيانات، و«مجموعة اختبار»، تُستخدَم للتحقُّق من أن النموذج جيد. ثم يمكننا استخدام هذا النموذج في تصنيف ملاحظاتٍ جديدة حال ظهورها.
لتوضيح مفهوم التصنيف، سننشئ مخططًا صغيرًا لتسلسل اتخاذ القرارات؛ لكي نكشف الاحتيال باستخدام بطاقات الائتمان.
هل أُبلغ عن سرقة البطاقة أو فقدانها؟ | هل العنصر المُشترى غير معتاد؟ | هل تمَّ الاتصال بالعميل وسؤاله عمَّا إذا كان قد أجرى عملية الشراء هذه؟ | التصنيف |
---|---|---|---|
لا | لا | معاملة مشروعة | |
لا | نعم | نعم | معاملة مشروعة |
لا | نعم | لا | معاملة احتيالية |
نعم | معاملة احتيالية |
على سبيل المثال، إذا أظهر حساب السيد سميث أنه أبلغَ عن فقدان بطاقة ائتمانه أو سرقتها، فإن أي محاولة لاستخدامها ستُعَدُّ احتيالًا. وإذا لم يُبلِغ عن فقدان البطاقة أو سرقتها، فإن النظام سيتحقَّق ممَّا إذا اشتُري عنصرٌ غير معتاد أو عنصرٌ يتكلَّف مبلغًا لم يَعتد هذا العميل إنفاقه. إذا لم يحدث ذلك، فلن تُعتبر المعاملة غير معتادة، وستُصنَّف بأنها مشروعة. من ناحية أخرى، إذا كان العنصر غير معتاد، فسيتلقَّى السيد سميث مكالمةً هاتفية. إذا أكَّد على أنه أجرى معاملة الشراء، فستُعَدُّ مشروعة؛ وإن لم يؤكِّد ذلك، فستُعَدُّ احتيالًا.
بعدما توصَّلنا إلى تعريفٍ غير رسمي للبيانات الضخمة، وسلَّطنا الضوءَ على أنماط الأسئلة التي يُمكن الإجابة عنها من خلال التنقيب في البيانات الضخمة، دعونا نتناول الآن المشكلات المتعلقة بتخزين البيانات.