البيانات الضخمة والشركات الكبرى
في عشرينيات القرن العشرين، وظَّفت شركة جيه ليونز وشركائه، وهي شركة بريطانية تمتلك سلسلة مطاعم وشركات أغذية وفنادق، تشتهر بسلسلة مقاهي «كورنر هاوس»، عالِمَ رياضياتٍ شاب من جامعة كامبريدج يُدعى جون سيمونز، لتولي أعمال الإحصاء. عام ١٩٤٧، أُرسِل كلٌّ من رايموند تومسون وأوليفر ستاندينجفورد، اللذَين عيَّنهما سيمونز، في زيارة إلى الولايات المتحدة الأمريكية لتقصي الحقائق. وخلال هذه الزيارة، تعرَّفا للمرة الأولى على أجهزة الكمبيوتر الإلكترونية وقدرتها على إجراء العمليات الحسابية الروتينية. وسعى سيمونز، منبهرًا بنتائج الزيارة، لإقناع ليونز بشراء جهاز كمبيوتر.
أثمر التعاونُ مع موريس ويلكس، الذي كان منخرطًا في ذلك الوقت في تصميم الكمبيوتر الآلي لتخزين التأخير الإلكتروني في جامعة كامبريدج، عن كمبيوتر ليونز المكتبي الإلكتروني. كان هذا الكمبيوتر يعمل باستخدام البطاقات المُثقَّبة، واستُخدم لأول مرة عام ١٩٥١ من قِبَل شركة ليونز في إجراء العمليات الحسابية الأساسية، مثل جمع أعمدة تحتوي على أرقام. وبحلول عام ١٩٥٤، أسَّست شركة ليونز شركتها الخاصة لأجهزة الكمبيوتر، وبدأت في تصميم كمبيوتر ليونز المكتبي الإلكتروني الثاني، وتبعَه كمبيوتر ليونز المكتبي الإلكتروني الثالث. وعلى الرغم من أن بداية العمل بأجهزة الكمبيوتر المكتبية الأولى جاءت في وقت مبكر، في خمسينيات القرن العشرين، فإن هذه الآلات الأولى لم تكن موثوقة، وكانت تطبيقاتها محدودة؛ بسبب استخدامها للصمامات (٦ آلاف صمام في حالة كمبيوتر ليونز المكتبي الإلكتروني الأول) والشرائط الممغنطة، وسعة التخزين المحدودة للغاية لذاكرة الوصول العشوائي. اشتهر كمبيوتر ليونز المكتبي الإلكتروني الأول على نطاق واسع بأنه كمبيوتر إدارة الأعمال الأول، الأمر الذي مهَّد الطريقَ أمام التجارة الإلكترونية الحديثة، وبعد عدة عمليات دمج مع شركاتٍ أخرى، أصبح في نهاية المطاف جزءًا من شركة إنترناشونال كمبيوترز ليمتد حديثة التكوين عام ١٩٦٨.
التجارة الإلكترونية
لم تكن أجهزة كمبيوتر ليونز المكتبية الإلكترونية، وأجهزة الكمبيوتر المركزية الضخمة التي تلتها، تصلح إلا لمهام معالجة الأرقام التي تُعد جزءًا من مهام المحاسبة والمراجعة. وأصبح الموظِّفون، الذين كانوا يقضون أوقاتهم سابقًا في حساب أعمدة من الأرقام، يقضون أوقاتهم في إعداد البطاقات المُثقَّبة، وهي مهمة لا تقل عن سابقتها مَللًا، بل وتحتاج إلى تحري المستوى نفسه من الدقة الفائقة.
منذ أن أصبح استخدام أجهزة الكمبيوتر مجديًا بالنسبة إلى المؤسسات التجارية، ظهر الاهتمام بكيفية استخدامها في رفع الكفاءة، وتقليل التكاليف، وتحقيق الأرباح. وأدَّى تصميم الترانزستور واستخدامه في أجهزة الكمبيوتر المتاحة تجاريًّا إلى صُنع أجهزة أصغر حجمًا من ذي قبل، وفي أوائل السبعينيات من القرن العشرين، ظهرت أولى أجهزة الكمبيوتر الشخصية. ولكن، لم تُطرَح هذه الفكرة تجاريًّا حتى عام ١٩٨١ عندما طرحت شركة إنترناشونال بيزنس ماشينز (آي بي إم) كمبيوتر آي بي إم الشخصي في الأسواق، مع استخدام الأقراص المرنة في تخزين البيانات. وكانت إمكانات معالجة النصوص وجداول البيانات التي امتلكتها الأجيال اللاحقة من أجهزة الكمبيوتر الشخصية مسئولةً إلى حَدٍّ كبير عن تخفيف الكثير من أعباء الأعمال المكتبية الروتينية.
وعلى ضوء التقنية التي أتاحت الإمكانية لتخزين البيانات إلكترونيًّا على أقراص مرنة، سرعان ما ظهرت فكرة أنَّ المؤسسات قد تُدار بفاعلية في المستقبل دون استخدام الورق. في ١٩٧٥، تنبأ مقالٌ نُشِر في مجلة بيزنس ويك الأمريكية بأن أماكن العمل الخالية تقريبًا من الورق يمكن أن تُصبح واقعًا بحلول عام ١٩٩٠. واقترحَ المقالُ أنه من خلال الاستغناء عن استخدام الورق أو تقليله إلى حَدٍّ كبير، قد يُصبح مكان العمل أكثر فاعليةً وقد تقل التكاليف. تراجَع مُعدَّل استخدام الورق في أماكن العمل لفترة من الوقت خلال ثمانينيات القرن العشرين عندما نُقِلَت كثيرٌ من الأعمال الورقية التي كان من المعتاد رؤيتها في خزائن الملفات إلى أجهزة الكمبيوتر، ثم سجَّل هذا الاستخدام أعلى معدلاته على الإطلاق عام ٢٠٠٧، وكانت النسخ المصوَّرة هي المسئولة عن السواد الأعظم من هذه الزيادة. منذ عام ٢٠٠٧، ظلَّ استخدام الورق يتراجع تدريجيًّا، ويرجع الفضل الأكبر في ذلك إلى زيادة استخدام الهواتف الذكية وتسهيلاتٍ على غرار التوقيع الإلكتروني.
على الرغم من أن التطلُّعات المتفائلة التي ظهرت منذ بداية العصر الرقمي إلى جعل أماكن العمل خاليةً من الورق لم تتحقَّق وقتها، حدثت ثورةٌ في بيئة العمل بفِعل البريد الإلكتروني، وبرامج معالجة النصوص، وجداول البيانات الإلكترونية. إلا أن استخدام الإنترنت على نطاق واسع هو ما جعلَ التجارة الإلكترونية مُقترَحًا عمليًّا.
لعلَّ التسوُّق عبر الإنترنت هو المثالُ الأشهر. فنحن، باعتبارنا عملاء، نستمتع برفاهية التسوق من المنزل وتجنُّب الطوابير التي تستغرق وقتًا طويلًا. السلبيات التي يتعرَّض لها العملاء قليلة، ولكن، بِناءً على نوع المعاملة، قد تؤدِّي عدم القدرة على التواصل وجهًا لوجه مع موظِّفي المتاجر إلى تجنُّب استخدام الشراء عبر الإنترنت. وعلى نحو متزايد، أصبح من الممكن التغلُّب على هذه المشكلات من خلال تسهيلات تقديم المشورة للعملاء عبر الإنترنت مثل «الدردشة الفورية»، والتقييمات عبر الإنترنت، والتصنيف بالنجوم، بالإضافة إلى مجموعة اختياراتٍ ضخمة من السلع والخدمات فضلًا عن سياسات الإرجاع السخية. بالإضافة إلى شراء السلع ودفع مقابلها، أصبح بالإمكان حاليًّا دفع الفواتير، وإجراء المعاملات المصرفية، وشراء تذاكر الطيران، والوصول إلى مجموعة من الخدمات الأخرى جميعها عبر الإنترنت.
يعمل موقع إيباي بأسلوب مختلف نوعًا ما، ويستحق أن يُذكَر نظرًا لكمية البيانات الهائلة التي يُنتجها. بالنظر إلى المعاملات التي تُجرَى عبر عمليات البيع وعطاءات المزادات، ينتج إيباي حوالي ٥٠تيرابايت من البيانات يوميًّا، وتُجمَع هذه البيانات من كل عملية بحث، وبيع، ومزاد تُجرَى على الموقع بواسطة مُستخدِميه النُّشطاء الذين يُزعَم أن عددَهم ١٦٠ مليون مُستخدِم من ١٩٠ دولة. باستخدام هذه البيانات وأساليب التحليل المناسبة، تمكَّن الموقع حاليًّا من تنفيذ أنظمة توصية مثيلة لأنظمة نتفليكس، والتي سنتحدَّث عنها لاحقًا في هذا الفصل.
تُوفِّر مواقع شبكات التواصل الاجتماعي للشركات ملاحظاتٍ فوريةً عن كل شيءٍ من الفنادق والعطلات إلى الملابس، وأجهزة الكمبيوتر، والزبادي. باستخدام هذه المعلومات، يمكن للشركات معرفة العناصر التي تحقِّق نجاحًا، وحجم هذا النجاح، والجوانب المثيرة للشكاوى، مع حَلِّ المشكلات قبل أن تخرج عن نطاق السيطرة. بل إن القيمة الأكبر لهذه المعلومات هي منح القدرة على التنبؤ بما يرغب العملاء في شرائه بِناءً على عمليات الشراء السابقة أو نشاط العملاء على الموقع الإلكتروني. تجمع مواقع شبكات التواصل الاجتماعي، مثل فيسبوك وتويتر، كمياتٍ هائلةً من البيانات غير الهيكلية التي يمكن أن تستفيد الشركات بها تجاريًّا في حال استخدام أساليب التحليل المناسبة. كما تشارك مواقع السياحة والسفر، مثل تريب أدفايزر، المعلومات مع جهاتٍ أخرى.
إعلانات الدفع مقابل النقر
أصبح الخبراء يُقرُّون الآن، على نحوٍ متزايد، بأنَّ الاستخدام الصحيح للبيانات الضخمة من شأنه أن يوفِّر بياناتٍ مفيدةً ويجتذب عملاء جُددًا عبر الترويج المُحسَّن للسلع واستخدام دعاية موجَّهة على نحو أفضل. في كل مرة نستخدم الويب، نشاهِد إعلانات عبر الإنترنت لا محالة، بل وقد ننشر بأنفسنا إعلاناتٍ مجانيةً على العديد من مواقع المزادات على غرار إيباي.
إن أحد أشهر أنواع الإعلان هو ذلك الذي يتبع نموذج الدفع مقابل النقر، وهو نظام تظهر خلاله إعلاناتٌ ذات صلة عند إجراء عملية بحثٍ عبر الإنترنت. إذا أرادت شركة أن تُعرَض إعلاناتها عند الاستعلام عن مصطلح بحث معين، فإنها تضع عطاءً مع مزوِّد الخدمة على كلمة رئيسية تتعلَّق بمصطلح البحث هذا. كما أنها تُعلن ميزانيةً يومية قصوى. وتُعرَض الإعلانات بالترتيب وفقًا لنظام يستند جزئيًّا إلى أيِّ المُعلِنين قدَّم العطاءَ الأعلى على هذا المصطلح.
إذا نقرتَ فوق إعلانٍ لأحد المُعلِنين، فسيكون عليه أن يدفع إلى مزوِّد الخدمة قيمة العطاء الذي حدَّده. ولا تدفع الشركات المال إلا إذا نقرَ طرفٌ مهتمٌّ فوق إعلاناتها؛ ومن ثمَّ، يجب أن تكون هذه الإعلانات ملائمةً تمامًا لمصطلح البحث حتى تزداد أرجحية أن ينقر متصفِّحو الويب فوقها. وتضمن خوارزمياتٌ دقيقة أن يُحقِّق مزوِّد الخدمة، مثل جوجل أو ياهو، أقصى عائدٍ ممكن. ويُعَد جوجل آدووردز (المعروف الآن بإعلانات جوجل أو جوجل آدز) أفضل تطبيق معروف لإعلانات الدفع مقابل النقر. عندما نُجري بحثًا على محرك بحث جوجل، ينشئ آدووردز الإعلانات التي تظهر تلقائيًّا على جانب الشاشة بواسطة آدووردز. الجانب السلبي في هذا النموذج هو أن النقرات قد تكون باهظة، كما أن هناك حدًّا لعدد الأحرف المسموح باستخدامها حتى لا يشغل الإعلان حيزًا أكثر من اللازم.
يمثِّل النقر الاحتيالي مشكلةً أيضًا. على سبيل المثال، قد تنقر شركة منافسة فوق إعلانك بصورة مُتكرِّرة حتى تستنفد ميزانيتك اليومية. أو يمكن استخدام برنامج ضار، يُسمى كليكبوت، لإنتاج نقراتٍ زائفة. والمُعلِن وحده هو مَن يقع ضحيةً لهذا النوع من الاحتيال؛ لأن مزوِّد الخدمة يحصل على أمواله دون مشاركة أي عميل. ولكن، بما أن ضمان الأمن؛ ومن ثمَّ حماية المشروع التجاري المربح، يصبُّ في مصلحة مزوِّدي الخدمة، تُبذَل جهودٌ بحثية كبيرة من أجل مكافحة الاحتيال. ربما كانت أبسط الطرق هي متابعة عدد النقرات المطلوبة في المتوسط لإتمام عمليات الشراء. وإذا حدثت زيادة مفاجئة في عدد النقرات أو تنفيذ عددٍ كبير من النقرات دون إجراء عمليات شراءٍ فعلية، فمن المرجَّح أن يكون هذا نقرًا احتياليًّا.
على النقيض من ترتيبات الدفع مقابل النقر، من الجليِّ أن الإعلانات المُوجَّهة تعتمد على سجل نشاط كلِّ شخص على الإنترنت. ولكي نعرف كيفية عمل هذا النوع من الإعلانات، سنبدأ بتناول ملفات تعريف الارتباط، التي لم أُسهب في الحديث عنها في الفصل الأول، بمزيدٍ من التفصيل.
ملفات تعريف الارتباط
ظهر هذا المصطلح للمرة الأولى عام ١٩٧٩ عندما تضمَّن نظام التشغيل يونيكس برنامجًا يُسمَّى «فورتشن كوكي»، والذي كان يُرسِل عروضَ أسعار عشوائيةً إلى المستخدمين مستخرجةً من قاعدة بياناتٍ ضخمة. لملفات تعريف الارتباط العديدُ من الأشكال، وتنشأ جميعها خارجيًّا وتُستخدَم في متابعة نشاطٍ ما على أحد المواقع الإلكترونية أو أجهزة الكمبيوتر. عندما تزور موقعًا إلكترونيًّا، يرسل خادم ويب رسالةً إلى متصفحك، وهذه الرسالة عبارة عن ملف صغير يُخزَّن على جهاز الكمبيوتر لديك. تُعد هذه الرسالة أحدَ الأمثلة على ملفات تعريف الارتباط، إلا أن ثمَّة الكثير من الأنواع الأخرى، مثل تلك التي تُستخدَم لأغراض مصادقة المستخدم، وتلك المستخدمة في تعقُّب الجهات الخارجية.
الإعلانات المُوجَّهة
تُجمَع بيانات كلِّ نقرة تنقرها على الإنترنت وتُستخدَم في الإعلانات الموجَّهة.
تُرسَل هذه البيانات إلى شبكات إعلانية لجهاتٍ أخرى، وتُخزَّن على جهاز الكمبيوتر لديك في صورة ملف تعريف ارتباط. وعندما تنقر على مواقع أخرى تدعها هذه الشبكات، ستُعرَض إعلاناتٌ عن منتجاتٍ عاينتَها سابقًا على شاشتك. باستخدام لايتبيم، أحد البرامج الإضافية المجانية لمتصفح موزيلا فايرفوكس، يمكنك أن تتبع مسار الشركات التي تجمع بيانات نشاطك على الإنترنت.
أنظمة التوصية
توفِّر أنظمة التوصية أو الاقتراح آلية تصفية تُزوِّد المستخدِمين بمعلوماتٍ بِناءً على اهتماماتهم. تعرض أنواعٌ أخرى من أنظمة التوصية، لا تعتمد على اهتمامات المستخدمين، ما يتصفَّحه العملاءُ الآخرون في الوقت الحقيقي، وعادةً ما تظهر هذه التوصيات على أنها «الأكثر تداولًا». ومن أمثلة الشركات التي تستخدم هذه الأنظمة نتفليكس، وأمازون، وفيسبوك.
ثمَّة طريقة لتحديد المنتجات التي يُوصَّى بها للعملاء وهي «التصفية التعاونية». بوجه عام، تستخدم الخوارزميةُ البياناتَ التي تُجمَع عن كل عميل على حدة من عمليات الشراء والبحث السابقة التي أجراها، وتُقارِن هذه البيانات بقاعدة بياناتٍ ضخمة تتضمَّن العناصر التي نالت استحسان العملاء الآخرين وتلك التي لم تَنَل استحسانهم؛ وذلك من أجل تقديم توصياتٍ مناسبة بشأن عمليات الشراء الجديدة. ولكن، لا تؤدي المقارنة البسيطة بوجهٍ عام إلى نتائج جيدة. دعونا نتناول المثال الآتي.
فن إعداد السلطة | الباستا اليوم | مستقبل الحلويات | عصائر ومشروبات | |
---|---|---|---|---|
سميث | تمَّ الشراء | تمَّ الشراء | ||
جونز | تمَّ الشراء | تمَّ الشراء | ||
براون | تمَّ الشراء | تمَّ الشراء | تمَّ الشراء |
السؤال الذي يحاول نظام التوصية الإجابة عنه هو: ما الكتب التي يجدر التوصية بها إلى سميث وأيها إلى جونز؟ نريد أن نعرف ما إذا كان سميث من المُرجَّح أن يشتري كتابَ «الباستا اليوم» أم كتاب «عصائر ومشروبات».
ولكي نفعل هذا، علينا أن نستخدم طريقةً إحصائية لطالما استخدمناها في مقارنة المجموعات وتُسمَّى «معامل تشابه جاكار». ويُعرَّف بأنه عدد العناصر المشتركة بين مجموعتَين مقسومًا على إجمالي عدد العناصر المختلفة في المجموعتَين. ويقيس معامل التشابه التماثُل بين المجموعتَين على أنه نسبة العناصر المشتركة بينهما. وتُعرَّف مسافة جاكار بأنها واحد ناقص معامل تشابه جاكار، وتقيس عدم التماثُل بين المجموعتَين.
عدد الكتب المشتركة | إجمالي عدد الكتب المختلفة المُشتراة | معامل تشابه جاكار | مسافة جاكار | |
---|---|---|---|---|
سميث وجونز | ١ | ٣ | ١ / ٣ | ٢ / ٣ |
سميث وبراون | ١ | ٤ | ١ / ٤ | ٣ / ٤ |
جونز وبراون | ١ | ٤ | ١ / ٤ | ٣ / ٤ |
يسجِّل سميث وجونز معاملَ تشابه جاكار أعلى، أو درجة تماثُل أعلى، من سميث وبراون. وهذا يعني أن العادات الشرائية لدى سميث وجونز متقاربة، ومن ثمَّ، نوصي بكتاب «عصائر ومشروبات» إلى سميث. ما الذي يجدر بنا التوصية به إلى جونز؟ يسجِّل سميث وجونز معاملَ تشابه جاكار أعلى من جونز وبراون، وعليه، فإننا نوصي بكتاب «مستقبل الحلويات» إلى جونز.
فن إعداد السلطة | الباستا اليوم | مستقبل الحلويات | عصائر ومشروبات | |
---|---|---|---|---|
سميث | ٥ | ٣ | ||
جونز | ٢ | ٥ | ||
براون | ١ | ٤ | ٣ |
في هذا المثال، تُوصَف طريقة حساب مختلفة، تُسمَّى «مقياس تشابه جَيب التمام»، ويُراعى فيها نظام التقييم باستخدام النجوم. في طريقة الحساب هذه، تُمثَّل المعلومات المُعطاة في جدول التقييم بالنجوم في صورة متجهات. ويُحدَّد عادةً طول المتجه أو مقداره بالواحد الصحيح، ولا يؤدِّي طول المتجه أو مقداره دورًا آخر في الحسابات. يُستخدَم اتجاه المتجه باعتباره وسيلةً لتحديد مدى تماثُل متجهَين؛ ومن ثمَّ، الجانب صاحب أفضل تقييم بالنجوم. بِناءً على نظرية فضاء المتجهات، يتم إيجاد قيمة لتشابه جَيب التمام بين المتجهَين. وتختلف طريقة الحساب هذه نوعًا ما عن طريقة حساب المثلثات المألوفة، إلا أن الخصائص الأساسية تظل قائمةً بأن يأخذ جيب التمام قيمًا تتراوح ما بين صفر وواحد. على سبيل المثال، إذا وجدنا أن تشابه جَيب التمام بين متجهَين، يُمثِّل كلٌّ منهما تقييمَ نجوم أحدِ الأشخاص، يساوي واحدًا، فسيكون قياس الزاوية بينهما صفرًا؛ وذلك لأن جيب التمام لصفر يساوي واحدًا؛ ومن ثمَّ، لا بد أنهما منطبقان ويمكننا أن نستنتج أن الشخصَين متماثلان في الذوق. وكلما زادت قيمة تشابه جَيب التمام، زادَ حجم هذا التماثُل.
إذا أردت الاستزادة بمعرفة التفاصيل الرياضية، فيمكنك مطالعة المراجع الموجودة في جزء «قراءات إضافية» في نهاية الكتاب. المثيرُ للاهتمام من وجهة نظرنا أن تشابه جَيب التمام بين سميث وجونز يبلغ ٠٫٣٥٠، وبين سميث وبراون يبلغ ٠٫٤٠٤. وهذا الناتج على النقيض من الناتج السابق؛ ما يعني أن سميث وبراون متقاربان في ذوقَيهما أكثر من سميث وجونز. بعبارة أخرى، يمكن تفسير ذلك بأن رأي كلٍّ من سميث وبراون في كتاب «مستقبل الحلويات» متقاربان أكثر من رأي سميث وجونز في كتاب «فن إعداد السلطة».
تستخدم خوارزميات التصفية التعاونية من قِبَل كلٍّ من شركتَي نتفليكس وأمازون، اللتَين سنتحدَّث عنهما في الجزء التالي مباشرة.
أمازون
جمعت أمازون بياناتٍ عن الكتب المُشتراة، والكتب التي عاينها العملاء ولكنهم لم يشتروها، والفترة التي قضَوها في البحث عن كتاب معيَّن، وما إذا اشتروا الكتب التي حفظوها في قائمة التفضيلات أم لا. وباستخدام هذه البيانات، تمكَّنت أمازون من تحديد المبالغ التي أنفقها العملاء على الكتب شهريًّا أو سنويًّا، وتحديد ما إذا كانوا عملاء معتادين أم لا. في بداية نشأة الشركة، كانت البيانات التي جمعتها أمازون تُحلَّل باستخدام الأساليب الإحصائية التقليدية. فكانت تُؤخَذ عينات عن الأشخاص، وبِناءً على أوجه التماثُل التي يتم إيجادها، قد تعرض أمازون المزيدَ من العناصر المشابهة على العملاء. ولتحسين هذا الأسلوب على نحو أفضل، تقدَّم باحثون من شركة أمازون، عام ٢٠٠١، بطلبٍ للحصول على براءة اختراع لأسلوب يُسمَّى «التصفية التعاونية القائمة على العنصر»، ونالَ الطلب الموافقة. يبحث هذا الأسلوب عن العناصر المتشابهة، وليس العملاء المتشابهين.
تجمع أمازون كمياتٍ هائلةً من البيانات، بما في ذلك العناوين، ومعلومات الدفع، وتفاصيل كلِّ ما تصفَّحه الشخصُ أو اشتراه منهم. وتستخدم أمازون بياناتها في تشجيع العملاء على إنفاق المزيد من المال على سلعها، وذلك من خلال محاولة إجراء أكبر قدر ممكن من أبحاث السوق عن العملاء. في حالة الكتب، على سبيل المثال، لا تحتاج أمازون إلى توفير مجموعة ضخمة من الكتب فحسب، بل تحتاج أيضًا إلى تركيز توصياتها على كل عميل على حدة. فإذا اشتركتَ في خدمة أمازون برايم، فستتبع الشركة أيضًا الأفلام التي تشاهدها وعاداتك في القراءة. يستخدم الكثير من العملاء الهواتف الذكية التي تحتوي على خاصية نظام تحديد المواقع العالمي (جي بي إس)، الأمر الذي يُمَكِّن أمازون من جمع البيانات التي توضِّح الوقت والموقع. ويُستخدَم هذا الكم الهائل من البيانات في إنشاء ملفات تعريفٍ للعملاء تتيح مطابقة الأفراد المتشابهين بتوصياتهم.
منذ ٢٠١٣، بدأت أمازون في بيع بيانات تعريف العملاء إلى المُعلِنين من أجل الترويج لخدمات ويب الخاصة بها، ما نتجَ عنه نمو كبير للشركة. وفيما يتعلَّق بخدمات أمازون ويب، منصة الشركة للحوسبة السحابية، يُعَد الأمان أمرًا شديدَ الأهمية ومتعدِّد الأوجه. وما كلمات المرور، وأزواج المفاتيح، والتوقيعات الرقمية إلا مجرد أمثلة قليلة على أساليب الأمان المعمول بها لضمان أن تكون حسابات العملاء متاحةً فقط لأولئك الذين يملكون بيانات المصادقة الصحيحة.
أمازون هي الشركة الرائدة في مجال «الشحن الاستباقي» بِناءً على أساليب تحليل البيانات الضخمة. تدور الفكرة حول استخدام البيانات الضخمة في توقُّع السلع التي قد يطلبها العملاء. وتدور الفكرة الأصلية حول شحن المنتجات إلى مركز التوزيع قبل إجراء الطلب فعليًّا. وكإضافة بسيطة، يمكن شحن المنتج إلى العميل مع تقديم مفاجئة مجانية له في حال استحسانه للمنتج. وعلى ضوء سياسة أمازون للاسترجاع، لا تُعد هذه فكرةً سيئة. كان من المتوقَّع أن أغلب العملاء سيحتفظون بالمنتج الذي طلبوه بما أنه كان يعتمد على تفضيلاتهم الشخصية، التي توصَّلت إليها الشركة باستخدام أساليب تحليل البيانات الضخمة. توضِّح أيضًا براءة اختراع الشحن الاستباقي، التي حصلت عليها أمازون عام ٢٠١٤، أيضًا أن رضا العملاء يمكن شراؤه بإرسال هدية ترويجية. إنَّ رضا العملاء، وزيادة المبيعات عبر التسويق المُوجَّه، وتقليل زمن التوصيل، جميعها أمورٌ تجعل أمازون تؤمن بأنها شركة جديرة بالاهتمام. تقدَّمت أمازون أيضًا بطلبٍ للحصول على براءة اختراع التوصيل بالطائرات بدون طيَّار، وأسمته برايم إير. في سبتمبر ٢٠١٦، خفَّفَت إدارة الطيران الفيدرالية الأمريكية من قوانين تشغيل الطائرات بدون طيَّار من قِبَل المؤسسات التجارية، ما سمحَ لها، في ظروفٍ خاصة تخضع للرقابة الشديدة، بأن تطير خارج مجال رؤية مَن يتحكَّم بها. ربما كانت هذه الخطوة الأولى في مسعى أمازون إلى توصيل الشحنات خلال ٣٠ دقيقة من طلبها، وربما أدَّى هذا إلى توصيل الحليب بالطائرات بدون طيَّار بعدما تكشف أجهزة الاستشعار في ثلاجتك الذكية أنَّ ما بها من حليب أوشكَ أن ينتهي.
أمازون جو، متجر مواد غذائية موجود في سِيَاتل، وهو الأول من نوعه الذي لا يتطلَّب منك الدفع لدى أمين خزينة قبل الخروج من المتجر. حتى ديسمبر ٢٠١٦، كان المتجر متاحًا فقط لموظفي أمازون، وتأجَّلت الخطط لأن يصبح متاحًا لجمهور المستهلكين عامةً في يناير ٢٠١٧. تقتصر التفاصيل الفنية الوحيدة المتاحة لنا حاليًّا على ما ورد في براءة الاختراع التي قُدِّمَت منذ عامَين، والتي تصف نظامًا يُلغي الحاجة إلى التحقُّق من شراء كل عنصر على حدة. وبدلًا من ذلك، تُضاف تفاصيل عربة تسوُّق العميل الحقيقية تلقائيًّا إلى عربة تسوُّقه الافتراضية أثناء التسوق. ويتم الدفع إلكترونيًّا أثناء مغادرة العميل المتجر عبر منطقة انتقالية ما دام يمتلك حسابَ أمازون وهاتفًا ذكيًّا يحتوي على تطبيق أمازون جو. يعتمد نظام جو على مجموعة من أجهزة الاستشعار، عدد كبير جدًّا منها، تُستخدَم لتحديد متى تُؤخَذ سلعة من أحد الرفوف أو تُعاد إليه.
من شأن هذا النظام أن ينتج كميةً هائلة من البيانات ذات الفائدة التجارية لصالح شركة أمازون. وبما أن كلَّ فعل تسوُّق يحدث ما بين دخول العميل المتجر ومغادرته يُسجَّل، فلا شك في أن أمازون ستتمكَّن من استخدام هذه البيانات في تقديم التوصيات لعملائها خلال زيارتهم التالية بطريقة تماثل نظام توصياتها عبر الإنترنت. ولكن، قد تطرأ مشكلات تتعلَّق بمدى تقديرنا لخصوصيتنا، لا سيَّما بسبب أمورٍ على غرار الاحتمالية المذكورة في طلب الحصول على براءة الاختراع، والتي تتعلَّق باستخدام أنظمة التعرُّف على الوجوه في تحديد العملاء.
نتفليكس
ثمَّة شركة أخرى من شركات وادي السيليكون وهي شركة نتفليكس التي أُسِّسَت عام ١٩٩٧ كشركة لتأجير أقراص الدي في دي عبر البريد. كان بإمكانك أن تأخذ قرص دي في دي وتضيف قرصًا آخر إلى قائمة طلباتك؛ ومن ثمَّ، تُرسل إليك الأقراص تباعًا. والأهم من ذلك أنه في مقدورك تحديد الأولويات ضمن قائمتك. لا تزال هذه الخدمة متوافرةً ومربحة، ولكن يبدو أنها توشك على الانتهاء تدريجيًّا. أصبحت نتفليكس حاليًّا مزوِّدًا دوليًّا للخدمات الإعلامية والبَث عبر الإنترنت، ووصلَ عددُ مشتركيها إلى ما يقارب ٧٥ مليون مشترك من ١٩٠ دولة، وتمكَّنت من التوسُّع بنجاح لتشرع في تقديم برامجها الأصلية.
تجمع نتفليكس كمياتٍ هائلةً من البيانات وتستخدمها في تحسين الخدمات المُقدَّمة إلى العملاء، مثل عرض التوصيات لأفراد المستخدمين مع السعي في الوقت نفسه إلى تقديم خدمة بَث لأفلامها يمكن التعويل عليها. تقع التوصيات في صميم نموذج عمل شركة نتفليكس، حيث يقوم الجزء الأكبر من عملها على التوصيات التي يمكنها عرضها على العملاء والمستنِدة إلى البيانات. تُتابع نتفليكس حاليًّا ما يشاهده كلُّ عميل من عملائها، وما يتصفَّحه، وما يبحث عنه، ويومَ وتوقيت أدائه لكل هذه الأنشطة. كما أنها تسجِّل ما إذا كان العميل يستخدم جهاز آي باد، أو تلفزيونًا أو جهازًا آخر.
في ٢٠٠٦، أعلنت نتفليكس عن مسابقة عامة للجمهور تهدف إلى تحسين أنظمة التوصية لديها. وعرضت الشركة جائزةً قيمتها مليون دولار لخوارزمية التصفية التعاونية التي ستُحسِّن بنسبة ١٠ بالمائة من دقة التنبؤات بتقييمات المستخدمين للأفلام. وأتاحت نتفليكس بيانات التدريب، ما يزيد على ١٠٠ مليون عنصر، من أجل مسابقة تعلُّم الآلة والتنقيب في البيانات هذه، ولم يكن مسموحًا استخدام أي مصادر أخرى. عرضت نتفليكس جائزةً مبدئية (جائزة التقدُّم) بقيمة ٥٠ ألف دولار، والتي فازَ بها فريقُ شركة كوربل في ٢٠٠٧ عندما تمكَّنوا من حَلِّ مشكلةٍ ذات صلة ولكنها أسهل نوعًا ما. كلمة «أسهل» كلمة نسبية في هذا السياق؛ فقد دمجَ حلُّهم ١٠٧ خوارزمياتٍ مختلفة ليحصلوا على خوارزميتَين نهائيتَين لا زالت نتفليكس تستخدمهما حتى الآن، ولا تزالان قيد التطوير المستمر. صيغَت هاتان الخوارزميتان لتتمكَّنا من التعامل مع ١٠٠ مليون تقييم في مقابل الخمسة مليارات تقييم التي يجب أن تتمكَّن الخوارزمية التي ستحصل على الجائزة الكاملة من التعامُل معها. مُنِحَت الجائزة الكاملة، في نهاية المطاف، في عام ٢٠٠٩ إلى فريق برجماتيك كيوس من شركة بلكور، والذي حقَّقت خوارزميته نسبة تحسُّن بلغت ١٠٫٠٦ في المائة عن الخوارزمية التي كانت مستخدَمةً في ذلك الحين. لم تنفِّذ شركة نتفليكس الخوارزمية الفائزة بالكامل على الإطلاق، ويرجع ذلك في الأساس إلى أنها، بحلول ذلك الوقت، كانت قد غيَّرت نموذج عملها إلى نموذج عمل البَث الإعلامي الحالي المألوف.
بمجرد أن وسَّعت نتفليكس نموذج عملها من الخدمات البريدية إلى إتاحة الأفلام عبر البَث، تمكَّنت من جمع كمٍّ أكبر بكثير من المعلومات عن تفضيلات عملائها وعادات المشاهدة، الأمر الذي مكَّنها من تقديم توصياتٍ مُحسَّنة. ولكن، بعيدًا عن الطريقة الرقمية، تُوظِّف نتفليكس مُعلِّقين بدوامٍ جزئي، بإجمالي حوالي ٤٠ شخصًا في جميع أنحاء العالم، يشاهدون الأفلام ويعلِّقون على المحتوى ويصنِّفونه، على سبيل المثال، على أنه «خيال علمي» أو «كوميديا». ومن ثمَّ تُصنَّف الأفلام، بالاحتكام إلى الرأي البشري في الأساس وليس إلى خوارزمية حاسوبية، وسنتناول هذا لاحقًا.
تستخدم نتفليكس مجموعةً كبيرة من خوارزميات التوصية، والتي تُشكِّل معًا نظام التوصية. تعمل كلُّ هذه الخوارزميات وفقًا للبيانات الضخمة المُجمَّعة التي تجمعها الشركة. على سبيل المثال، تحدِّد التصفية المستندة إلى المحتوى البيانات التي يقدِّمها «المعلقون»، وتبحث عن أفلام وبرامج تلفزيونية مشابهة طبقًا لمعايير على غرار المحتوى أو المُمثِّل. ترصد خوارزميات التصفية التعاونية هذه الأمور على أنها عاداتك فيما يخصُّ المشاهدة والبحث. وتستند التوصيات إلى ما شاهده المشاهِدون أصحاب ملفات التعريف المشابهة. ولا شكَّ في أن فرص نجاح هذا الأسلوب تتراجع عندما يزيد عدد مستخدِمي الحساب عن مستخدم واحد، عادةً ما يكونون عدة أفراد من أسرة واحدة، لكلٍّ منهم أذواقٌ وعاداتُ مشاهدة مختلفة. ومن أجل التغلُّب على هذه المشكلة، أنشأت نتفليكس خيارَ ملفات التعريف المتعدِّدة ضمن كلِّ حساب من حسابات المستخدِمين.
تُعَد خدمة العروض التلفزيونية على الإنترنت حسب الطلب مجالًا آخر يساعد في نمو شركة نتفليكس، وستتزايد أهمية استخدام أساليب تحليل البيانات الضخمة مع استمرارها في تطوير أنشطتها. بالإضافة إلى جمع بيانات البحث والتقييمات باستخدام النجوم، يمكن لشركة نتفليكس حاليًّا أن تحتفظ بسجلاتٍ عن عدد مرات إيقاف المستخدمين لمقاطع الفيديو أو تقديمها، أو ما إذا كانوا يستكملون مشاهدة كل برنامج بدءوا في مشاهدته أم لا. كما أنها تتابع كيف، ومتى، وأين شاهدوا البرنامج، إلى جانب عدد كبير من المتغيِّرات التي لن يسعنا ذكرها هنا لكثرتها. باستخدام أساليب تحليل البيانات الضخمة، نما إلى علمنا أنها أصبحت قادرةً حاليًّا على التنبؤ بدقة معقولة ما إذا كان أحد عملائها بصدد إلغاء اشتراكه.
عِلمُ البيانات
«عالِم البيانات» هو اللَّقب العام الذي يُطلَق على العاملين في مجال البيانات الضخمة. ألقى تقرير شركة ماكنزي لعام ٢٠١٢ الضوءَ على نقص عدد علماء البيانات في الولايات المتحدة الأمريكية وحدها، مُقدِّرًا أنه بحلول ٢٠١٨ سيصل العجز إلى ١٩٠ ألفًا. يتكرَّر هذا النمط على نحو واضح في جميع أنحاء العالَم، وعلى الرغم من المبادرات الحكومية التي تُشجِّع على التدريب على مهارات عِلْم البيانات، يبدو أن الفجوة بين الخبرات المتاحة والمطلوبة لا تزال تتسع. تتزايد شهرة عِلْم البيانات كأحد خيارات الدراسة الجامعية، إلا أن الخريجين لم يتمكَّنوا حتى الآن من تلبية متطلَّبات التجارة والصناعة، حيث تقدِّم الوظائفُ في مجال علم البيانات رواتبَ عاليةً للمتقدمين الأكثر خبرة. تهتم البياناتُ الضخمة للمؤسسات التجارية بالربح، وسرعان ما ستتسلَّل خيبة الأمل إلى نفس محلِّل بياناتٍ مُثقَل بالأعباء ولا يملك الخبرة الكافية إذا فشل في تحقيق النتائج الإيجابية المتوقَّعة. تطلب الشركات، في أغلب الأحيان، نموذجَ عالِم بياناتٍ يفي بكل المتطلَّبات، حيث تُريده ضليعًا في جميع المهام، وتتوقَّع منه أن يتمتَّع بالكفاءة في كل شيء، بدءًا من التحليل الإحصائي وحتى تخزين البيانات وأمن البيانات.
يحظى أمنُ البيانات بأهمية كبيرة بالنسبة إلى أي شركة، وللبيانات الضخمة مشكلاتها الأمنية الخاصة. في ٢٠١٦، أُلغيت مبادرة جائزة نتفليكس الثانية بسبب مخاوف تتعلَّق بأمن البيانات. شملت عمليات اختراق البيانات مؤخرًا شركة أدوبي في ٢٠١٣، وإيباي وبنك جيه بي مورجان تشيس في ٢٠١٤، وشركة أنثيم (شركة تأمين صحي يقع مقرُّها في الولايات المتحدة) وشركة كارفون ويرهاوس في ٢٠١٥، وموقع مَاي-سبيس في ٢٠١٦، وموقع لينكد-إن الذي تعرَّضَ لعملية اختراقٍ وقعت في ٢٠١٢ ولم تُكتشَف حتى ٢٠١٦. وما الشركات السالفة الذكر إلا عينة صغيرة؛ فثمة الكثير من الشركات الأخرى التي تعرَّضت للاختراق أو عانت من أنواع أخرى من الانتهاكات الأمنية التي أدَّت إلى نشر غير مصرَّح به لبياناتٍ حسَّاسة. في الفصل السابع، سنتناول بتعمُّق بعض الانتهاكات الأمنية للبيانات الضخمة.