الفصل الأول

ما علمُ البيانات؟

ينطوي علم البيانات على مجموعةٍ من المبادئ وتعريفات المشكلات والخوارزميات والعمليات التي تهدف لاستخراج الأنماط غير الواضحة والمفيدة من مجموعات البيانات الكبيرة. لقد تطورت الكثير من عناصر علم البيانات في مجالاتٍ ذات صلة مثل تعلُّم الآلة والتنقيب في البيانات. وواقع الأمر أن مصطلحات مثل: «علم البيانات» و«تعلُّم الآلة» و«التنقيب في البيانات» كثيرًا ما تُستخدَم بالتبادل بعضها مع بعض. والقاسم المشترك عبر كلِّ هذه التخصُّصات هو التركيز على تحسين عملية اتخاذ القرار عن طريق تحليل البيانات. وعلى الرغم من أن علم البيانات يستفيد من هذين المجالَين الآخرين، فهو أوسع نطاقًا منهما. إذ يركز «تعلُّم الآلة» على تصميم الخوارزميات وتقييمها من أجل استخلاص الأنماط من البيانات المتاحة. ويتعامل «التنقيب في البيانات» بوجهٍ عامٍّ مع تحليل البيانات الهيكلية وكثيرًا ما ينطوي على التركيز على التطبيقات التجارية. أما علمُ البيانات فهو يضع كلَّ هذه الاعتبارات في الحسبان؛ ولكنه يخوض أيضًا تحدِّيات أخرى، مثل استخلاص البيانات غير الهيكلية من وسائل التواصل الاجتماعي والويب وتنقيتها ونقلها؛ واستخدام تقنيات البيانات الضخمة لتخزين مجموعات البيانات الضخمة غير الهيكلية ومعالجتها؛ هذا بالإضافة إلى المسائل المتعلقة بأخلاقيات التعامل مع البيانات واللوائح التنظيمية الخاصة بها.

ومن خلال الاستعانة بعلم البيانات، يُمكننا استخلاص أنواعٍ مختلفة من الأنماط. ربما نرغب، مثلًا، في استخلاص الأنماط التي تساعدنا في تحديد مجموعات العملاء الذين يُظهِرون سلوكياتٍ مماثلةً وأذواقًا مُتشابهة. وبالاستعانة بالمصطلحات التجارية، تُعرَف هذه المهمة ﺑ «تجزئة العملاء»، أما إذا استعنَّا بمصطلحات علم البيانات، فإنها تُسمَّى «التجميع». وعوضًا عن ذلك، ربما نرغب في استخلاص نمطٍ يُحدد منتجات يتكرَّر شراؤها معًا، وهي عملية يُطلق عليها «التنقيب عن قواعد الارتباط». أو ربما نرغب في استخلاص أنماط تُحدد الأحداث الغريبة أو الشاذة، مثل مطالبات التأمين المزورة، وهي عملية تُعرف باسم «اكتشاف الشذوذ» أو «اكتشاف القِيَم الشاذة». وأخيرًا، ربما نرغب في تحديد الأنماط التي تُساعدنا على تصنيف الأشياء. على سبيل المثال، القاعدة التالية توضِّح ما قد يبدو عليه نمط التصنيف المستخلَص من مجموعة بيانات البريد الإلكتروني: «إذا اشتملت رسالة البريد الإلكتروني على عبارة «اكسب المال بسهولة»، فمن المرجح أن تكون هذه الرسالة رسالة بريد عشوائي.» والتعرف على هذه الأنواع من قواعد التصنيف يُعرف باسم «التنبؤ». وربما تبدو كلمة «تنبؤ» اختيارًا غريبًا لأن القاعدة لا تتنبأ بما سيحدُث في المستقبل: فرسالة البريد الإلكتروني إما أن تكون عشوائية أو غير عشوائية. ولذا، فمن الأفضل التفكير في أنماط التنبُّؤ على أنها تتنبَّأ بالقيمة المجهولة لسِمةٍ مُعينة بدلًا من أن نظن أنها تتنبأ بالمستقبل. في هذا المثال، نحن نتنبأ بما إذا كانت سمةُ تصنيف البريد الإلكتروني ينبغي أن تأخذ قيمة «بريد عشوائي» أم لا.

إذا كان بإمكان أحد الخبراء أن يبتكِر نمطًا في ذهنه بسهولة، فإن هذا النمط عمومًا لا يستحقُّ الوقت والجهد اللازمَين لاستخدام علم البيانات من أجل «اكتشافه».

على الرغم من أنه بإمكاننا الاستعانة بعلم البيانات لاستخلاص شتَّى أنواع الأنماط، فإننا نرغب دومًا أن تكون هذه الأنماط غير واضحة ومفيدة على حدٍّ سواء. والمثال الذي ذكرناه في الفقرة السابقة عن قاعدة تصنيف رسائل البريد الإلكتروني هو مثالٌ بسيط وواضح جدًّا إلى حدِّ أنه لو كانت تلك هي القاعدة الوحيدة المستخلصة من العمليات الخاصة بعلم البيانات، لأُصِبنا بخيبة الأمل والإحباط. على سبيل المثال، تُراجِع هذه القاعدة الخاصة بتصنيف رسائل البريد الإلكتروني سمةً واحدةً فقط خاصة بالبريد الإلكتروني؛ ألا وهي: هل تحتوي الرسالة على عبارة «اكسب المال بسهولة»؟ إذا كان بإمكان أحد الخبراء أن يبتكِر نمطًا في ذهنه بسهولة، فإن هذا النمط عمومًا لا يستحقُّ الوقت والجهد اللازمَين لاستخدام علم البيانات من أجل «اكتشافه». فبصفةٍ عامة، يصير علم البيانات مفيدًا عندما يكون لدينا عدد كبير من أمثلة البيانات وعندما تكون الأنماط بالِغة التعقيد بحيث يعجز البشر عن اكتشافها واستخلاصها يدويًّا. وفيما يخصُّ الحد الأدنى، يُمكننا تحديد عددٍ كبير من أمثلة البيانات على نحوٍ يفوق قدرة الخبراء على التحقُّق منه بسهولة. أما فيما يخصُّ تعقيد الأنماط، فأُكرر أنه يمكن تحديدها في ضوء القدرات البشرية. فنحن — البشر — نُجيد بدرجة معقولة تحديد القواعد التي تتحقَّق من سِمةٍ أو سِمتَين أو ثلاثِ سمات (يُطلَق عليها في بعض الأحيان «خصائص» أو «متغيرات»)، ولكن عندما تزيد على ثلاث سمات، فقد تبدأ معاناتنا للتعامل مع التفاعلات فيما بينها. وعلى النقيض من ذلك، عادةً ما يُطبَّق علم البيانات في سياقاتٍ حيث نرغب في البحث عن أنماطٍ بين عشرات ومئات وآلاف السمات، بل وتصل إلى ملايين السمات في الحالات القصوى.

ولا تكون الأنماط التي نستنبطها باستخدام علم البيانات ذات فائدة إلا إذا وفَّرت لنا رؤيةً مستنيرة عن المشكلة بحيث تُمكننا من القيام بشيءٍ ما يُساعدنا في حل هذه المشكلة. وأحيانًا تُستخدَم عبارة «رؤية مستنيرة قابلة للتنفيذ» في هذا السياق لوصف ما نرغب أن تُوفره لنا الأنماط المستخرَجة. ويسلط مصطلح «رؤية مستنيرة» الضوء على النمط الذي ينبغي أن يُوفِّر معلومات ذات صلةٍ حول المشكلة غير الواضحة. ويُبرِز مصطلح «قابلة للتنفيذ» أن الرؤية المستنيرة التي نحصل عليها ينبغي أن تكون شيئًا نتمتع بالقدرة على استغلاله بشكلٍ أو بآخر. على سبيل المثال، تَخيَّل أننا نعمل لدى شركة هواتف محمولة تحاول حل مشكلة «تسرب العملاء»؛ أي انتقال عددٍ كبير جدًّا من العملاء إلى شركات أخرى. وإحدى الطرق التي ربما يستعان بها للتعامل مع هذه المشكلة هي استخراج أنماط من البيانات المتوفرة عن العملاء السابقين تُتيح لنا تحديد العملاء الحالِيِّين المعرضين لخطر تسرُّبهم؛ ثم التواصل مع هؤلاء العملاء ومحاولة إقناعهم بالاستمرار مع شركتنا. ولا يكون النمط الذي يُمكِّننا من تحديد العملاء المحتَمل تسرُّبهم ذا فائدة بالنسبة إلينا إلا (أ) إذا كانت الأنماط تُحدد العملاء في وقتٍ مُبكر بما يكفي بحيث يكون لدينا الوقت الكافي للتواصل معهم قبل خسارتهم (ب) وإذا كانت شركتنا قادرة على تعيين فريقٍ للتواصل معهم. وهاتان الخطوتان ضروريَّتان لكي تكون الشركة قادرة على التصرف بناءً على الرؤية المستنيرة التي تُمِدُّنا بها الأنماط.

تاريخ موجز لعلم البيانات

يعود تاريخ ظهور مصطلح «علم البيانات» إلى تسعينيات القرن الماضي. إلا أن المجالات التي يعوِّل عليها هذا العلم لها تاريخ أطول من ذلك بكثير. أحد الخيوط في هذا التاريخ الأطول هو تاريخ جمع البيانات؛ والآخر هو تاريخ تحليل البيانات. في هذا القسم، نتناول التطورات الرئيسية في هذَين الخطَّين ونصِف مدى تقاربهما من مجال علم البيانات والسبب وراء هذا التقارب. وبحكم الضرورة، يقدم هذا التناول مصطلحاتٍ جديدة أثناء وصفنا وذِكرنا للابتكارات التكنولوجية المهمة عند ظهورها. ونقدم شرحًا موجزًا لمعنى كلِّ مصطلح جديد؛ ونُعاود التطرق إلى الكثير من هذه المصطلحات في مواضع لاحقة من هذا الكتاب ونقدم تفسيرًا مفصلًا لها. سنبدأ بتاريخ جمع البيانات، ثم نستعرض تاريخ تحليل البيانات، وأخيرًا، سنتناول التطور المحرَز على صعيد علم البيانات.

تاريخ جمع البيانات

ربما يتمثل أقدم أساليب تسجيل البيانات في الثلمات المحفورة على العِصي بهدف تسجيل مرور الأيام أو الأعمدة المغروسة في الأرض لتسجيل مواقيت شروق الشمس عند حدوث الانقلاب الشمسي صيفًا وشتاءً. بيد أنه مع تطور الكتابة، زادت قدرتنا على تسجيل تجاربنا والأحداث في عالمنا من كمية البيانات التي نجمعها تزايدًا مهولًا. تطوَّر أقدم شكلٍ للكتابة في بلاد الرافدَين نحو عام ٣٢٠٠ قبل الميلاد واستُخدِم لحفظ السجلات التجارية. يلفت هذا النوع من حفظ السجلَّات الانتباه إلى ما يُعرف باسم «بيانات المعاملات التجارية». تشمل بيانات المعاملات التجارية معلوماتٍ عن حدثٍ ما مثل مبيعات خاصة بأحد الأصناف، وإصدار الفاتورة، وتسليم البضائع، والدفع ببطاقة الائتمان، والمطالبات التأمينية، وهلمَّ جرًّا. وتحظى «بيانات المعاملات غير التجارية» — مثل البيانات الديموغرافية — بتاريخٍ طويل أيضًا. إذ يرجع تاريخ أقدم إحصاء سُكاني معروف في مصر الفرعونية إلى نحو عام ٣٠٠٠ قبل الميلاد. كان السبب وراء بذْل الدول المبكرة جهدًا كبيرًا جدًّا وتسخير موارد كثيرة لعمليات جمع بيانات كبيرة هو أن هذه الدول كانت بحاجةٍ إلى زيادة الضرائب وحشد الجيوش، ممَّا يؤكد مقولة بنجامين فرانكلين الزاعمة بأن ثمة حقيقتَين فقط لا يختلف عليهما أحد في هذه الحياة؛ ألا وهما الموت والضرائب.

خلال المائة والخمسين عامًا الماضية، ساهم تطوير أجهزة الاستشعار الإلكترونية، ورقمنة البيانات، واختراع الكمبيوتر في زيادة كمية البيانات التي تُجمع وتُخزَّن زيادةً مهولةً. وكان عام ١٩٧٠ علامةً فارقة في جمع البيانات وتخزينها حين نشر «إدجار إف كود» بحثًا يشرح فيه «نموذج البيانات الارتباطية»، الذي كان في حدِّ ذاته نموذجًا ثوريًّا فيما يخصُّ تحديد كيفية تخزين البيانات (آنذاك) وفهرستها واستعادتها من قواعد البيانات. مكَّن نموذج البيانات الارتباطية المستخدِمين من استخراج البيانات من قاعدة البيانات باستخدام استعلاماتٍ بسيطة تُحدد البيانات التي يريدها المستخدِم دون إثارة القلق لدَيه حيال الهيكل الأساسي الخاص بالبيانات أو المكان الذي خُزِّنت فيه فعليًّا. وضع بحث «كود» حجر الأساس لقواعد البيانات الحديثة وتطوير «لغة الاستعلام الهيكلية» (إس كيو إل)، وهي معيار دولي لتحديد استعلامات قواعد البيانات. تخزن قواعد البيانات الارتباطية البيانات في جداول ببِنية تتكوَّن من صفٍّ واحد لكل مثيلٍ وعمودٍ واحد لكلِّ سمة. وهذه البِنية مثالية لتخزين البيانات لأنه من الممكن تفكيكها إلى سماتٍ بسيطة.

وتُعد قواعد البيانات هي التقنية البسيطة المستخدَمة لتخزين بيانات المعاملات التجارية أو البيانات «التشغيلية» الهيكلية (أي نوعية البيانات التي تُولِّدها العمليات التشغيلية اليومية الخاصة بمؤسسةٍ ما). ومع ذلك، نظرًا إلى أن الشركات صارت أكبر حجمًا وأكثر اعتمادًا على الأجهزة والآلات، زادت كمية البيانات التي تُنتجها الأقسام المختلفة في هذه الشركات ومدى تنوُّعها زيادة مهولة. وفي تسعينيات القرن العشرين، أدركت الشركات أنه على الرغم من أنها جمعت كمياتٍ هائلة من البيانات، فإنها واجهت صعوباتٍ مُتكررة حيال تحليل تلك البيانات. تَمثَّل جزء من المشكلة في أن البيانات كانت تُخزن عادةً في عددٍ كبير من قواعد البيانات المنفصلة بعضها عن بعض داخل الشركة الواحدة. وتمثلت صعوبة أخرى في أن قواعد البيانات كان يُحسَّن أداؤها من أجل تخزين البيانات واستعادتها، وهي الأنشطة التي تتميَّز بأعدادٍ كبيرة من العمليات البسيطة مثل «اختيار» و«إدراج» و«تحديث» و«حذف». ومن أجل تحليل بياناتها، كانت هذه الشركات بحاجةٍ إلى تقنية قادرة على تجميع البيانات والتوفيق بينها من قواعد بيانات مختلفة وهذا يَسَّر عمليات البيانات التحليلية الأكثر تعقيدًا. وقد أدى هذا التحدي إلى تطوير «مستودعات البيانات». في هذا المستودع، تُجمع البيانات من كل أقسام الشركة وتُدمج، وبالتالي تتيح للتحليل مجموعة بياناتٍ أكثر شمولًا.

وعلى مدار العقدَين الماضيَين، صارت أجهزتنا محمولةً ومتصلةً بالشبكات، ويقضي الكثيرون منَّا ساعاتٍ طويلة على شبكة الإنترنت كل يومٍ من خلال استخدام تقنيات التواصل الاجتماعي، وألعاب الكمبيوتر، والمنصَّات الإعلامية، ومحركات البحث عبر الإنترنت. وهذه التغيرات الطارئة على التكنولوجيا والطريقة التي نعيش بها لها تأثير كبير على كمية البيانات التي جُمعت. إذ تُقدر كمية البيانات التي جُمعت على مدار خمسة آلاف عامٍ منذ اختراع الكتابة وحتى عام ٢٠٠٣ بنحو ٥ إكسابايت. ومنذ عام ٢٠١٣، يُولِّد البشر هذه الكمية نفسها من البيانات «كل يوم» ويخزنونها. ومع ذلك، لم تكن كمية البيانات المجمَّعة وحدَها هي ما زاد زيادةً مهولة وإنما زاد تنوُّعها أيضًا. فقط تأمَّل في القائمة التالية من مصادر البيانات عبر الإنترنت: رسائل البريد الإلكتروني والمدوَّنات والصور والتغريدات والإعجاب بالمنشورات والمشاركات وعمليات البحث عبر الويب وتحميل الفيديوهات وعمليات الشراء عبر الإنترنت والبودكاست. وإذا وضعنا في الاعتبار بيانات التعريف (البيانات التي تصِف بِنية البيانات الأصلية وخصائصها) لهذه الأحداث، استطعنا فهْم معنى مصطلح «البيانات الضخمة». وعادةً ما تُعرَّف البيانات الضخمة في ضوء ثلاثة عناصر: «الحجم» الضخم للبيانات، و«تنوع» نوعيَّات البيانات، و«السرعة» التي يجب أن تُعالج بها البيانات.

لقد شجع ظهور البيانات الضخمة تطور مجموعة من التقنيات الجديدة لقواعد البيانات. وكثيرًا ما يُشار إلى هذا الجيل الجديد من قواعد البيانات باسم «قواعد البيانات غير الارتباطية» (وتُعرف اختصارًا ﺑ NoSQL). وعادةً ما يكون لها نموذج بيانات أبسط من قواعد البيانات الارتباطية التقليدية. وتُخزِّن قاعدة البيانات غير الارتباطية البيانات على هيئة كائناتٍ ذات سِمات، باستخدام لغة ترميز كائنات مثل «جافا سكريبت أوبجكت نوتيشن» (أو جيه إس أو إن). وتكمن ميزة تمثيل البيانات على هيئة كائنات (على النقيض من النموذج القائم على الجداول الارتباطية) في أن مجموعة السِّمات الخاصة بكل كائن مُتضمنة داخله، مما يسفر عن تمثيلٍ مرِن. على سبيل المثال، ربما يحظى أحد الكائنات في قاعدة البيانات بمجموعةٍ فرعية فقط من السمات، مقارنة بالكائنات الأخرى. وعلى النقيض من ذلك، في هيكل البيانات القياسي المجدوَل والمستخدَم في قواعد البيانات الارتباطية، ينبغي أن تتمتع نقاط البيانات بالمجموعة نفسها من السمات (أي الأعمدة). وهذه المرونة في تمثيل البيانات على هيئة كائنات ذات أهمية في السياقات حيث لا يمكن تحليل البيانات إلى مجموعةٍ من السمات الهيكلية (هذا بسبب التنوُّع أو النوع). على سبيل المثال، قد يكون من الصعب تحديد مجموعة السمات التي ينبغي استخدامها لتمثيل النصِّ الحُر (مثل التغريدات) أو الصور. ومع ذلك، على الرغم من أن هذه المرونة التمثيلية تُتيح لنا تدوين البيانات وتخزينها في تنسيقاتٍ متنوعة، يجب استخراج هذه البيانات على هيئة تنسيق هيكلي قبل إجراء أي تحليل عليها.

لقد أدى ظهور البيانات الضخمة أيضًا إلى تطوير أُطرٍ جديدة لمعالجة البيانات. فعندما تتعامل مع كميات كبيرة من البيانات بسرعات عالية، قد يفيد — من المنظور الحوسبي ومن منظور السرعة — توزيع البيانات عبر وحدات خدمةٍ مُتعددة، ومعالجة الاستعلامات من خلال حساب النتائج الجزئية الخاصة بالاستعلام على كلِّ وحدة خدمة، ثم دمج هذه النتائج لتوليد الردِّ على هذا الاستعلام. وهذا هو النهج المتَّبع في إطار عمل «ماب رديوس» على منصة هادوب. وفي هذا الإطار، تُعيَّن البيانات والاستعلامات (أو تُوزَّع) عبر عدة وحدات خدمة، وتُحسَب النتائج الجزئية على كل وحدة خدمة، ثم تُختزل معًا (أو تُدمج معًا).

تاريخ تحليل البيانات

علم الإحصاء هو فرع من العلوم التي تتعامل مع جمع البيانات وتحليلها. ويشير مصطلح «الإحصاء» بالأساس إلى جمع بياناتٍ عن الدولة وتحليلها؛ مثل البيانات الديموغرافية أو البيانات الاقتصادية. إلا أنه مع مرور الوقت، توسَّعت نوعية البيانات التي يُستخدم فيها التحليل الإحصائي بحيث تُستخدم الإحصاءات اليوم لتحليل جميع أنواع البيانات. وأبسط شكلٍ للتحليل الإحصائي للبيانات هو تلخيص مجموعةٍ من البيانات على هيئة «إحصاءات موجزة (وصفية)» (من بينها مقاييس النزعة المركزية، مثل «الوسط الحسابي»، أو مقاييس التبايُن، مثل «المدى»). ومع ذلك، في القرنَين السابع عشر والثامن عشر، أرست أعمال أشخاصٍ مثل جيرولامو كاردانو، وبليز باسكال، وياكوب برنولي، وأبراهام دي موافر، وتوماس بايز، وريتشارد برايس أُسس نظرية الاحتمال، وخلال القرن التاسع عشر، بدأ الكثير من الإحصائيين استخدام التوزيعات الاحتمالية كأداةٍ ضمن مجموعة أدواتهم التحليلية. مكَّنَت هذه التطورات الجديدة في الرياضيات الإحصائيين من تخطِّي الإحصاءات الوصفية وبدء العمل على «التعلم الإحصائي». ويُعَد بيير سيمون دي لابلاس وكارل فريدريش جاوس اثنَين من أهم وأشهر علماء الرياضيات في القرن التاسع عشر، كلٌّ منهما قدَّم إسهاماتٍ مهمة في مجال التعلُّم الإحصائي وعلم البيانات الحديث. أخذ لابلاس أفكار توماس بايز وريتشارد برايس وطورها لتُصبح النسخة الأولى لما نُسمِّيه الآن ﺑ «قاعدة بايز». وطوَّر جاوس، أثناء بحثه عن الكوكب القزم المفقود سيريس، «طريقة المربَّعات الصغرى»، التي مكَّنتنا من التوصُّل إلى أفضل نموذج يلائم مجموعة البيانات بحيث يُقلل الخطأ في الملاءمة إجمالي الفروق المربعة بين نقاط البيانات في مجموعة البيانات والنموذج إلى الحد الأدنى. وفَّرت طريقة المربعات الصغرى الأساس لأساليب التعلُّم الإحصائي مثل «الانحدار الخطي» و«الانحدار اللوجستي» بالإضافة إلى تطوير نماذج «الشبكة العصبية الاصطناعية» المستخدَمة في الذكاء الاصطناعي (سنعاود التطرُّق إلى المربعات الصغرى، وتحليل الانحدار، والشبكات العصبية في الفصل الرابع).

وما بين عامَي ١٧٨٠ و١٨٢٠، في التوقيت نفسه تقريبًا الذي قدم فيه لابلاس وجاوس إسهاماتهما إلى التعلم الإحصائي، اخترع مهندس اسكتلندي يُدعى ويليام بلايفير المخططات الإحصائية وأرسى أُسس «التمثيل المرئي للبيانات» و«التحليل الاستكشافي للبيانات». ابتكر بلايفير «المخطَّط الخطِّي» و«المخطَّط المساحي» من أجل البيانات المسلسلة زمنيًّا، و«المخطَّط العمودي» لتوضيح المقارنات بين كميات الفئات المختلفة، و«المخطَّط الدائري» لتوضيح النِّسَب داخل مجموعة. ويهدف التمثيل المرئي للبيانات الكمية إلى السماح لنا باستغلال قدراتنا البصرية القوية من أجل تلخيص البيانات ومقارنتها وتفسيرها. ورغم أنه يصعُب تمثيل مجموعات البيانات الكبيرة (التي تحتوي على الكثير من نقاط البيانات) والمعقدة (التي تحتوي على الكثير من السِّمات) بشكلٍ مرئي، فإن التمثيل المرئي للبيانات لا يزال يُمثل جزءًا مهمًّا من علم البيانات. ويُعَد هذا التمثيل، على وجه التحديد، ذا فائدةٍ في مساعدة علماء البيانات في استكشاف وفَهم البيانات التي يتعاملون معها. ويمكن أن تكون التمثيلات المرئية مفيدة أيضًا في إيضاح نتائج أحد مشروعات علم البيانات. ومنذ عصر بلايفير، ازدادت مخطَّطات تمثيل البيانات زيادةً مُطردة، واليوم ثمة أبحاث متواصِلة من أجل تطوير مناهج جديدة لتمثيل مجموعات البيانات الكبيرة والمتعددة الأبعاد تمثيلًا مرئيًّا. ويتمثل أحد التطورات الحديثة في خوارزمية «تضمين الجوار العشوائي الموزع على شكل حرف » (تي-إس إن إي)، وهي عبارة عن تقنية مفيدة لاختزال البيانات المتعددة الأبعاد إلى بُعدَين أو ثلاثة، وبالتالي تيسير التمثيل المرئي لتلك البيانات.

استمرت التطورات في نظرية الاحتمالات والإحصاء حتى القرن العشرين. إذ طوَّر كارل بيرسون اختبار الفرضية الحديث، وطور آر إيه فيشر أساليب إحصائية من أجل «التحليل المتعدد المتغيِّرات» وقدَّم فكرة «تقدير الاحتمال الأرجح» في الاستدلال الإحصائي كوسيلةٍ لاستخلاص النتائج بناءً على الاحتمالية النسبية للأحداث. وأدى عمل آلان تورينج في الحرب العالمية الثانية إلى اختراع الكمبيوتر الإلكتروني الذي كان له أثر عظيم على الإحصاء لأنه مَكَّننا من إجراء حساباتٍ إحصائية شديدة التعقيد. وخلال أربعينيات القرن العشرين والعقود التالية، طوِّر عدد من النماذج الحوسبية المهمة التي لا تزال مستخدَمة على نطاقٍ واسع في علم البيانات. وفي عام ١٩٤٣، اقترح وارن ماكولوتش ووالتر بيتس النموذج الرياضي الأول «للشبكة العصبية». وفي عام ١٩٤٨، نشر كلود شانون مقالًا بعنوان «نظرية رياضية للتواصُل»، ووضع من خلاله أساسًا ﻟ «نظرية المعلومات». وفي عام ١٩٥١، اقترحت إفيلين فيكس وجوزيف هودجز نموذجًا ﻟ «التحليل التمييزي» (أو ما نُطلق عليه الآن مسألة «التصنيف» أو «التعرُّف على الأنماط») الذي صار أساس «نماذج أقرب الجيران» الحديثة. وبلغت هذه التطوُّرات في فترة ما بعد الحرب العالمية ذروتها في عام ١٩٥٦ مع تأسيس مجال «الذكاء الاصطناعي» في ورشة عمل بكلية دارتموث. وحتى في هذه المرحلة المبكرة من تطوير الذكاء الاصطناعي، كان قد بدأ استخدام مصطلح «تعلُّم الآلة» لوصف البرامج التي مكَّنت الكمبيوتر من التعلُّم من البيانات. وفي منتصف ستينيَّات القرن العشرين، قُدِّمت ثلاثة إسهامات مُهمة لتعلُّم الآلة. ففي عام ١٩٦٥، أوضح كتاب نيلس نيلسون بعنوان «الآلات المتعلمة» كيف يمكن استخدام الشبكات العصبية لتعلُّم النماذج الخطِّية للتصنيف. وفي العام التالي، تحديدًا في عام ١٩٦٦، طور إيرل بي هانت وجانت مارين وفيليب جيه ستون إطار نظام تعلُّم المفاهيم، الذي مثَّل الأصل الذي تنحدِر منه عائلة مهمة لخوارزميات تعلُّم الآلة التي حفَّزت ظهور نماذج شجرة اتخاذ القرار من البيانات من أعلى إلى أسفل. وفي التوقيت نفسه تقريبًا، طوَّر عدد من الباحِثين المستقلِّين النُّسخ الأولية من خوارزميات «التجميع بالمتوسطات»، التي صارت الآن الخوارزمية القياسية المستخدَمة لتجزئة البيانات (العملاء).

يُعَد تعلُّم الآلة مجالًا جوهريًّا في علم البيانات الحديث؛ ذلك لأنه يوفر الخوارزميات القادرة على تحليل مجموعات البيانات الكبيرة تحليلًا آليًّا لاستخلاص الأنماط التي من المحتمل أن تكون جاذبةً للاهتمام ومفيدةً على حدٍّ سواء. ولقد واصل هذا المجال التطوُّر والابتكار حتى يومِنا هذا. وتشمل بعض أهم التطوُّرات «النماذج التجميعية» — حيث تُجرى التنبؤات باستخدام مجموعةٍ من النماذج (أو فئة من النماذج)، ويتنبأ كلُّ نموذج بكلِّ استعلامٍ من خلال الاقتراع — و«الشبكات العصبية الخاصة بالتعلم العميق»، التي تتكوَّن من طبقات عديدة (أكثر من ثلاث طبقات) من الخلايا العصبية. وهذه الطبقات الأعمق في الشبكة قادرة على اكتشاف وتعلم تمثيلات السِّمات المعقدة (التي تتألَّف من عدة سماتٍ تفاعلية مُدخَلة جرت معالجتها بواسطة طبقاتٍ أولى)، التي تُمكِّن الشبكة بدورها من تعلُّم أنماطٍ يمكن تعميمها عبر البيانات المدخلة. ونظرًا إلى قُدرتها على تعلُّم السمات المعقدة، تتناسَب شبكات التعلم العميق على وجه الخصوص مع البيانات كثيرة الأبعاد، وبالتالي أحدثت ثورة في عدة ميادين، من بينها «رؤية الآلة» و«معالجة اللغة الطبيعية».

كما ناقشنا في معرض حديثنا عن تاريخ قواعد البيانات، شهدت أوائل السبعينيات من القرن الماضي بدايةَ تقنيةِ قواعد البيانات الحديثة مع نموذج البيانات الارتباطية الذي وضعه «إدجار إف كود» وما تبِعه من زيادة هائلة في توليد البيانات وتخزينها مما أدى إلى تطوير مستودعات البيانات في التسعينيات ولاحقًا إلى ظاهرة البيانات الضخمة. إلا أنه قبل ظهور البيانات الضخمة، وتحديدًا بحلول أواخر الثمانينيات وأوائل التسعينيات من القرن العشرين، ظهرت الحاجة إلى مجالٍ بحثي يستهدف على وجه التحديد تحليلَ هذه المجموعات الكبيرة من البيانات. وفي هذا الوقت تقريبًا بدأ استخدام مصطلح «التنقيب في البيانات» في الأوساط المستخدِمة لقواعد البيانات. وكما ناقشنا بالفعل، تمثلت إحدى الاستجابات لهذه الحاجة في تطوير مستودعات البيانات. ومع ذلك، استجاب باحثون آخرون في قواعد البيانات بالتطرُّق إلى مجالاتٍ بحثية أخرى، وفي عام ١٩٨٩، عقد جريجوري بياتيتسكي–شابيرو أول ورشة عمل عن «اكتشاف المعرفة في قواعد البيانات». ويلخص الإعلان عن هذه الورشة كيف أن الورشة ركَّزت على منهجٍ مُتعدد التخصُّصات لحل مشكلة تحليل قواعد البيانات الكبيرة؛ إذ جاء الإعلان كما يلي:

يُثير اكتشاف المعرفة في قواعد البيانات الكثير من المسائل المهمة، خاصةً عندما تكون قواعد البيانات كبيرة الحجم. وغالبًا ما تكون هذه القواعد مصحوبةً بقدْر كبير من المعرفة بالمجال مما يُسهل عملية الاكتشاف كثيرًا. والوصول إلى قاعدة بيانات كبيرة هو أمر مكلف؛ وهنا تأتي الحاجة إلى أخذ عيناتٍ واتِّباع الأساليب الإحصائية الأخرى. وأخيرًا، يمكن أن تستفيد عملية اكتشاف المعرفة في قواعد البيانات من الكثير من الأدوات والتقنيات المتاحة من عدة مجالات مختلفة من بينها النظم الخبيرة وتعلُّم الآلة وقواعد البيانات الذكية واكتساب المعرفة والإحصاء.¹

في الواقع، يصف المصطلحان «اكتشاف المعرفة في قواعد البيانات» و«التنقيب في البيانات» المفهوم نفسه؛ الفارق هو أن التنقيب في البيانات أكثر انتشارًا في أوساط الأعمال التجارية، أما مصطلح اكتشاف المعرفة في قواعد البيانات فهو أكثر انتشارًا في الأوساط الأكاديمية. اليوم، يُستخدم هذان المصطلحان على نحوٍ متبادل،² والكثير من الأماكن الأكاديمية رفيعة المستوى تستخدِم كِلا المصطلحَين. وبالطبع، يأتي المؤتمر الدولي بشأن اكتشاف المعرفة والتنقيب في البيانات على رأس أقدم المؤتمرات الأكاديمية في المجال.

ظهور علم البيانات وتطوُّره

ظهر مصطلح «علم البيانات» على الساحة في أواخر تسعينيات القرن العشرين في نقاشات ذات صلة بالحاجة إلى تعاون الإحصائيين مع علماء الكمبيوتر لإدخال عنصر الدقة الرياضية إلى التحليل الحوسبي لمجموعات البيانات الكبيرة. وفي عام ١٩٩٧، سلطت المحاضرة العامة التي ألقاها «سي إف جيف وو» بعنوان: «هل يتساوى علم الإحصاء بعلم البيانات؟» الضوء على عدد من الاتجاهات الواعدة للإحصاء، من بينها توفُّر مجموعات البيانات الكبيرة/المعقدة في قواعد بيانات مهولة والاستخدام المتزايد للخوارزميات والنماذج الحوسبية. واختتمت المحاضرة بالدعوة إلى إعادة تسمية علم الإحصاء ﺑ «علم البيانات».

وفي عام ٢٠٠١، نشر ويليام إس كليفلاند خطة عملٍ لإنشاء قسمٍ في الجامعة مُتخصص في مجال علم البيانات (Cleveland 2001). وتؤكد الخطة على ضرورة أن يكون علم البيانات شراكةً بين الرياضيات وعلوم الكمبيوتر. كما أنها تؤكد على ضرورة فهم علم البيانات باعتباره مسعًى مُتعدِّد التخصُّصات وعلى أن يتعلم علماء البيانات كيفية العمل والتعاون مع الخبراء من المجالات المختلفة. وفي العام نفسه، نشر ليو بريمان بحثًا بعنوان «النمذجة الإحصائية: الثقافتان» (٢٠٠١). في هذا البحث، يصف بريمان النهج التقليدي في الإحصاء بأنه ثقافة نمذجة البيانات التي ترى أن الهدف الرئيسي من تحليل البيانات هو تحديد نموذج البيانات العشوائي (الخفي) (على سبيل المثال، «الانحدار الخطي») الذي يفسر كيف جرى توليد البيانات. وقارن هذه الثقافة بثقافة النمذجة الخوارزمية التي تركز على استخدام الخوارزميات الحاسوبية لابتكار نماذج تنبؤية تتَّسِم بالدقة (بدلًا من التفسير فيما يتعلق بكيفية توليد البيانات). إن تمييز بريمان بين تركيز علم الإحصاء على النماذج التي تُفسر البيانات وتركيز الخوارزميات على النماذج التي يمكن أن تتنبأ بدقة بالبيانات يُسلط الضوء على الفارق الرئيسي بين الإحصائيين والباحثين في مجال تعلُّم الآلة. ولا يزال الجدال قائمًا بين هذَين المنهجَين داخل أوساط الإحصائيين (انظر، على سبيل المثال، Shmueli 2010). وبوجهٍ عام، معظم مشروعات علم البيانات اليوم أكثر توافقًا مع منهج تعلُّم الآلة الذي يحرص على إنشاء نماذج تنبُّؤية دقيقة وأقل اهتمامًا بالتركيز الإحصائي على تفسير البيانات. وعلى الرغم من أن علم البيانات لعب دورًا بارزًا في المناقشات المتعلقة بالإحصاء ولا يزال يستعير أساليب ونماذج من علم الإحصاء، فإنه مع مرور الوقت طوَّر منهجه المميز الخاص لتحليل البيانات.

منذ عام ٢٠٠١، اتسع مفهوم علم البيانات بشكلٍ كبير ليتجاوز كونه مجرد إعادة تعريف للإحصاء. على سبيل المثال، على مدار السنوات العشر الأخيرة، كان هناك تزايد مهول في كمية البيانات المتولِّدة من الأنشطة التي تتمُّ ممارستها عبر الإنترنت (البيع بالتجزئة عبر الإنترنت، ووسائل التواصل الاجتماعي والترفيه عبر الإنترنت). لقد أسفر جمع هذه البيانات وتجهيزها لاستخدامها في مشروعات علم البيانات عن حاجة علماء البيانات لتطوير مهارات البرمجة والقرصنة لاستخراج البيانات (أحيانًا البيانات غير الهيكلية) ودمجها وتصفيتها من مصادر الويب الخارجية. كما أن ظهور البيانات الضخمة أدَّى إلى جعل علماء البيانات مُضطرِّين إلى التعامل مع تقنيات البيانات الضخمة، مثل هادوب. في الواقع، اليوم صار دور علماء البيانات موسعًا للغاية لدرجة أنه ثمة جدلٌ مُستمر حول كيفية تحديد الخبرات والمهارات اللازمة لتنفيذ هذا الدور.³ غير أنه من الممكن سرد قائمة بالخبرات والمهارات التي قد يتفق معظم الناس على كونها ذات صلةٍ بهذا الدور، والمبينة في شكل ١-١. ومن الصعب على فردٍ واحد إتقان كل هذه المجالات، وبالطبع، يتمتع أغلب علماء البيانات بمعرفةٍ مُتعمقة وخبرة حقيقية في مجموعةٍ فرعية منها فحسب. ومع ذلك، من المهم أن نفهم ونعي إسهام كلِّ مجالٍ من هذه المجالات في مشروع علم البيانات.

شكل ١-١: مجموعة المهارات اللازمة لعالِم البيانات.

يجب أن يتمتع علماء البيانات بقدْر من الخبرة في المجال. تبدأ أغلب مشروعات علم البيانات بمشكلة من الواقع الفعلي مُختصة بمجالٍ مُعين والحاجة إلى تصميم حلٍّ مستخلص من البيانات لهذه المشكلة. وكنتيجة لذلك، من المهم لعالِم البيانات أن يتمتَّع بخبرةٍ كافية في هذا المجال تُتيح له فهم المشكلة، والوقوف على سبب أهميتها، وإلى أي مدًى قد يتناسب حل المشكلة القائم على علم البيانات مع عمليات المؤسسة. وهذه الخبرة في المجال تقود اختصاصِي علم البيانات أثناء عمله نحو تحديد الحل الأمثل. كما إنها تتيح له التفاعل مع خبراء المجال الحقيقيين بطريقةٍ ملموسة لكي يتسنى له جمع المعرفة اللازمة عن المشكلة الأساسية. كما أن التحلي بقدْر من الخبرة في مجال المشروع يُتيح لعالِم البيانات الاستعانة بخبراته المكتسبة من العمل على مشروعات مشابهة في نفس المجال والمجالات ذات الصِّلة لتُساعده على تحديد نطاق تركيز المشروع.

البيانات هي محور جميع مشروعات علم البيانات. ومع ذلك، لا تعني حقيقة أن المؤسسة لها حق الوصول إلى البيانات أنه يُمكنها استغلال البيانات من الناحية القانونية أو حتى ينبغي لها ذلك من الناحية الأخلاقية. ففي أغلب الدوائر القضائية، ثمة تشريعات مناهِضة للتمييز ومؤازِرة لحماية البيانات الشخصية تُنظم عملية استخدام البيانات وتتحكَّم فيها. وكنتيجةٍ لذلك، يجب على عالِم البيانات أن يتفهَّم هذه التشريعات، وعلى النطاق الأوسع، يجب أيضًا أن يتمتع بفهمٍ أخلاقي لتداعيات عمله إذا كان يرغب في استخدام البيانات استخدامًا قانونيًّا ولائقًا. وسنتطرَّق إلى هذا الموضوع في الفصل السادس، حيث نُناقش اللوائح التنظيمية القانونية لاستغلال البيانات والمسائل الأخلاقية المتعلقة بعلم البيانات.

في أغلب المؤسسات، تأتي نسبة كبيرة من البيانات من قواعد البيانات الموجودة في المؤسسة. علاوة على ذلك، عند توسع هيكل البيانات الخاص بالمؤسسة، ستبدأ مشروعات علم البيانات دمج البيانات من مجموعة متنوعة من مصادر البيانات الأخرى، التي يُشار إليها عمومًا ﺑ «مصادر البيانات الضخمة». وقد تكون البيانات الموجودة في هذه المصادر في مجموعةٍ متنوعة من الأشكال المختلفة، أي قاعدة بيانات بشكلٍ أو آخر بصفة عامة مثل: قواعد البيانات الارتباطية أو قواعد البيانات غير الارتباطية أو هادوب. وجميع البيانات المتاحة في هذه القواعد المتنوعة ومصادر البيانات بحاجةٍ إلى دمجها وتنظيفها وتحويلها وتطبيعها، وهلمَّ جرًّا. ولهذه المهام أسماء كثيرة، مثل: «الاستخراج والتحويل والتحميل»، و«جمع البيانات»، و«تنقيح البيانات»، و«دمج البيانات»، وغيرها. وعلى غرار بيانات المصدر، البيانات المولَّدة من أنشطة علم البيانات بحاجة أيضًا إلى أن يتمَّ تخزينها وإدارتها. فقاعدة البيانات عبارة عن موقع التخزين النموذجي للبيانات المولَّدة بواسطة هذه الأنشطة لكي نتمكَّن من توزيعها بسهولةٍ ومشاركتها مع مختلف أقسام المؤسسة. ونتيجة لذلك، علماء البيانات بحاجةٍ إلى التحلِّي بالمهارات اللازمة للتفاعُل مع البيانات ومعالجتها ببراعةٍ في قواعد البيانات.

تُتيح مجموعة من مهارات علوم الكمبيوتر وأدواته لعلماء البيانات التعامل مع البيانات الضخمة ومعالجتها لتصير معلوماتٍ جديدة وذات مغزًى. وتشمل «الحوسبة العالية الأداء» حشد القدرة الحوسبية لتقديم أداءٍ أعلى مما كان مِن الممكن أن يحصل المرء عليه من جهاز كمبيوتر واحد مُستقل. الكثير من مشروعات علم البيانات تتعامل مع مجموعةٍ كبيرة جدًّا من البيانات وخوارزميات تعلُّم الآلة الباهظة التكلفة حوسبيًّا. وفي هذه المواقف، من المهم التحلِّي بالمهارات اللازمة للوصول إلى مصادر الحوسبة العالية الأداء واستخدامها. بخلاف الحوسبة العالية الأداء، لقد ذكرنا بالفعل أن علماء البيانات بحاجةٍ إلى التحلِّي بالقدرة على استخراج البيانات من مواقع الويب وتنظيفها ودمجها وكذلك التعامل مع النصوص والصور غير الهيكلية ومعالجتها. وبالإضافة إلى ذلك، قد ينتهي المطاف أيضًا بعالِم البيانات إلى إنشاء تطبيقاتٍ داخلية لأداء مهمةٍ مُعينة أو تعديل تطبيقٍ موجود بالفعل لمواءمتِهِ مع البيانات والمجال الخاضع للمعالجة. وأخيرًا، يحتاج عالِم البيانات لمهارات علوم الكمبيوتر لكي يتمكن من فهم نماذج تعلُّم الآلة وتطويرها ودمجها في تطبيقات الإنتاجية أو التطبيقات التحليلية أو التطبيقات الخلفية في إحدى المؤسسات.

إن تمثيل البيانات في صورة رسومية يجعل من الأسهل كثيرًا رؤية وفهم ما يحدُث لهذه البيانات. وينطبق التمثيل المرئي للبيانات على جميع مراحل عملية علم البيانات. فعند مراجعة البيانات في شكل جدول، يكون من السهل إغفال أشياء مثل القِيَم الشاذة أو أنماط التوزيع أو التغيرات الطفيفة التي تطرأ على البيانات بمرور الوقت. أما حين تتُمثَّل البيانات بالصورة البيانية الصحيحة، فسوف تظهر هذه الجوانب من البيانات بوضوح. ويُعَد التمثيل المرئي للبيانات مجالًا مُهمًّا ومُتناميًا، ونرشح هنا كتابَين باعتبارهما تقديمًا ممتازًا لمبادئ وتقنيات التمثيل المرئي الفعَّال للبيانات؛ وهما: كتاب «العرض المرئي للمعلومات الكميَّة» تأليف إدوارد توفت (٢٠٠١) وكتاب «أَرِني الأرقام: توضيح تصميم الجداول والرسوم البيانية» تأليف ستيفن فيو (٢٠١٢).

تُستخدم أساليب الإحصاء والاحتمالات في جميع مراحل العملية الخاصة بعلم البيانات، بداية من تجميع البيانات والتحقُّق منها وصولًا إلى مقارنة نتائج النماذج والتحليلات المختلفة الصادرة أثناء المشروع. وينطوي تعلُّم الآلة على استخدام مجموعةٍ متنوعة من التقنيات الإحصائية والحوسبية المتقدمة لمعالجة البيانات بهدف إيجاد الأنماط. ولا يتعيَّن على عالِم البيانات الذي يُشارك في الجوانب التطبيقية لتعلُّم الآلة أن يُنشئ نُسَخه الخاصة من خوارزميات تعلُّم الآلة. فمن خلال فهم خوارزميات تعلُّم الآلة، وفيما يمكن استخدامها، وما تعنيه النتائج التي تولِّدها وما نوعية البيانات التي يمكن تشغيل خوارزميات مُعينة عليها، يستطيع عالِم البيانات أن يستفيد من خوارزميات تعلُّم الآلة حتى وإن كان لا يعرف التفاصيل الدقيقة لما تفعله الخوارزمية. وهذا يُتيح له التركيز على الجوانب التطبيقية لعلم البيانات وتجربة خوارزميات تعلُّم الآلة المتنوعة لمعرفة أيها يتناسب أكثر مع السيناريو الذي يتعامل معه والبيانات التي لديه.

أخيرًا، أحد الجوانب الرئيسية لنجاح عالِم البيانات هو التحلِّي بالقُدرة على توصيل نتائج مشروع علم البيانات. وقد توضح هذه النتائج الرؤية التي كشف عنها تحليل البيانات أو توضح مدى ملاءمة النماذج المنشأة أثناء المشروع لعمليات المؤسسة وتأثيرها المتوقَّع على آلية عمل المؤسسة. فلا جدوى من تنفيذ مشروع علم بيانات فذٍّ ما لم تُستخدَم المخرَجات منه وتوصَّل النتائج بطريقةٍ يمكن أن يفهمها الزملاء الذين لا يتمتَّعون بخلفيةٍ تقنية ويثقون بها.

أين يُستخدم علم البيانات؟

يقود علم البيانات اتخاذ القرارات في كافة جوانب المجتمعات الحديثة تقريبًا. في هذا القسم، تَصِف ثلاثُ دراساتٍ حالةً تُوضح تأثير علم البيانات؛ ألا وهي: شركات السلع الاستهلاكية التي تستخدم علم البيانات من أجل المبيعات والتسويق؛ الحكومات التي تستخدم علم البيانات لتحسين الخدمات الصحية وأنظمة العدالة الجنائية والتخطيط العمراني؛ والرياضات الاحترافية التي تستخدم علم البيانات في استقطاب اللاعبين.

علم البيانات في مجال المبيعات والتسويق

تتمتع شركة وول مارت بإمكانية الوصول إلى مجموعات بياناتٍ كبيرة حول تفضيلات العملاء من خلال أنظمة نقاط البيع، وتتبُّع سلوك العميل على موقعها الإلكتروني، ومتابعة التعليقات حول الشركة ومنتجاتها على وسائل التواصل الاجتماعي. وعلى مدار أكثر من عقد، استخدمت شركة وول مارت علم البيانات لرفع مستويات المخزون في المتاجر، وثمة مِثال شهير على ذلك عندما أعادت تزويد مخزون فطائر بوب تارتس بنكهة الفراولة في المتاجر من جديدٍ قبل وقوع إعصار فرانسيس في عام ٢٠٠٤ بناءً على تحليل بيانات المبيعات السابقة لإعصار تشارلي الذي وقع قبل بضعة أسابيع. ولقد استخدمت شركة وول مارت، في الآونة الأخيرة، علم البيانات لتشجيع إيراداتها من البيع بالتجزئة فيما يخصُّ تقديم منتجاتٍ جديدة بناء على تحليل الاتجاهات الرائجة على مواقع التواصل الاجتماعي وتحليل أنشطة بطاقات الائتمان لتقديم توصياتٍ ومقترحات بشأن المنتجات للعملاء وتحسين تجربة العملاء عبر الموقع الإلكتروني لشركة وول مارت وإضفاء الطابع الشخصي عليها. وتعزو شركة وول مارت زيادةً يتراوح قدرُها بين ١٠ و١٥ بالمائة من المبيعات الإلكترونية إلى التحسينات الناجمة عن استخدام علم البيانات (DeZyre 2015).

المرادف لبيع المنتجات الأفضل وبيع منتجات إضافية داخل عالم الإنترنت هو «نظام التوصيات والمقترحات». إذا كنتَ قد شاهدتَ فيلمًا على منصَّة نتفليكس أو اشتريتَ منتجًا على موقع أمازون، فستعرف أن هذه المواقع الإلكترونية تستخدِم البيانات التي يجمعونها ليقدموا لك اقتراحاتٍ بخصوص ما ينبغي لك أن تُشاهده أو تشتريه في المرة التالية. ويمكن أن تُصمَّم هذه الأنظمة لترشدك بطرقٍ مختلفة: بعضها يُرشدك نحوَ الأكثر رواجًا والأفضل مبيعًا؛ بينما يُرشدك البعض الآخر نحو منتجاتٍ مُتخصصة تناسِب ذوقك على وجه الخصوص. يذكر كتاب كريس أندرسون بعنوان «الذيل الطويل» (٢٠٠٨) أنه نظرًا إلى أن الإنتاج والتوزيع صارا أقلَّ تكلفة، تحولت الأسواق من بيع كمياتٍ كبيرة من عددٍ قليل من المنتجات الرائجة إلى بيع كمياتٍ صغيرة من عددٍ أكبر من المنتجات المتخصِّصة. تُعد هذه المبادلة بين تشجيع مبيعات المنتجات الرائجة أم المنتجات المتخصِّصة قرارًا أساسيًّا لتصميم نظام التوصيات والمقترحات وتؤثر على خوارزميات علم البيانات المستخدَمة لتطبيق هذه الأنظمة.

استخدام علم البيانات من قبل الحكومات

لقد أدركت الحكومات مميزات الاستفادة من علم البيانات في السنوات الأخيرة. ففي عام ٢٠١٥، مثلًا، ابتكرت الحكومة الأمريكية منصبَ كبير علماء البيانات في الولايات المتحدة لأول مرةٍ وعيَّنت فيه دكتور دي جيه باتيل. وكانت إحدى كبرى المبادرات التي قادتها الحكومة الأمريكية في علم البيانات من نصيب مجال الصحة. ويأتي علم البيانات في صميم المشروع الطموح لأبحاث علاج السرطان «كانسر مونشوت»⁴ ومبادرة الطب الدقيق «بريسشين ميدسين». تجمع مبادرة «بريسشين ميدسين» ما بين تسلسُل الجينوم البشري وعلم البيانات بهدف تصميم أدويةٍ خاصة لكل مريضٍ حسب حالته. ويُعد برنامج «أوول أوف أس» (مبادرة كُلُّنا) جزءًا من هذه المبادرة،⁵ ويجمع بياناتٍ بيئية وحياتية وبيولوجية من أكثر من مليون شخصٍ متطوع وذلك بهدف تصميم أكبر مجموعة بياناتٍ للطب الدقيق على مستوى العالم. يُحدِث علم البيانات ثورةً في طريقة تنظيم مُدننا؛ إذ إنه يُستخدم لمتابعة أنظمة البيئة والطاقة والنقل وتحليلها والتحكُّم فيها والاسترشاد بها في التخطيط العمراني على المدى الطويل (Kitchin 2014a). وسنعود إلى موضوع الصحة والمدن الذكية في الفصل السابع عند مناقشتنا للكيفية التي ستتزايد بها أهمية علم البيانات في حياتنا خلال العقود القادمة.

وتركز «مبادرة بيانات الشرطة»⁶ من جانب الحكومة الأمريكية على الاستعانة بعلم البيانات بهدف مساعدة أقسام الشرطة على استيعاب احتياجات مجتمعاتها المحلية. كما أن علم البيانات يُستخدم في التنبؤ بالبؤر الإجرامية واحتمالية العودة إلى الإجرام. ومع ذلك، انتقدت الجماعات الداعية للحُرية المدنية بعضًا من استخدامات علم البيانات في مجال العدالة الجنائية. وفي الفصل السادس، سنُناقش مسائلَ أثارَها علمُ البيانات متعلقة بالخصوصية والأخلاقيات، وأحد العوامل المثيرة للاهتمام في هذه المناقشة هو أن آراء الناس فيما يتعلق بالخصوصية الشخصية وعلم البيانات تختلف من مجالٍ لآخر. ولدى الكثير من الناس المرحِّبين باستخدام بياناتهم الشخصية في الأبحاث الطبية الممولة من القطاع العام آراء مختلفة جدًّا عندما يتعلق الأمر باستخدام بياناتهم الشخصية في حفظ النظام والعدالة الجنائية. وفي الفصل السادس، سنُناقش أيضًا استخدام البيانات الشخصية وعلم البيانات في تحديد أقساط التأمين فيما يخصُّ الحياة والصحة والسيارة والمنزل والسفر.

استخدام علم البيانات في الرياضات الاحترافية

يعرض فيلم «كرة المال» (ماني بول) (إخراج بينيت ميلر، ٢٠١١)، بطولة النجم براد بيت، الاستخدام المتزايد لعلم البيانات في مجال الرياضات الحديثة. ويحكي الفيلم المستوحى من كتابٍ يحمل العنوان نفسه (Lewis 2004) القصة الحقيقية لكيف استخدم فريق البيسبول أوكلاند أثلتيكس علم البيانات لتحسين استراتيجية استقطاب اللاعبين الجدد. أثبتت إدارة الفريق أن إحصاءات نسبة وصول اللاعب إلى القاعدة وتسديده لضربة القاعدة الإضافية أكثر إفادةً من مؤشرات الإحصاء التقليدية المعتمدة في لعبة البيسبول، مثل متوسط ضرب الكرة، للاستدلال على نجاح استراتيجية الهجوم. مكَّنت هذه الفكرة التبصُّرية فريق أوكلاند أثلتيكس من ضم قائمةٍ من اللاعبين الجدد المبخوسة قيمتُهم الحقيقية مع الالتزام بحدود ميزانية الفريق. لقد أحدث نجاح فريق أوكلاند أثلتيكس، مُستعينًا بعلم البيانات، ثورةً في رياضة البيسبول؛ حيث إن معظم فرق البيسبول الأخرى تدمج الآن استراتيجيات مُشابهة تستعين بعلم البيانات في عمليات ضمِّ اللاعبين الجُدد إليها.

تُعَد قصة فيلم «كرة المال» مثالًا واضحًا جدًّا على كيف يمكن لعلم البيانات أن يمنح مؤسسةً ما ميزة تنافسية في السوق التنافسي. ومع ذلك، ربما يكون أهم جانبٍ في قصة «كرة المال» من منظور علم البيانات المحض هو أنها تُسلط الضوء على أن القيمة الأساسية الخاصة لهذا العلم تتمثل أحيانًا في تحديد السمات الثرية بالمعلومات المفيدة. وثمة اعتقاد شائع مفاده أن قيمة علم البيانات تكمُن في النماذج التي تُنشأ أثناء العملية. ومع ذلك، بمجرد أن نعرف السمات المهمة في مجالٍ ما، فمن السهل جدًّا إنشاء نماذج مُستوحاة من البيانات. ومفتاح النجاح هنا هو الحصول على البيانات المناسبة وإيجاد السمات المناسبة. في كتاب «الاقتصاد العجيب: اقتصادي مارق يبحث في الجانب الخفي من كل شيء»، يوضح ستيفن دي ليفيت وستيفن دوبنر أهمية هذه الملاحظة عبر طائفة كبيرة من المشاكل. كما أوضحا، مفتاح فهم الحياة الحديثة هو «معرفة ما يجب قياسه وكيفية قياسه» (٢٠٠٩، ١٤). ومن خلال الاستعانة بعلم البيانات، يُمكننا كشف النقاب عن الأنماط المهمَّة في مجموعة بيانات، ويمكن أن تكشف هذه الأنماط السِّمات المهمة في المجال. والسبب وراء استخدام علم البيانات في الكثير من المجالات هو أنه بغضِّ النظر عن المجال محل الدراسة إذا كانت البيانات المناسبة متاحة، فإنه يمكن تحديد المشكلة بكلِّ وضوح، وبالتالي يمكن لعلم البيانات أن يُساعدنا في حلِّها.

مفتاح النجاح هنا هو الحصول على البيانات المناسبة وإيجاد السمات المناسبة.

لِمَ الآن؟

لقد أسهم عدد من العوامل في نموِّ علم البيانات مؤخرًا. وكما سبق أن ذكرنا بالفعل، كان ظهور البيانات الضخمة مدفوعًا بالسهولة النسبية التي يمكن للمؤسَّسات أن تجمع بها البيانات. تستطيع الشركات في الوقت الراهن إعداد ملفات تعريف أكثر ثراءً خاصة بالعملاء الأفراد؛ هذا من خلال سجلِّ معاملات نقاط البيع، أو عدد النقرات على المنصات الإلكترونية، أو منشورات وسائل التواصل الاجتماعي، أو التطبيقات على الهواتف الذكية، أو غيرها من القنوات التي لا تُعَد ولا تُحصى. وهناك عامل آخر وهو تحويل مخزون البيانات إلى سلعةٍ تنطبق عليها وفورات الحجم، مما يجعل تخزين البيانات أقلَّ تكلفةً من ذي قبل. كما أن هناك نموًّا هائلًا في القدرة الحاسوبية. إذ تطورت بطاقات الرسومات ووحدات معالجة الرسومات بالأساس لنقل الرسومات بسرعةٍ من أجل ألعاب الكمبيوتر. والسِّمة المميزة لوحدات معالجة الرسومات أنه يُمكنها تنفيذ عمليات ضرب المصفوفات بسرعة. غير أن هذه العمليات ليست مفيدةً من أجل نقل الرسومات وحسب وإنما مفيدة أيضًا من أجل تعلُّم الآلة. وفي السنوات الأخيرة، استُغِلت هذه الوحدات وحُسِّنت بهدف استخدامها في تعلُّم الآلة، الأمر الذي ساهم في زيادة سرعة معالجة البيانات وتدريب النماذج. لقد صارت أدوات علم البيانات السهلة الاستخدام متاحة وذُلِّلت عقبات الدخول إلى علم البيانات. تعني هذه التطورات مجتمعةً أن جمع البيانات وتخزينها ومعالجتها صار أسهلَ من ذي قبل.

كانت هناك تطورات كبيرة في مجال تعلُّم الآلة في السنوات العشر الأخيرة. لقد ظهر التعلُّم العميق، على وجه الخصوص، وأحدث ثورةً في الطريقة التي يمكن أن تُعالِج بها أجهزة الكمبيوتر اللغة وبيانات الصور. ويصف مصطلح «التعلُّم العميق» فئةً من نماذج الشبكات العصبية ذات الطبقات المتعددة من الوحدات داخل الشبكة. كانت الشبكات العصبية موجودةً منذ أربعينيات القرن العشرين؛ إلا أنها تعمل بشكلٍ أفضل مع مجموعات البيانات الكبيرة والمعقدة وتستلزم وجود عددٍ كبير من الموارد الحوسبية لتدريبها. لذا، فإن ظهور التعلُّم العميق مرتبط بزيادة البيانات الضخمة والقدرة الحوسبية. وليس على سبيل المبالغة وصف تأثير التعلُّم العميق عبر مجموعةٍ من المجالات بأنه تأثير استثنائي للغاية.

ويُعَد برنامج «ألفا جو»⁷ الخاص بشركة ديب مايند مثالًا ممتازًا على كيف غيَّر التعلُّم العميق أحد مجالات البحث العلمي تغييرًا جذريًّا. ولعبة «جو» هي لعبة لَوحية ابتُكرت في الصين قبل ثلاثة آلاف سنة. وقواعد لعبة «جو» أسهل من قواعد لعبة الشطرنج؛ إذ يأخذ اللاعبون دورهم في وضع القِطع على اللوحة إما بهدف احتجاز قطع الخَصم أو محاصرة المنطقة الخاوية. ومع ذلك، فإن بساطة القواعد وحقيقة أن لعبة «جو» تستخدِم لوحةً أكبر حجمًا يعني أنه يوجد الكثير من الترتيبات المحتملة للقِطع على لوحة اللعب أكثر من لعبة الشطرنج. في الواقع، الترتيبات المحتملة لقطع لعبة «جو» أكثر من عدد الذرات الموجودة في الكون. هذا يجعل لعبة «جو» أصعب كثيرًا من الشطرنج بالنسبة لأجهزة الكمبيوتر نظرًا إلى أنه تُوجَد مساحة أكبر كثيرًا للبحث فيها وصعوبة تقييم كل ترتيبٍ من هذه الترتيبات المحتملة للقِطع. استعان فريق شركة ديب مايند بنماذج التعلُّم العميق لتمكين برنامج «ألفا جو» من تقييم ترتيبات القطع المحتملة واختيار النقلة التالية في اللعبة. كانت النتيجة أن برنامج «ألفا جو» صار أول برنامج كمبيوتر يهزم لاعبًا محترفًا في لعبة «جو»، حيث إنه في مارس عام ٢٠١٦ هزم البرنامج ليد سيدول، الحائز على لقب بطل العالم في لعبة «جو» ثمانية عشرة مرة، في مباراةٍ شاهدها ٢٠٠ مليون شخص حول العالم. ومن أجل تقدير تأثير التعلُّم العميق على لعبة «جو» تقديرًا سليمًا، يجدُر بنا أن نذكُر أنه في عام ٢٠٠٩ جاء ترتيب أفضل برنامج «جو» في العالم في مرتبةٍ أقلَّ من لاعبٍ هاوٍ متقدم المستوى؛ ولكن بعد مرور سبع سنواتٍ هزم برنامج «ألفا جو» بطل العالم في اللعبة. وفي عام ٢٠١٦، نُشر مقال يصِف خوارزميات التعلُّم العميق المستخدمة في برنامج «ألفا جو» في أكثر مجلة علمية مرموقة على مستوى العالم، مجلة «نيتشر» (Silver, Huang, Maddison, et al. 2016).

كان للتعلُّم العميق أيضًا تأثير كبير على مجموعةٍ من التقنيات المتقدمة التي نستخدِمها يوميًّا. في الوقت الحالي، يستعين موقع فيسبوك بالتعلُّم العميق للتعرُّف على الوجوه وتحليل النصوص لعرض الإعلانات مباشرة على الأشخاص بناءً على محادثاتهم عبر الإنترنت. ويستعين كلٌّ من موقع جوجل وبايدو بالتعلُّم العميق من أجل التعرُّف على الصور والتعليقات عليها والبحث والترجمة الآلية. ويستعين المساعد الافتراضي «سيري» من ابتكار شركة أبل، و«ألكسا» من ابتكار شركة أمازون، و«كورتانا» من ابتكار شركة مايكروسوفت، و«بيكسبي» من ابتكار شركة سامسونج بخاصية التعرُّف على الصوت القائمة على التعلُّم العميق. وحاليًّا تُطور شركة هواوي مساعدًا افتراضيًّا من أجل السوق الصينية، وسيَستخدِم أيضًا التعلُّم العميق في التعرُّف على الصوت. وسوف نتناول في الفصل الرابع الشبكات العصبية والتعلُّم العميق بمزيدٍ من التفاصيل. وعلى الرغم من أن التعلُّم العميق يُعَد تطورًا تقنيًّا مُهمًّا، ربما أهم ما فيه فيما يخصُّ نمو علم البيانات هو الوعي المتزايد بقدرات هذا العلم ومميزاته واعتماد المؤسسات عليه بشكلٍ كبير والذي أسفر عن قصص نجاحها الرفيعة المستوى.

خرافات حول علم البيانات

لعلم البيانات فوائد كثيرة بالنسبة إلى المؤسسات الحديثة؛ إلا أن هناك قدرًا كبيرًا من المبالغة حوله، ولذا يجب أن نفهم ما هي حدوده. واحدة من أكبر الخُرافات هي الاعتقاد بأن علم البيانات ينطوي على عمليةٍ مُستقلة يمكننا أن نمنحها مطلق الحرية على بياناتنا بهدف العثور على حلولٍ لمشكلاتنا. ولكن في الواقع، يستلزم علم البيانات إشرافًا بارعًا من جانب البشَر عبر مختلف مراحل العملية. ويجب على المحللين وضع إطار للمشكلة، وتصميم البيانات وتجهيزها، وتحديد أيٍّ من خوارزميات تعلُّم الآلة هي الأنسب، وتفسير نتائج التحليل تفسيرًا نقديًّا؛ والتخطيط للإجراء المناسب الذي يجب اتخاذه بناءً على الرؤية (الرؤى) التي كشف عنها التحليل. ومن دون الإشراف البارع من جانب البشر، ستُخفق مشروعات علم البيانات في تحقيق أهدافها. وتأتي أفضل النتائج الخاصة بعلم البيانات عندما تتضافر الخبرة البشرية والقدرة الحاسوبية معًا، كما يقول جوردون لينوف ومايكل بيري: «التنقيب في البيانات يُتيح لأجهزة الكمبيوتر إنجاز ما تُنجزه على أفضل وجه؛ ألا وهو التنقيب عبر بياناتٍ كثيرة. وهذا بدوره يُتيح للبشر إنجاز ما ينجزونه على أفضل وجه؛ ألا وهو تحديد المشكلة وفهم النتائج» (٢٠١١، ٣).

يعني انتشار علم البيانات واستخدامه المتزايد أن أكبر تحدٍّ أمام مؤسسات كثيرة فيما يخص هذا العلم يتمثل حاليًّا في تحديد الأشخاص المؤهَّلِين كمُحللين وتوظيفهم. فالموهبة البشرية في مجال علم البيانات مطلوبة بشدة نظرًا إلى قيمتها، والعثور على مثل هذه المواهب هو المأزق الرئيسي لتحقيق الاستفادة من علم البيانات. ولكي نضع هذا النقص في الموهبة في سياقِه الصحيح، في عام ٢٠١١ توقَّع تقرير معهد ماكينزي العالمي نقصًا في الولايات المتحدة يتراوح بين ١٤٠ ألفًا و١٩٠ ألف شخصٍ يتمتَّعون بمهارات علم البيانات والمهارات التحليلية، ونقصًا أكبر يبلُغ ١٫٥ مليون مدير قادر على فَهم علم البيانات والعمليات التحليلية بمستوًى سيُمكنهم من الاستعلام عن نتائج علم البيانات وتفسيرها على النحو الصحيح (Manyika, Chui, Brown, et al. 2011). وبعد مرور خمس سنوات، وفي تقريره الصادر عام ٢٠١٦، ظل المعهد مقتنعًا بأن علم البيانات يتمتع بإمكانياتٍ هائلة وقيمةٍ غير مُستغلَّة عبر نطاقٍ واسع من التطبيقات؛ غير أن نقص الموهبة سيظل قائمًا، مع وجود عجزٍ مُتوقَّع يُقدَّر بنحو ٢٥٠ ألف عالِم بيانات على المدى القريب (Henke, Bug-hin, Chui, et al. 2016).

يتمثَّل ثاني أكبر الخُرافات حول علم البيانات في أن كل مشروع قائم على علم البيانات بحاجةٍ إلى بيانات ضخمة وبحاجة إلى استخدام التعلُّم العميق. وبوجهٍ عام، من المفيد توفير المزيد من البيانات؛ غير أن توفير البيانات «المناسبة» هو الشرط الأهم. وكثيرًا ما تُنفَّذ مشروعات علم البيانات في المؤسسات التي تتوافر لديها موارد أقل كثيرًا من شركة جوجل أو بايدو أو مايكروسوفت على صعيد البيانات والقدرة الحوسبية. وتشمل الأمثلة على نطاق مشروعات علم البيانات الأصغر حجمًا التنبُّؤ بالمطالبات في شركة تأمين تستقبل نحو ١٠٠ مطالبة في الشهر؛ والتنبؤ بنسبةِ تسرُّب الطلاب من جامعة بها أقل من ١٠ آلاف طالب؛ وتوقُّع تسرُّب أعضاء اتحادٍ قِوامه عدة آلاف من الأعضاء. ومن ثم، ليست المؤسسة في حاجة لأن تُعالج تيرابايت من البيانات أو تمتلك موارد حوسبية هائلة تحت تصرُّفها لكي تستفيد من علم البيانات.

وثالث خرافة حول علم البيانات هي أن برامج علم البيانات الحديثة يسهل استخدامها، وبالتالي تسهل ممارسة عمليات علم البيانات. صحيح أن برامج علم البيانات صارت أسهل في استخدامها. إلا أن سهولة الاستخدام هذه قد تُخفي وراءها حقيقة أن القيام بالعمليات الخاصة بعلم البيانات على النحو الصحيح يتطلَّب معرفةً صحيحة بالمجال وخبرةً فيما يتعلق بخصائص البيانات والافتراضات التي تقوم عليها خوارزميات تعلُّم الآلة المختلفة. في الواقع، من السهل القيام بالعمليات الخاصة بعلم البيانات على نحوٍ سيئ أكثر من أي وقتٍ مضى. وكما هو الحال مع أي شيءٍ آخر في الحياة، إذا كنت لا تفهم ما تفعله أثناء القيام بالعمليات الخاصة بعلم البيانات، فإنك سترتكب أخطاءً. تكمن خطورة التعامل مع علم البيانات في أن التكنولوجيا قد تجعل البشر يتهيَّبون وبالتالي يُصدقون أي نتائج تُقدمها لهم البرامج. ومع ذلك، فإنهم قد يُخطئون في تحديد المشكلة بغير قصدٍ منهم، أو يُدخلون بيانات خاطئة، أو يستخدمون تقنيات تحليلٍ ذات افتراضات غير مناسبة. وبالتالي، من المرجَّح أن تكون النتائج التي تُقدمها البرامج إجابةً للسؤال الخطأ أو تستند إلى بياناتٍ خاطئة أو نتيجة عمليات حسابية خاطئة.

والخرافة الأخيرة حول علم البيانات التي نودُّ أن نذكُرها هنا هي الاعتقاد بأن علم البيانات يُغطي تكلفته سريعًا. وحقيقة هذا الاعتقاد مُتوقفة على سياق العمل في المؤسسة. قد تستلزِم الاستفادة من علم البيانات استثمارًا كبيرًا فيما يخصُّ تطوير البِنية التحتية للبيانات وتعيين موظفين لديهم خبرة في مجال علم البيانات. علاوة على ذلك، لن يُحقق علم البيانات نتائج إيجابية مع كل مشروع. أحيانًا، لا تُوجَد أية معلومات قيِّمة يمكن العثور عليها في البيانات، وأحيانًا أخرى لا تكون الشركة في موضعٍ يُتيح لها التصرف بناء على المعلومات القيمة التي كشف عنها التحليل. ومع ذلك، ففي السياقات التي يُوجَد فيها مشكلة تجارية مفهومة جيدًا وتُتاح فيها البيانات المناسبة وتتوفر فيها الخبرات البشرية، كثيرًا ما يوفر علم البيانات الرؤى المستنيرة القابلة للتنفيذ والتي توفر للمؤسسة الميزة التنافسية التي تحتاج إليها لتحقيق النجاح.