ما علمُ البيانات؟
ينطوي علم البيانات على مجموعةٍ من المبادئ وتعريفات المشكلات والخوارزميات والعمليات التي تهدف لاستخراج الأنماط غير الواضحة والمفيدة من مجموعات البيانات الكبيرة. لقد تطورت الكثير من عناصر علم البيانات في مجالاتٍ ذات صلة مثل تعلُّم الآلة والتنقيب في البيانات. وواقع الأمر أن مصطلحات مثل: «علم البيانات» و«تعلُّم الآلة» و«التنقيب في البيانات» كثيرًا ما تُستخدَم بالتبادل بعضها مع بعض. والقاسم المشترك عبر كلِّ هذه التخصُّصات هو التركيز على تحسين عملية اتخاذ القرار عن طريق تحليل البيانات. وعلى الرغم من أن علم البيانات يستفيد من هذين المجالَين الآخرين، فهو أوسع نطاقًا منهما. إذ يركز «تعلُّم الآلة» على تصميم الخوارزميات وتقييمها من أجل استخلاص الأنماط من البيانات المتاحة. ويتعامل «التنقيب في البيانات» بوجهٍ عامٍّ مع تحليل البيانات الهيكلية وكثيرًا ما ينطوي على التركيز على التطبيقات التجارية. أما علمُ البيانات فهو يضع كلَّ هذه الاعتبارات في الحسبان؛ ولكنه يخوض أيضًا تحدِّيات أخرى، مثل استخلاص البيانات غير الهيكلية من وسائل التواصل الاجتماعي والويب وتنقيتها ونقلها؛ واستخدام تقنيات البيانات الضخمة لتخزين مجموعات البيانات الضخمة غير الهيكلية ومعالجتها؛ هذا بالإضافة إلى المسائل المتعلقة بأخلاقيات التعامل مع البيانات واللوائح التنظيمية الخاصة بها.
ومن خلال الاستعانة بعلم البيانات، يُمكننا استخلاص أنواعٍ مختلفة من الأنماط. ربما نرغب، مثلًا، في استخلاص الأنماط التي تساعدنا في تحديد مجموعات العملاء الذين يُظهِرون سلوكياتٍ مماثلةً وأذواقًا مُتشابهة. وبالاستعانة بالمصطلحات التجارية، تُعرَف هذه المهمة ﺑ «تجزئة العملاء»، أما إذا استعنَّا بمصطلحات علم البيانات، فإنها تُسمَّى «التجميع». وعوضًا عن ذلك، ربما نرغب في استخلاص نمطٍ يُحدد منتجات يتكرَّر شراؤها معًا، وهي عملية يُطلق عليها «التنقيب عن قواعد الارتباط». أو ربما نرغب في استخلاص أنماط تُحدد الأحداث الغريبة أو الشاذة، مثل مطالبات التأمين المزورة، وهي عملية تُعرف باسم «اكتشاف الشذوذ» أو «اكتشاف القِيَم الشاذة». وأخيرًا، ربما نرغب في تحديد الأنماط التي تُساعدنا على تصنيف الأشياء. على سبيل المثال، القاعدة التالية توضِّح ما قد يبدو عليه نمط التصنيف المستخلَص من مجموعة بيانات البريد الإلكتروني: «إذا اشتملت رسالة البريد الإلكتروني على عبارة «اكسب المال بسهولة»، فمن المرجح أن تكون هذه الرسالة رسالة بريد عشوائي.» والتعرف على هذه الأنواع من قواعد التصنيف يُعرف باسم «التنبؤ». وربما تبدو كلمة «تنبؤ» اختيارًا غريبًا لأن القاعدة لا تتنبأ بما سيحدُث في المستقبل: فرسالة البريد الإلكتروني إما أن تكون عشوائية أو غير عشوائية. ولذا، فمن الأفضل التفكير في أنماط التنبُّؤ على أنها تتنبَّأ بالقيمة المجهولة لسِمةٍ مُعينة بدلًا من أن نظن أنها تتنبأ بالمستقبل. في هذا المثال، نحن نتنبأ بما إذا كانت سمةُ تصنيف البريد الإلكتروني ينبغي أن تأخذ قيمة «بريد عشوائي» أم لا.
إذا كان بإمكان أحد الخبراء أن يبتكِر نمطًا في ذهنه بسهولة، فإن هذا النمط عمومًا لا يستحقُّ الوقت والجهد اللازمَين لاستخدام علم البيانات من أجل «اكتشافه».
على الرغم من أنه بإمكاننا الاستعانة بعلم البيانات لاستخلاص شتَّى أنواع الأنماط، فإننا نرغب دومًا أن تكون هذه الأنماط غير واضحة ومفيدة على حدٍّ سواء. والمثال الذي ذكرناه في الفقرة السابقة عن قاعدة تصنيف رسائل البريد الإلكتروني هو مثالٌ بسيط وواضح جدًّا إلى حدِّ أنه لو كانت تلك هي القاعدة الوحيدة المستخلصة من العمليات الخاصة بعلم البيانات، لأُصِبنا بخيبة الأمل والإحباط. على سبيل المثال، تُراجِع هذه القاعدة الخاصة بتصنيف رسائل البريد الإلكتروني سمةً واحدةً فقط خاصة بالبريد الإلكتروني؛ ألا وهي: هل تحتوي الرسالة على عبارة «اكسب المال بسهولة»؟ إذا كان بإمكان أحد الخبراء أن يبتكِر نمطًا في ذهنه بسهولة، فإن هذا النمط عمومًا لا يستحقُّ الوقت والجهد اللازمَين لاستخدام علم البيانات من أجل «اكتشافه». فبصفةٍ عامة، يصير علم البيانات مفيدًا عندما يكون لدينا عدد كبير من أمثلة البيانات وعندما تكون الأنماط بالِغة التعقيد بحيث يعجز البشر عن اكتشافها واستخلاصها يدويًّا. وفيما يخصُّ الحد الأدنى، يُمكننا تحديد عددٍ كبير من أمثلة البيانات على نحوٍ يفوق قدرة الخبراء على التحقُّق منه بسهولة. أما فيما يخصُّ تعقيد الأنماط، فأُكرر أنه يمكن تحديدها في ضوء القدرات البشرية. فنحن — البشر — نُجيد بدرجة معقولة تحديد القواعد التي تتحقَّق من سِمةٍ أو سِمتَين أو ثلاثِ سمات (يُطلَق عليها في بعض الأحيان «خصائص» أو «متغيرات»)، ولكن عندما تزيد على ثلاث سمات، فقد تبدأ معاناتنا للتعامل مع التفاعلات فيما بينها. وعلى النقيض من ذلك، عادةً ما يُطبَّق علم البيانات في سياقاتٍ حيث نرغب في البحث عن أنماطٍ بين عشرات ومئات وآلاف السمات، بل وتصل إلى ملايين السمات في الحالات القصوى.
ولا تكون الأنماط التي نستنبطها باستخدام علم البيانات ذات فائدة إلا إذا وفَّرت لنا رؤيةً مستنيرة عن المشكلة بحيث تُمكننا من القيام بشيءٍ ما يُساعدنا في حل هذه المشكلة. وأحيانًا تُستخدَم عبارة «رؤية مستنيرة قابلة للتنفيذ» في هذا السياق لوصف ما نرغب أن تُوفره لنا الأنماط المستخرَجة. ويسلط مصطلح «رؤية مستنيرة» الضوء على النمط الذي ينبغي أن يُوفِّر معلومات ذات صلةٍ حول المشكلة غير الواضحة. ويُبرِز مصطلح «قابلة للتنفيذ» أن الرؤية المستنيرة التي نحصل عليها ينبغي أن تكون شيئًا نتمتع بالقدرة على استغلاله بشكلٍ أو بآخر. على سبيل المثال، تَخيَّل أننا نعمل لدى شركة هواتف محمولة تحاول حل مشكلة «تسرب العملاء»؛ أي انتقال عددٍ كبير جدًّا من العملاء إلى شركات أخرى. وإحدى الطرق التي ربما يستعان بها للتعامل مع هذه المشكلة هي استخراج أنماط من البيانات المتوفرة عن العملاء السابقين تُتيح لنا تحديد العملاء الحالِيِّين المعرضين لخطر تسرُّبهم؛ ثم التواصل مع هؤلاء العملاء ومحاولة إقناعهم بالاستمرار مع شركتنا. ولا يكون النمط الذي يُمكِّننا من تحديد العملاء المحتَمل تسرُّبهم ذا فائدة بالنسبة إلينا إلا (أ) إذا كانت الأنماط تُحدد العملاء في وقتٍ مُبكر بما يكفي بحيث يكون لدينا الوقت الكافي للتواصل معهم قبل خسارتهم (ب) وإذا كانت شركتنا قادرة على تعيين فريقٍ للتواصل معهم. وهاتان الخطوتان ضروريَّتان لكي تكون الشركة قادرة على التصرف بناءً على الرؤية المستنيرة التي تُمِدُّنا بها الأنماط.
تاريخ موجز لعلم البيانات
يعود تاريخ ظهور مصطلح «علم البيانات» إلى تسعينيات القرن الماضي. إلا أن المجالات التي يعوِّل عليها هذا العلم لها تاريخ أطول من ذلك بكثير. أحد الخيوط في هذا التاريخ الأطول هو تاريخ جمع البيانات؛ والآخر هو تاريخ تحليل البيانات. في هذا القسم، نتناول التطورات الرئيسية في هذَين الخطَّين ونصِف مدى تقاربهما من مجال علم البيانات والسبب وراء هذا التقارب. وبحكم الضرورة، يقدم هذا التناول مصطلحاتٍ جديدة أثناء وصفنا وذِكرنا للابتكارات التكنولوجية المهمة عند ظهورها. ونقدم شرحًا موجزًا لمعنى كلِّ مصطلح جديد؛ ونُعاود التطرق إلى الكثير من هذه المصطلحات في مواضع لاحقة من هذا الكتاب ونقدم تفسيرًا مفصلًا لها. سنبدأ بتاريخ جمع البيانات، ثم نستعرض تاريخ تحليل البيانات، وأخيرًا، سنتناول التطور المحرَز على صعيد علم البيانات.
تاريخ جمع البيانات
ربما يتمثل أقدم أساليب تسجيل البيانات في الثلمات المحفورة على العِصي بهدف تسجيل مرور الأيام أو الأعمدة المغروسة في الأرض لتسجيل مواقيت شروق الشمس عند حدوث الانقلاب الشمسي صيفًا وشتاءً. بيد أنه مع تطور الكتابة، زادت قدرتنا على تسجيل تجاربنا والأحداث في عالمنا من كمية البيانات التي نجمعها تزايدًا مهولًا. تطوَّر أقدم شكلٍ للكتابة في بلاد الرافدَين نحو عام ٣٢٠٠ قبل الميلاد واستُخدِم لحفظ السجلات التجارية. يلفت هذا النوع من حفظ السجلَّات الانتباه إلى ما يُعرف باسم «بيانات المعاملات التجارية». تشمل بيانات المعاملات التجارية معلوماتٍ عن حدثٍ ما مثل مبيعات خاصة بأحد الأصناف، وإصدار الفاتورة، وتسليم البضائع، والدفع ببطاقة الائتمان، والمطالبات التأمينية، وهلمَّ جرًّا. وتحظى «بيانات المعاملات غير التجارية» — مثل البيانات الديموغرافية — بتاريخٍ طويل أيضًا. إذ يرجع تاريخ أقدم إحصاء سُكاني معروف في مصر الفرعونية إلى نحو عام ٣٠٠٠ قبل الميلاد. كان السبب وراء بذْل الدول المبكرة جهدًا كبيرًا جدًّا وتسخير موارد كثيرة لعمليات جمع بيانات كبيرة هو أن هذه الدول كانت بحاجةٍ إلى زيادة الضرائب وحشد الجيوش، ممَّا يؤكد مقولة بنجامين فرانكلين الزاعمة بأن ثمة حقيقتَين فقط لا يختلف عليهما أحد في هذه الحياة؛ ألا وهما الموت والضرائب.
خلال المائة والخمسين عامًا الماضية، ساهم تطوير أجهزة الاستشعار الإلكترونية، ورقمنة البيانات، واختراع الكمبيوتر في زيادة كمية البيانات التي تُجمع وتُخزَّن زيادةً مهولةً. وكان عام ١٩٧٠ علامةً فارقة في جمع البيانات وتخزينها حين نشر «إدجار إف كود» بحثًا يشرح فيه «نموذج البيانات الارتباطية»، الذي كان في حدِّ ذاته نموذجًا ثوريًّا فيما يخصُّ تحديد كيفية تخزين البيانات (آنذاك) وفهرستها واستعادتها من قواعد البيانات. مكَّن نموذج البيانات الارتباطية المستخدِمين من استخراج البيانات من قاعدة البيانات باستخدام استعلاماتٍ بسيطة تُحدد البيانات التي يريدها المستخدِم دون إثارة القلق لدَيه حيال الهيكل الأساسي الخاص بالبيانات أو المكان الذي خُزِّنت فيه فعليًّا. وضع بحث «كود» حجر الأساس لقواعد البيانات الحديثة وتطوير «لغة الاستعلام الهيكلية» (إس كيو إل)، وهي معيار دولي لتحديد استعلامات قواعد البيانات. تخزن قواعد البيانات الارتباطية البيانات في جداول ببِنية تتكوَّن من صفٍّ واحد لكل مثيلٍ وعمودٍ واحد لكلِّ سمة. وهذه البِنية مثالية لتخزين البيانات لأنه من الممكن تفكيكها إلى سماتٍ بسيطة.
وتُعد قواعد البيانات هي التقنية البسيطة المستخدَمة لتخزين بيانات المعاملات التجارية أو البيانات «التشغيلية» الهيكلية (أي نوعية البيانات التي تُولِّدها العمليات التشغيلية اليومية الخاصة بمؤسسةٍ ما). ومع ذلك، نظرًا إلى أن الشركات صارت أكبر حجمًا وأكثر اعتمادًا على الأجهزة والآلات، زادت كمية البيانات التي تُنتجها الأقسام المختلفة في هذه الشركات ومدى تنوُّعها زيادة مهولة. وفي تسعينيات القرن العشرين، أدركت الشركات أنه على الرغم من أنها جمعت كمياتٍ هائلة من البيانات، فإنها واجهت صعوباتٍ مُتكررة حيال تحليل تلك البيانات. تَمثَّل جزء من المشكلة في أن البيانات كانت تُخزن عادةً في عددٍ كبير من قواعد البيانات المنفصلة بعضها عن بعض داخل الشركة الواحدة. وتمثلت صعوبة أخرى في أن قواعد البيانات كان يُحسَّن أداؤها من أجل تخزين البيانات واستعادتها، وهي الأنشطة التي تتميَّز بأعدادٍ كبيرة من العمليات البسيطة مثل «اختيار» و«إدراج» و«تحديث» و«حذف». ومن أجل تحليل بياناتها، كانت هذه الشركات بحاجةٍ إلى تقنية قادرة على تجميع البيانات والتوفيق بينها من قواعد بيانات مختلفة وهذا يَسَّر عمليات البيانات التحليلية الأكثر تعقيدًا. وقد أدى هذا التحدي إلى تطوير «مستودعات البيانات». في هذا المستودع، تُجمع البيانات من كل أقسام الشركة وتُدمج، وبالتالي تتيح للتحليل مجموعة بياناتٍ أكثر شمولًا.
وعلى مدار العقدَين الماضيَين، صارت أجهزتنا محمولةً ومتصلةً بالشبكات، ويقضي الكثيرون منَّا ساعاتٍ طويلة على شبكة الإنترنت كل يومٍ من خلال استخدام تقنيات التواصل الاجتماعي، وألعاب الكمبيوتر، والمنصَّات الإعلامية، ومحركات البحث عبر الإنترنت. وهذه التغيرات الطارئة على التكنولوجيا والطريقة التي نعيش بها لها تأثير كبير على كمية البيانات التي جُمعت. إذ تُقدر كمية البيانات التي جُمعت على مدار خمسة آلاف عامٍ منذ اختراع الكتابة وحتى عام ٢٠٠٣ بنحو ٥ إكسابايت. ومنذ عام ٢٠١٣، يُولِّد البشر هذه الكمية نفسها من البيانات «كل يوم» ويخزنونها. ومع ذلك، لم تكن كمية البيانات المجمَّعة وحدَها هي ما زاد زيادةً مهولة وإنما زاد تنوُّعها أيضًا. فقط تأمَّل في القائمة التالية من مصادر البيانات عبر الإنترنت: رسائل البريد الإلكتروني والمدوَّنات والصور والتغريدات والإعجاب بالمنشورات والمشاركات وعمليات البحث عبر الويب وتحميل الفيديوهات وعمليات الشراء عبر الإنترنت والبودكاست. وإذا وضعنا في الاعتبار بيانات التعريف (البيانات التي تصِف بِنية البيانات الأصلية وخصائصها) لهذه الأحداث، استطعنا فهْم معنى مصطلح «البيانات الضخمة». وعادةً ما تُعرَّف البيانات الضخمة في ضوء ثلاثة عناصر: «الحجم» الضخم للبيانات، و«تنوع» نوعيَّات البيانات، و«السرعة» التي يجب أن تُعالج بها البيانات.
لقد أدى ظهور البيانات الضخمة أيضًا إلى تطوير أُطرٍ جديدة لمعالجة البيانات. فعندما تتعامل مع كميات كبيرة من البيانات بسرعات عالية، قد يفيد — من المنظور الحوسبي ومن منظور السرعة — توزيع البيانات عبر وحدات خدمةٍ مُتعددة، ومعالجة الاستعلامات من خلال حساب النتائج الجزئية الخاصة بالاستعلام على كلِّ وحدة خدمة، ثم دمج هذه النتائج لتوليد الردِّ على هذا الاستعلام. وهذا هو النهج المتَّبع في إطار عمل «ماب رديوس» على منصة هادوب. وفي هذا الإطار، تُعيَّن البيانات والاستعلامات (أو تُوزَّع) عبر عدة وحدات خدمة، وتُحسَب النتائج الجزئية على كل وحدة خدمة، ثم تُختزل معًا (أو تُدمج معًا).
تاريخ تحليل البيانات
علم الإحصاء هو فرع من العلوم التي تتعامل مع جمع البيانات وتحليلها. ويشير مصطلح «الإحصاء» بالأساس إلى جمع بياناتٍ عن الدولة وتحليلها؛ مثل البيانات الديموغرافية أو البيانات الاقتصادية. إلا أنه مع مرور الوقت، توسَّعت نوعية البيانات التي يُستخدم فيها التحليل الإحصائي بحيث تُستخدم الإحصاءات اليوم لتحليل جميع أنواع البيانات. وأبسط شكلٍ للتحليل الإحصائي للبيانات هو تلخيص مجموعةٍ من البيانات على هيئة «إحصاءات موجزة (وصفية)» (من بينها مقاييس النزعة المركزية، مثل «الوسط الحسابي»، أو مقاييس التبايُن، مثل «المدى»). ومع ذلك، في القرنَين السابع عشر والثامن عشر، أرست أعمال أشخاصٍ مثل جيرولامو كاردانو، وبليز باسكال، وياكوب برنولي، وأبراهام دي موافر، وتوماس بايز، وريتشارد برايس أُسس نظرية الاحتمال، وخلال القرن التاسع عشر، بدأ الكثير من الإحصائيين استخدام التوزيعات الاحتمالية كأداةٍ ضمن مجموعة أدواتهم التحليلية. مكَّنَت هذه التطورات الجديدة في الرياضيات الإحصائيين من تخطِّي الإحصاءات الوصفية وبدء العمل على «التعلم الإحصائي». ويُعَد بيير سيمون دي لابلاس وكارل فريدريش جاوس اثنَين من أهم وأشهر علماء الرياضيات في القرن التاسع عشر، كلٌّ منهما قدَّم إسهاماتٍ مهمة في مجال التعلُّم الإحصائي وعلم البيانات الحديث. أخذ لابلاس أفكار توماس بايز وريتشارد برايس وطورها لتُصبح النسخة الأولى لما نُسمِّيه الآن ﺑ «قاعدة بايز». وطوَّر جاوس، أثناء بحثه عن الكوكب القزم المفقود سيريس، «طريقة المربَّعات الصغرى»، التي مكَّنتنا من التوصُّل إلى أفضل نموذج يلائم مجموعة البيانات بحيث يُقلل الخطأ في الملاءمة إجمالي الفروق المربعة بين نقاط البيانات في مجموعة البيانات والنموذج إلى الحد الأدنى. وفَّرت طريقة المربعات الصغرى الأساس لأساليب التعلُّم الإحصائي مثل «الانحدار الخطي» و«الانحدار اللوجستي» بالإضافة إلى تطوير نماذج «الشبكة العصبية الاصطناعية» المستخدَمة في الذكاء الاصطناعي (سنعاود التطرُّق إلى المربعات الصغرى، وتحليل الانحدار، والشبكات العصبية في الفصل الرابع).
استمرت التطورات في نظرية الاحتمالات والإحصاء حتى القرن العشرين. إذ طوَّر كارل بيرسون اختبار الفرضية الحديث، وطور آر إيه فيشر أساليب إحصائية من أجل «التحليل المتعدد المتغيِّرات» وقدَّم فكرة «تقدير الاحتمال الأرجح» في الاستدلال الإحصائي كوسيلةٍ لاستخلاص النتائج بناءً على الاحتمالية النسبية للأحداث. وأدى عمل آلان تورينج في الحرب العالمية الثانية إلى اختراع الكمبيوتر الإلكتروني الذي كان له أثر عظيم على الإحصاء لأنه مَكَّننا من إجراء حساباتٍ إحصائية شديدة التعقيد. وخلال أربعينيات القرن العشرين والعقود التالية، طوِّر عدد من النماذج الحوسبية المهمة التي لا تزال مستخدَمة على نطاقٍ واسع في علم البيانات. وفي عام ١٩٤٣، اقترح وارن ماكولوتش ووالتر بيتس النموذج الرياضي الأول «للشبكة العصبية». وفي عام ١٩٤٨، نشر كلود شانون مقالًا بعنوان «نظرية رياضية للتواصُل»، ووضع من خلاله أساسًا ﻟ «نظرية المعلومات». وفي عام ١٩٥١، اقترحت إفيلين فيكس وجوزيف هودجز نموذجًا ﻟ «التحليل التمييزي» (أو ما نُطلق عليه الآن مسألة «التصنيف» أو «التعرُّف على الأنماط») الذي صار أساس «نماذج أقرب الجيران» الحديثة. وبلغت هذه التطوُّرات في فترة ما بعد الحرب العالمية ذروتها في عام ١٩٥٦ مع تأسيس مجال «الذكاء الاصطناعي» في ورشة عمل بكلية دارتموث. وحتى في هذه المرحلة المبكرة من تطوير الذكاء الاصطناعي، كان قد بدأ استخدام مصطلح «تعلُّم الآلة» لوصف البرامج التي مكَّنت الكمبيوتر من التعلُّم من البيانات. وفي منتصف ستينيَّات القرن العشرين، قُدِّمت ثلاثة إسهامات مُهمة لتعلُّم الآلة. ففي عام ١٩٦٥، أوضح كتاب نيلس نيلسون بعنوان «الآلات المتعلمة» كيف يمكن استخدام الشبكات العصبية لتعلُّم النماذج الخطِّية للتصنيف. وفي العام التالي، تحديدًا في عام ١٩٦٦، طور إيرل بي هانت وجانت مارين وفيليب جيه ستون إطار نظام تعلُّم المفاهيم، الذي مثَّل الأصل الذي تنحدِر منه عائلة مهمة لخوارزميات تعلُّم الآلة التي حفَّزت ظهور نماذج شجرة اتخاذ القرار من البيانات من أعلى إلى أسفل. وفي التوقيت نفسه تقريبًا، طوَّر عدد من الباحِثين المستقلِّين النُّسخ الأولية من خوارزميات «التجميع بالمتوسطات»، التي صارت الآن الخوارزمية القياسية المستخدَمة لتجزئة البيانات (العملاء).
يُعَد تعلُّم الآلة مجالًا جوهريًّا في علم البيانات الحديث؛ ذلك لأنه يوفر الخوارزميات القادرة على تحليل مجموعات البيانات الكبيرة تحليلًا آليًّا لاستخلاص الأنماط التي من المحتمل أن تكون جاذبةً للاهتمام ومفيدةً على حدٍّ سواء. ولقد واصل هذا المجال التطوُّر والابتكار حتى يومِنا هذا. وتشمل بعض أهم التطوُّرات «النماذج التجميعية» — حيث تُجرى التنبؤات باستخدام مجموعةٍ من النماذج (أو فئة من النماذج)، ويتنبأ كلُّ نموذج بكلِّ استعلامٍ من خلال الاقتراع — و«الشبكات العصبية الخاصة بالتعلم العميق»، التي تتكوَّن من طبقات عديدة (أكثر من ثلاث طبقات) من الخلايا العصبية. وهذه الطبقات الأعمق في الشبكة قادرة على اكتشاف وتعلم تمثيلات السِّمات المعقدة (التي تتألَّف من عدة سماتٍ تفاعلية مُدخَلة جرت معالجتها بواسطة طبقاتٍ أولى)، التي تُمكِّن الشبكة بدورها من تعلُّم أنماطٍ يمكن تعميمها عبر البيانات المدخلة. ونظرًا إلى قُدرتها على تعلُّم السمات المعقدة، تتناسَب شبكات التعلم العميق على وجه الخصوص مع البيانات كثيرة الأبعاد، وبالتالي أحدثت ثورة في عدة ميادين، من بينها «رؤية الآلة» و«معالجة اللغة الطبيعية».
كما ناقشنا في معرض حديثنا عن تاريخ قواعد البيانات، شهدت أوائل السبعينيات من القرن الماضي بدايةَ تقنيةِ قواعد البيانات الحديثة مع نموذج البيانات الارتباطية الذي وضعه «إدجار إف كود» وما تبِعه من زيادة هائلة في توليد البيانات وتخزينها مما أدى إلى تطوير مستودعات البيانات في التسعينيات ولاحقًا إلى ظاهرة البيانات الضخمة. إلا أنه قبل ظهور البيانات الضخمة، وتحديدًا بحلول أواخر الثمانينيات وأوائل التسعينيات من القرن العشرين، ظهرت الحاجة إلى مجالٍ بحثي يستهدف على وجه التحديد تحليلَ هذه المجموعات الكبيرة من البيانات. وفي هذا الوقت تقريبًا بدأ استخدام مصطلح «التنقيب في البيانات» في الأوساط المستخدِمة لقواعد البيانات. وكما ناقشنا بالفعل، تمثلت إحدى الاستجابات لهذه الحاجة في تطوير مستودعات البيانات. ومع ذلك، استجاب باحثون آخرون في قواعد البيانات بالتطرُّق إلى مجالاتٍ بحثية أخرى، وفي عام ١٩٨٩، عقد جريجوري بياتيتسكي–شابيرو أول ورشة عمل عن «اكتشاف المعرفة في قواعد البيانات». ويلخص الإعلان عن هذه الورشة كيف أن الورشة ركَّزت على منهجٍ مُتعدد التخصُّصات لحل مشكلة تحليل قواعد البيانات الكبيرة؛ إذ جاء الإعلان كما يلي:
ظهور علم البيانات وتطوُّره
ظهر مصطلح «علم البيانات» على الساحة في أواخر تسعينيات القرن العشرين في نقاشات ذات صلة بالحاجة إلى تعاون الإحصائيين مع علماء الكمبيوتر لإدخال عنصر الدقة الرياضية إلى التحليل الحوسبي لمجموعات البيانات الكبيرة. وفي عام ١٩٩٧، سلطت المحاضرة العامة التي ألقاها «سي إف جيف وو» بعنوان: «هل يتساوى علم الإحصاء بعلم البيانات؟» الضوء على عدد من الاتجاهات الواعدة للإحصاء، من بينها توفُّر مجموعات البيانات الكبيرة/المعقدة في قواعد بيانات مهولة والاستخدام المتزايد للخوارزميات والنماذج الحوسبية. واختتمت المحاضرة بالدعوة إلى إعادة تسمية علم الإحصاء ﺑ «علم البيانات».

يجب أن يتمتع علماء البيانات بقدْر من الخبرة في المجال. تبدأ أغلب مشروعات علم البيانات بمشكلة من الواقع الفعلي مُختصة بمجالٍ مُعين والحاجة إلى تصميم حلٍّ مستخلص من البيانات لهذه المشكلة. وكنتيجة لذلك، من المهم لعالِم البيانات أن يتمتَّع بخبرةٍ كافية في هذا المجال تُتيح له فهم المشكلة، والوقوف على سبب أهميتها، وإلى أي مدًى قد يتناسب حل المشكلة القائم على علم البيانات مع عمليات المؤسسة. وهذه الخبرة في المجال تقود اختصاصِي علم البيانات أثناء عمله نحو تحديد الحل الأمثل. كما إنها تتيح له التفاعل مع خبراء المجال الحقيقيين بطريقةٍ ملموسة لكي يتسنى له جمع المعرفة اللازمة عن المشكلة الأساسية. كما أن التحلي بقدْر من الخبرة في مجال المشروع يُتيح لعالِم البيانات الاستعانة بخبراته المكتسبة من العمل على مشروعات مشابهة في نفس المجال والمجالات ذات الصِّلة لتُساعده على تحديد نطاق تركيز المشروع.
البيانات هي محور جميع مشروعات علم البيانات. ومع ذلك، لا تعني حقيقة أن المؤسسة لها حق الوصول إلى البيانات أنه يُمكنها استغلال البيانات من الناحية القانونية أو حتى ينبغي لها ذلك من الناحية الأخلاقية. ففي أغلب الدوائر القضائية، ثمة تشريعات مناهِضة للتمييز ومؤازِرة لحماية البيانات الشخصية تُنظم عملية استخدام البيانات وتتحكَّم فيها. وكنتيجةٍ لذلك، يجب على عالِم البيانات أن يتفهَّم هذه التشريعات، وعلى النطاق الأوسع، يجب أيضًا أن يتمتع بفهمٍ أخلاقي لتداعيات عمله إذا كان يرغب في استخدام البيانات استخدامًا قانونيًّا ولائقًا. وسنتطرَّق إلى هذا الموضوع في الفصل السادس، حيث نُناقش اللوائح التنظيمية القانونية لاستغلال البيانات والمسائل الأخلاقية المتعلقة بعلم البيانات.
في أغلب المؤسسات، تأتي نسبة كبيرة من البيانات من قواعد البيانات الموجودة في المؤسسة. علاوة على ذلك، عند توسع هيكل البيانات الخاص بالمؤسسة، ستبدأ مشروعات علم البيانات دمج البيانات من مجموعة متنوعة من مصادر البيانات الأخرى، التي يُشار إليها عمومًا ﺑ «مصادر البيانات الضخمة». وقد تكون البيانات الموجودة في هذه المصادر في مجموعةٍ متنوعة من الأشكال المختلفة، أي قاعدة بيانات بشكلٍ أو آخر بصفة عامة مثل: قواعد البيانات الارتباطية أو قواعد البيانات غير الارتباطية أو هادوب. وجميع البيانات المتاحة في هذه القواعد المتنوعة ومصادر البيانات بحاجةٍ إلى دمجها وتنظيفها وتحويلها وتطبيعها، وهلمَّ جرًّا. ولهذه المهام أسماء كثيرة، مثل: «الاستخراج والتحويل والتحميل»، و«جمع البيانات»، و«تنقيح البيانات»، و«دمج البيانات»، وغيرها. وعلى غرار بيانات المصدر، البيانات المولَّدة من أنشطة علم البيانات بحاجة أيضًا إلى أن يتمَّ تخزينها وإدارتها. فقاعدة البيانات عبارة عن موقع التخزين النموذجي للبيانات المولَّدة بواسطة هذه الأنشطة لكي نتمكَّن من توزيعها بسهولةٍ ومشاركتها مع مختلف أقسام المؤسسة. ونتيجة لذلك، علماء البيانات بحاجةٍ إلى التحلِّي بالمهارات اللازمة للتفاعُل مع البيانات ومعالجتها ببراعةٍ في قواعد البيانات.
تُتيح مجموعة من مهارات علوم الكمبيوتر وأدواته لعلماء البيانات التعامل مع البيانات الضخمة ومعالجتها لتصير معلوماتٍ جديدة وذات مغزًى. وتشمل «الحوسبة العالية الأداء» حشد القدرة الحوسبية لتقديم أداءٍ أعلى مما كان مِن الممكن أن يحصل المرء عليه من جهاز كمبيوتر واحد مُستقل. الكثير من مشروعات علم البيانات تتعامل مع مجموعةٍ كبيرة جدًّا من البيانات وخوارزميات تعلُّم الآلة الباهظة التكلفة حوسبيًّا. وفي هذه المواقف، من المهم التحلِّي بالمهارات اللازمة للوصول إلى مصادر الحوسبة العالية الأداء واستخدامها. بخلاف الحوسبة العالية الأداء، لقد ذكرنا بالفعل أن علماء البيانات بحاجةٍ إلى التحلِّي بالقدرة على استخراج البيانات من مواقع الويب وتنظيفها ودمجها وكذلك التعامل مع النصوص والصور غير الهيكلية ومعالجتها. وبالإضافة إلى ذلك، قد ينتهي المطاف أيضًا بعالِم البيانات إلى إنشاء تطبيقاتٍ داخلية لأداء مهمةٍ مُعينة أو تعديل تطبيقٍ موجود بالفعل لمواءمتِهِ مع البيانات والمجال الخاضع للمعالجة. وأخيرًا، يحتاج عالِم البيانات لمهارات علوم الكمبيوتر لكي يتمكن من فهم نماذج تعلُّم الآلة وتطويرها ودمجها في تطبيقات الإنتاجية أو التطبيقات التحليلية أو التطبيقات الخلفية في إحدى المؤسسات.
إن تمثيل البيانات في صورة رسومية يجعل من الأسهل كثيرًا رؤية وفهم ما يحدُث لهذه البيانات. وينطبق التمثيل المرئي للبيانات على جميع مراحل عملية علم البيانات. فعند مراجعة البيانات في شكل جدول، يكون من السهل إغفال أشياء مثل القِيَم الشاذة أو أنماط التوزيع أو التغيرات الطفيفة التي تطرأ على البيانات بمرور الوقت. أما حين تتُمثَّل البيانات بالصورة البيانية الصحيحة، فسوف تظهر هذه الجوانب من البيانات بوضوح. ويُعَد التمثيل المرئي للبيانات مجالًا مُهمًّا ومُتناميًا، ونرشح هنا كتابَين باعتبارهما تقديمًا ممتازًا لمبادئ وتقنيات التمثيل المرئي الفعَّال للبيانات؛ وهما: كتاب «العرض المرئي للمعلومات الكميَّة» تأليف إدوارد توفت (٢٠٠١) وكتاب «أَرِني الأرقام: توضيح تصميم الجداول والرسوم البيانية» تأليف ستيفن فيو (٢٠١٢).
تُستخدم أساليب الإحصاء والاحتمالات في جميع مراحل العملية الخاصة بعلم البيانات، بداية من تجميع البيانات والتحقُّق منها وصولًا إلى مقارنة نتائج النماذج والتحليلات المختلفة الصادرة أثناء المشروع. وينطوي تعلُّم الآلة على استخدام مجموعةٍ متنوعة من التقنيات الإحصائية والحوسبية المتقدمة لمعالجة البيانات بهدف إيجاد الأنماط. ولا يتعيَّن على عالِم البيانات الذي يُشارك في الجوانب التطبيقية لتعلُّم الآلة أن يُنشئ نُسَخه الخاصة من خوارزميات تعلُّم الآلة. فمن خلال فهم خوارزميات تعلُّم الآلة، وفيما يمكن استخدامها، وما تعنيه النتائج التي تولِّدها وما نوعية البيانات التي يمكن تشغيل خوارزميات مُعينة عليها، يستطيع عالِم البيانات أن يستفيد من خوارزميات تعلُّم الآلة حتى وإن كان لا يعرف التفاصيل الدقيقة لما تفعله الخوارزمية. وهذا يُتيح له التركيز على الجوانب التطبيقية لعلم البيانات وتجربة خوارزميات تعلُّم الآلة المتنوعة لمعرفة أيها يتناسب أكثر مع السيناريو الذي يتعامل معه والبيانات التي لديه.
أخيرًا، أحد الجوانب الرئيسية لنجاح عالِم البيانات هو التحلِّي بالقُدرة على توصيل نتائج مشروع علم البيانات. وقد توضح هذه النتائج الرؤية التي كشف عنها تحليل البيانات أو توضح مدى ملاءمة النماذج المنشأة أثناء المشروع لعمليات المؤسسة وتأثيرها المتوقَّع على آلية عمل المؤسسة. فلا جدوى من تنفيذ مشروع علم بيانات فذٍّ ما لم تُستخدَم المخرَجات منه وتوصَّل النتائج بطريقةٍ يمكن أن يفهمها الزملاء الذين لا يتمتَّعون بخلفيةٍ تقنية ويثقون بها.
أين يُستخدم علم البيانات؟
يقود علم البيانات اتخاذ القرارات في كافة جوانب المجتمعات الحديثة تقريبًا. في هذا القسم، تَصِف ثلاثُ دراساتٍ حالةً تُوضح تأثير علم البيانات؛ ألا وهي: شركات السلع الاستهلاكية التي تستخدم علم البيانات من أجل المبيعات والتسويق؛ الحكومات التي تستخدم علم البيانات لتحسين الخدمات الصحية وأنظمة العدالة الجنائية والتخطيط العمراني؛ والرياضات الاحترافية التي تستخدم علم البيانات في استقطاب اللاعبين.
علم البيانات في مجال المبيعات والتسويق
المرادف لبيع المنتجات الأفضل وبيع منتجات إضافية داخل عالم الإنترنت هو «نظام التوصيات والمقترحات». إذا كنتَ قد شاهدتَ فيلمًا على منصَّة نتفليكس أو اشتريتَ منتجًا على موقع أمازون، فستعرف أن هذه المواقع الإلكترونية تستخدِم البيانات التي يجمعونها ليقدموا لك اقتراحاتٍ بخصوص ما ينبغي لك أن تُشاهده أو تشتريه في المرة التالية. ويمكن أن تُصمَّم هذه الأنظمة لترشدك بطرقٍ مختلفة: بعضها يُرشدك نحوَ الأكثر رواجًا والأفضل مبيعًا؛ بينما يُرشدك البعض الآخر نحو منتجاتٍ مُتخصصة تناسِب ذوقك على وجه الخصوص. يذكر كتاب كريس أندرسون بعنوان «الذيل الطويل» (٢٠٠٨) أنه نظرًا إلى أن الإنتاج والتوزيع صارا أقلَّ تكلفة، تحولت الأسواق من بيع كمياتٍ كبيرة من عددٍ قليل من المنتجات الرائجة إلى بيع كمياتٍ صغيرة من عددٍ أكبر من المنتجات المتخصِّصة. تُعد هذه المبادلة بين تشجيع مبيعات المنتجات الرائجة أم المنتجات المتخصِّصة قرارًا أساسيًّا لتصميم نظام التوصيات والمقترحات وتؤثر على خوارزميات علم البيانات المستخدَمة لتطبيق هذه الأنظمة.
استخدام علم البيانات من قبل الحكومات
استخدام علم البيانات في الرياضات الاحترافية
تُعَد قصة فيلم «كرة المال» مثالًا واضحًا جدًّا على كيف يمكن لعلم البيانات أن يمنح مؤسسةً ما ميزة تنافسية في السوق التنافسي. ومع ذلك، ربما يكون أهم جانبٍ في قصة «كرة المال» من منظور علم البيانات المحض هو أنها تُسلط الضوء على أن القيمة الأساسية الخاصة لهذا العلم تتمثل أحيانًا في تحديد السمات الثرية بالمعلومات المفيدة. وثمة اعتقاد شائع مفاده أن قيمة علم البيانات تكمُن في النماذج التي تُنشأ أثناء العملية. ومع ذلك، بمجرد أن نعرف السمات المهمة في مجالٍ ما، فمن السهل جدًّا إنشاء نماذج مُستوحاة من البيانات. ومفتاح النجاح هنا هو الحصول على البيانات المناسبة وإيجاد السمات المناسبة. في كتاب «الاقتصاد العجيب: اقتصادي مارق يبحث في الجانب الخفي من كل شيء»، يوضح ستيفن دي ليفيت وستيفن دوبنر أهمية هذه الملاحظة عبر طائفة كبيرة من المشاكل. كما أوضحا، مفتاح فهم الحياة الحديثة هو «معرفة ما يجب قياسه وكيفية قياسه» (٢٠٠٩، ١٤). ومن خلال الاستعانة بعلم البيانات، يُمكننا كشف النقاب عن الأنماط المهمَّة في مجموعة بيانات، ويمكن أن تكشف هذه الأنماط السِّمات المهمة في المجال. والسبب وراء استخدام علم البيانات في الكثير من المجالات هو أنه بغضِّ النظر عن المجال محل الدراسة إذا كانت البيانات المناسبة متاحة، فإنه يمكن تحديد المشكلة بكلِّ وضوح، وبالتالي يمكن لعلم البيانات أن يُساعدنا في حلِّها.
مفتاح النجاح هنا هو الحصول على البيانات المناسبة وإيجاد السمات المناسبة.
لِمَ الآن؟
لقد أسهم عدد من العوامل في نموِّ علم البيانات مؤخرًا. وكما سبق أن ذكرنا بالفعل، كان ظهور البيانات الضخمة مدفوعًا بالسهولة النسبية التي يمكن للمؤسَّسات أن تجمع بها البيانات. تستطيع الشركات في الوقت الراهن إعداد ملفات تعريف أكثر ثراءً خاصة بالعملاء الأفراد؛ هذا من خلال سجلِّ معاملات نقاط البيع، أو عدد النقرات على المنصات الإلكترونية، أو منشورات وسائل التواصل الاجتماعي، أو التطبيقات على الهواتف الذكية، أو غيرها من القنوات التي لا تُعَد ولا تُحصى. وهناك عامل آخر وهو تحويل مخزون البيانات إلى سلعةٍ تنطبق عليها وفورات الحجم، مما يجعل تخزين البيانات أقلَّ تكلفةً من ذي قبل. كما أن هناك نموًّا هائلًا في القدرة الحاسوبية. إذ تطورت بطاقات الرسومات ووحدات معالجة الرسومات بالأساس لنقل الرسومات بسرعةٍ من أجل ألعاب الكمبيوتر. والسِّمة المميزة لوحدات معالجة الرسومات أنه يُمكنها تنفيذ عمليات ضرب المصفوفات بسرعة. غير أن هذه العمليات ليست مفيدةً من أجل نقل الرسومات وحسب وإنما مفيدة أيضًا من أجل تعلُّم الآلة. وفي السنوات الأخيرة، استُغِلت هذه الوحدات وحُسِّنت بهدف استخدامها في تعلُّم الآلة، الأمر الذي ساهم في زيادة سرعة معالجة البيانات وتدريب النماذج. لقد صارت أدوات علم البيانات السهلة الاستخدام متاحة وذُلِّلت عقبات الدخول إلى علم البيانات. تعني هذه التطورات مجتمعةً أن جمع البيانات وتخزينها ومعالجتها صار أسهلَ من ذي قبل.
كانت هناك تطورات كبيرة في مجال تعلُّم الآلة في السنوات العشر الأخيرة. لقد ظهر التعلُّم العميق، على وجه الخصوص، وأحدث ثورةً في الطريقة التي يمكن أن تُعالِج بها أجهزة الكمبيوتر اللغة وبيانات الصور. ويصف مصطلح «التعلُّم العميق» فئةً من نماذج الشبكات العصبية ذات الطبقات المتعددة من الوحدات داخل الشبكة. كانت الشبكات العصبية موجودةً منذ أربعينيات القرن العشرين؛ إلا أنها تعمل بشكلٍ أفضل مع مجموعات البيانات الكبيرة والمعقدة وتستلزم وجود عددٍ كبير من الموارد الحوسبية لتدريبها. لذا، فإن ظهور التعلُّم العميق مرتبط بزيادة البيانات الضخمة والقدرة الحوسبية. وليس على سبيل المبالغة وصف تأثير التعلُّم العميق عبر مجموعةٍ من المجالات بأنه تأثير استثنائي للغاية.
كان للتعلُّم العميق أيضًا تأثير كبير على مجموعةٍ من التقنيات المتقدمة التي نستخدِمها يوميًّا. في الوقت الحالي، يستعين موقع فيسبوك بالتعلُّم العميق للتعرُّف على الوجوه وتحليل النصوص لعرض الإعلانات مباشرة على الأشخاص بناءً على محادثاتهم عبر الإنترنت. ويستعين كلٌّ من موقع جوجل وبايدو بالتعلُّم العميق من أجل التعرُّف على الصور والتعليقات عليها والبحث والترجمة الآلية. ويستعين المساعد الافتراضي «سيري» من ابتكار شركة أبل، و«ألكسا» من ابتكار شركة أمازون، و«كورتانا» من ابتكار شركة مايكروسوفت، و«بيكسبي» من ابتكار شركة سامسونج بخاصية التعرُّف على الصوت القائمة على التعلُّم العميق. وحاليًّا تُطور شركة هواوي مساعدًا افتراضيًّا من أجل السوق الصينية، وسيَستخدِم أيضًا التعلُّم العميق في التعرُّف على الصوت. وسوف نتناول في الفصل الرابع الشبكات العصبية والتعلُّم العميق بمزيدٍ من التفاصيل. وعلى الرغم من أن التعلُّم العميق يُعَد تطورًا تقنيًّا مُهمًّا، ربما أهم ما فيه فيما يخصُّ نمو علم البيانات هو الوعي المتزايد بقدرات هذا العلم ومميزاته واعتماد المؤسسات عليه بشكلٍ كبير والذي أسفر عن قصص نجاحها الرفيعة المستوى.
خرافات حول علم البيانات
لعلم البيانات فوائد كثيرة بالنسبة إلى المؤسسات الحديثة؛ إلا أن هناك قدرًا كبيرًا من المبالغة حوله، ولذا يجب أن نفهم ما هي حدوده. واحدة من أكبر الخُرافات هي الاعتقاد بأن علم البيانات ينطوي على عمليةٍ مُستقلة يمكننا أن نمنحها مطلق الحرية على بياناتنا بهدف العثور على حلولٍ لمشكلاتنا. ولكن في الواقع، يستلزم علم البيانات إشرافًا بارعًا من جانب البشَر عبر مختلف مراحل العملية. ويجب على المحللين وضع إطار للمشكلة، وتصميم البيانات وتجهيزها، وتحديد أيٍّ من خوارزميات تعلُّم الآلة هي الأنسب، وتفسير نتائج التحليل تفسيرًا نقديًّا؛ والتخطيط للإجراء المناسب الذي يجب اتخاذه بناءً على الرؤية (الرؤى) التي كشف عنها التحليل. ومن دون الإشراف البارع من جانب البشر، ستُخفق مشروعات علم البيانات في تحقيق أهدافها. وتأتي أفضل النتائج الخاصة بعلم البيانات عندما تتضافر الخبرة البشرية والقدرة الحاسوبية معًا، كما يقول جوردون لينوف ومايكل بيري: «التنقيب في البيانات يُتيح لأجهزة الكمبيوتر إنجاز ما تُنجزه على أفضل وجه؛ ألا وهو التنقيب عبر بياناتٍ كثيرة. وهذا بدوره يُتيح للبشر إنجاز ما ينجزونه على أفضل وجه؛ ألا وهو تحديد المشكلة وفهم النتائج» (٢٠١١، ٣).
يتمثَّل ثاني أكبر الخُرافات حول علم البيانات في أن كل مشروع قائم على علم البيانات بحاجةٍ إلى بيانات ضخمة وبحاجة إلى استخدام التعلُّم العميق. وبوجهٍ عام، من المفيد توفير المزيد من البيانات؛ غير أن توفير البيانات «المناسبة» هو الشرط الأهم. وكثيرًا ما تُنفَّذ مشروعات علم البيانات في المؤسسات التي تتوافر لديها موارد أقل كثيرًا من شركة جوجل أو بايدو أو مايكروسوفت على صعيد البيانات والقدرة الحوسبية. وتشمل الأمثلة على نطاق مشروعات علم البيانات الأصغر حجمًا التنبُّؤ بالمطالبات في شركة تأمين تستقبل نحو ١٠٠ مطالبة في الشهر؛ والتنبؤ بنسبةِ تسرُّب الطلاب من جامعة بها أقل من ١٠ آلاف طالب؛ وتوقُّع تسرُّب أعضاء اتحادٍ قِوامه عدة آلاف من الأعضاء. ومن ثم، ليست المؤسسة في حاجة لأن تُعالج تيرابايت من البيانات أو تمتلك موارد حوسبية هائلة تحت تصرُّفها لكي تستفيد من علم البيانات.
وثالث خرافة حول علم البيانات هي أن برامج علم البيانات الحديثة يسهل استخدامها، وبالتالي تسهل ممارسة عمليات علم البيانات. صحيح أن برامج علم البيانات صارت أسهل في استخدامها. إلا أن سهولة الاستخدام هذه قد تُخفي وراءها حقيقة أن القيام بالعمليات الخاصة بعلم البيانات على النحو الصحيح يتطلَّب معرفةً صحيحة بالمجال وخبرةً فيما يتعلق بخصائص البيانات والافتراضات التي تقوم عليها خوارزميات تعلُّم الآلة المختلفة. في الواقع، من السهل القيام بالعمليات الخاصة بعلم البيانات على نحوٍ سيئ أكثر من أي وقتٍ مضى. وكما هو الحال مع أي شيءٍ آخر في الحياة، إذا كنت لا تفهم ما تفعله أثناء القيام بالعمليات الخاصة بعلم البيانات، فإنك سترتكب أخطاءً. تكمن خطورة التعامل مع علم البيانات في أن التكنولوجيا قد تجعل البشر يتهيَّبون وبالتالي يُصدقون أي نتائج تُقدمها لهم البرامج. ومع ذلك، فإنهم قد يُخطئون في تحديد المشكلة بغير قصدٍ منهم، أو يُدخلون بيانات خاطئة، أو يستخدمون تقنيات تحليلٍ ذات افتراضات غير مناسبة. وبالتالي، من المرجَّح أن تكون النتائج التي تُقدمها البرامج إجابةً للسؤال الخطأ أو تستند إلى بياناتٍ خاطئة أو نتيجة عمليات حسابية خاطئة.
والخرافة الأخيرة حول علم البيانات التي نودُّ أن نذكُرها هنا هي الاعتقاد بأن علم البيانات يُغطي تكلفته سريعًا. وحقيقة هذا الاعتقاد مُتوقفة على سياق العمل في المؤسسة. قد تستلزِم الاستفادة من علم البيانات استثمارًا كبيرًا فيما يخصُّ تطوير البِنية التحتية للبيانات وتعيين موظفين لديهم خبرة في مجال علم البيانات. علاوة على ذلك، لن يُحقق علم البيانات نتائج إيجابية مع كل مشروع. أحيانًا، لا تُوجَد أية معلومات قيِّمة يمكن العثور عليها في البيانات، وأحيانًا أخرى لا تكون الشركة في موضعٍ يُتيح لها التصرف بناء على المعلومات القيمة التي كشف عنها التحليل. ومع ذلك، ففي السياقات التي يُوجَد فيها مشكلة تجارية مفهومة جيدًا وتُتاح فيها البيانات المناسبة وتتوفر فيها الخبرات البشرية، كثيرًا ما يوفر علم البيانات الرؤى المستنيرة القابلة للتنفيذ والتي توفر للمؤسسة الميزة التنافسية التي تحتاج إليها لتحقيق النجاح.