المقدمة
يهدف علم البيانات إلى تحسين عملية اتخاذ القرارات من خلال الاستناد إلى الرؤى المستنيرة المستخلصة من مجموعات كبيرة من البيانات. وينطوي علم البيانات، بوصفه أحد ميادين النشاط الإنساني، على مجموعة من المبادئ وتعريفات المشكلات والخوارزميات والعمليات من أجل استخلاص الأنماط غير الواضحة، والمفيدة من المجموعات الكبيرة من البيانات. وهو علم وثيق الصلة بمجالَي التنقيب في البيانات وتعلُّم الآلة؛ لكنه أوسع نطاقًا من كليهما. اليوم، يقود علم البيانات عملية اتخاذ القرارات في جميع مناحي الحياة تقريبًا بالمجتمعات الحديثة. وتشمل بعض الطرق التي ربما يؤثر بها علم البيانات على حياتك اليومية تحديد الإعلانات التي تظهر لك عبر الإنترنت؛ والترشيحات التي تأتيك عن الأفلام والكتب ومقترحات الصداقة عبر وسائل التواصل الاجتماعي؛ ورسائل البريد الإلكتروني التي تصفى وتوضع في مجلد رسائل البريد العشوائي؛ والعروض التي تتلقَّاها عند تجديد خدمة الهاتف المحمول خاصتك؛ وتكلفة قسط التأمين الصحي الخاص بك؛ وتعاقُب إشارات المرور في منطقتك وتوقيتاتها؛ وكيفية تصميم العقاقير التي ربما تحتاج إليها؛ والأماكن التي تستهدفها الشرطة في مدينتك.
إن التوسع في استخدام علم البيانات عبر مجتمعاتنا يأتي مدفوعًا بظهور البيانات الضخمة ووسائل التواصل الاجتماعي، وزيادة القدرة الحوسبية، والانخفاض الهائل في تكلفة ذاكرة الكمبيوتر وتطوير وسائل أكثر فعالية لتحليل البيانات ونمذجتها مثل التعلُّم العميق. وتعني هذه العوامل مجتمعةً أنه صار من الأسهل على المؤسسات جمع البيانات وتخزينها ومعالجتها أكثر من أي وقتٍ مضى. وفي الوقت نفسه، تعني هذه الابتكارات التقنية والاستخدام الأوسع نطاقًا لعلم البيانات أن التحدِّيات الأخلاقية المتعلقة باستخدام البيانات وخصوصية الأفراد صارت موضوعاتٍ أكثر إلحاحًا عما كانت عليه في الماضي. ويهدف هذا الكتاب إلى توفير مقدمةٍ إلى علم البيانات تُغطي عناصر المجال الأساسية بعُمق بحيث يقدم فهمًا مبدئيًّا للمجال.
يقدم لنا الفصل الأول مجال علم البيانات ويوفر تاريخًا موجزًا لكيفية نشأته وتطوره. كما يتناول السبب وراء اعتبار علم البيانات ذا أهميةٍ في الوقت الراهن بالإضافة إلى بعض العوامل التي تحث على اعتماده وتبنِّيه. ويُختتم الفصل باستعراض بعض الخُرافات المرتبطة بعلم البيانات وتفنيدها. أما الفصل الثاني فيقدم المفاهيم الأساسية المتعلقة بالبيانات. كما يصف المراحل القياسية لمشروع علم البيانات؛ ألا وهي فهم المشروع، وفهم البيانات، وتجهيز البيانات، والنمذجة، والتقييم، والنشر. ويركز الفصل الثالث على البنية التحتية للبيانات والتحديات التي تفرضها البيانات الضخمة ودمج البيانات المستخرَجة من مصادر متعددة. ويتمثل أحد الجوانب الخاصة بالبِنية التحتية النموذجية للبيانات، التي يمكن أن تُمثل تحديًا، في أن البيانات الموجودة في قواعد البيانات ومستودعات البيانات عادة ما تكون على وحدات خدمة مختلفة عن وحدات الخدمة المستخدَمة من أجل تحليل البيانات. وكنتيجة لذلك، عند التعامل مع مجموعات البيانات الكبيرة، يمكن قضاء وقتٍ أطول مما هو متوقَّع في نقل البيانات بين وحدات الخدمة التي توجد فيها قواعد البيانات أو مستودعات البيانات ووحدات الخدمة المستخدَمة من أجل تحليل البيانات وتعلُّم الآلة. ويبدأ الفصل الثالث بوصف بِنية علم البيانات التحتية النموذجية من أجل مؤسسةٍ ما وبعض الحلول الناشئة لتحدي نقل مجموعات البيانات الكبيرة داخل إطار البنية التحتية، التي تشمل استخدام تعلُّم الآلة المدمَج في قاعدة البيانات، واستخدام منصة هادوب لتخزين البيانات ومعالجتها، وتطوير نُظم قواعد البيانات المختلطة التي تجمع بكلِّ سلاسةٍ برامج قواعد البيانات التقليدية والحلول الشبيهة بمنصة هادوب. ويُختتم الفصل بإلقاء الضوء على بعض التحديات الخاصة بدمج البيانات عبر المؤسسة وإخراجها على هيئة شكلٍ موحَّد مناسب لتعلُّم الآلة. ويقدم الفصل الرابع مجال تعلُّم الآلة ويشرح بعضًا من أشهر الخوارزميات والنماذج الخاصة بتعلُّم الآلة، بما في ذلك الشبكات العصبية والتعلُّم العميق ونماذج الهيكل الشجري لاتخاذ القرارات (وتُعرَف أيضًا بشجرة اتخاذ القرار). ويركز الفصل الخامس على الربط بين خبرات تعلُّم الآلة ومشكلات العالم الواقعي من خلال استعراض مجموعةٍ من مشكلات المشروعات التجارية المعتادة ووصف كيفية حلِّها من خلال حلول تعلُّم الآلة. ويستعرض الفصل السادس التداعِيات الأخلاقية لعلم البيانات، وآخر المستجدات في لوائح تنظيم البيانات وبعض المناهج الحوسبية الجديدة للحفاظ على خصوصية الأفراد في إطار العمليات المتضمنة علم البيانات. وأخيرًا، يصف الفصل السابع بعضًا من المجالات التي سيكون لعلم البيانات تأثير كبير عليها في المستقبل القريب ويتطرَّق لبعض المبادئ المهمة لتحديد ما إذا كان مشروع علم البيانات سينجح أم سيفشل.