الفصل الرابع

أساسيات تعلُّم الآلة

أفضل ما قيل عن علم البيانات هو أنه شراكة بين عالِم البيانات وجهاز الكمبيوتر. في الفصل الثاني، وصفنا العملية التي يتَّبعها عالم البيانات: مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات. وتُحدد هذه العملية القياسية سلسلةً من القرارات يتعين على عالم البيانات أن يتَّخذها والأنشطة التي ينبغي أن يشارك فيها لجعل هذه القرارات مستنيرةً ولتنفيذها. في هذه العملية، تتمثل المهام الكبرى لعاِلم البيانات في تحديد المشكلة وتصميم مجموعةِ البيانات وتجهيز البيانات وتحديد نوع تحليل البيانات المراد تطبيقه، وتقييم نتائج تحليل البيانات وتفسيرها. وما يُساهم به جهاز الكمبيوتر في هذه الشراكة هو القدرة على معالجة البيانات والبحث عن أنماطٍ مُحددة في البيانات. وتعلُّم الآلة هو مجال دراسة يُطوِّر الخوارزميات التي تتَّبعها أجهزة الكمبيوتر لتحديد الأنماط واستخلاصها من البيانات. وتُطبَّق خوارزميات تعلُّم الآلة وتقنياتها بالأساس أثناء مرحلة النمذجة في العملية القياسية المتعددة المجالات للتنقيب في البيانات. وينطوي تعلُّم الآلة على عمليةٍ تتألف من خطوتَين.

أولًا: تُطبَّق خوارزمية تعلُّم الآلة على مجموعة بياناتٍ لتحديد الأنماط المفيدة الموجودة في البيانات. وهذه الأنماط يمكن تمثيلها بعدة طرق مختلفة. وفي موضعٍ لاحق من هذا الفصل، سوف نصف بعض التمثيلات الشائعة؛ ولكنها تشمل الهيكل الشجري لاتخاذ القرار، ونماذج الانحدار، والشبكات العصبية. وتُعرف هذه التمثيلات للأنماط باسم «النماذج»، وهذا هو السبب أن هذه المرحلة من مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات تُعرف باسم «مرحلة النمذجة». ببساطة، تنشئ خوارزميات تعلُّم الآلة نماذج باستخدام تمثيلٍ مُعين (شبكة عصبية أو هيكل شجري أو أي شيءٍ غيرهما).

ثانيًا: بمجرد أن يُنشأ النموذج، يُستخدم من أجل التحليل. وفي بعض الحالات، ما يُهم هي بِنية النموذج. فبِنية النموذج يمكن أن تكشف عن السمات المهمة في مجالٍ ما. على سبيل المثال، في المجال الطبي، ربما نقوم بتطبيق خوارزمية تعلُّم الآلة على مجموعة بيانات خاصة بمرضى السكتة الدماغية ونستخدِم بنية النموذج لنُحدد العوامل التي لها علاقة قوية بالسكتة الدماغية. وفي حالات أخرى، يُستخدم النموذج لوصف أمثلة جديدة أو تصنيفها. الغاية الأساسية من نموذج تصفية البريد العشوائي هو وصف رسائل البريد الإلكتروني الجديدة إما بأنها رسائل عشوائية أو غير عشوائية بدلًا من كشف السمات المحددة لرسائل البريد العشوائي.

التعلُّم الخاضع للإشراف في مقابل التعلُّم غير الخاضع للإشراف

تُصنَّف أغلبية خوارزميات تعلُّم الآلة ضمن إحدى فئتَين: «تعلُّم خاضع للإشراف» أو «تعلُّم غير خاضع للإشراف». يهدف التعلُّم الخاضع للإشراف إلى إنشاء دالَّةٍ وتعليمها كيفية تعيين قيمة السمة التي تصف مثيلًا (السمة المستهدفة) بالاستدلال بقِيَم سماتٍ أخرى لذلك المثيل. على سبيل المثال، عندما يُستخدم التعلُّم الخاضع للإشراف لتدريب أداة تصفية البريد العشوائي، تحاول الخوارزمية إنشاء دالةٍ تعيِّن قيمةً للسمة المستهدفة (عشوائي/غير عشوائي) بالاستدلال بقِيَم السمات التي تصف البريد الإلكتروني؛ وتكون الدالة التي تُنشئها الخوارزمية هي نموذج تصفية البريد العشوائي الذي تُنتجه الخوارزمية. إذن، في هذا السياق، النمط الذي تبحث عنه الخوارزمية في البيانات هو دالَّة تُعيِّن قيمة السمة المستهدفة بالاستدلال بقِيَم السمات المدخَلة، والنموذج الناتج عن الخوارزمية هو برنامج كمبيوتر يُنفذ هذه الدالة. يشمل التعلُّم الخاضع للإشراف البحث عبر الكثير من الدوالِّ المختلفة لإيجاد الدالة التي تستطيع تعيين أفضل مُخرجات ملائمة للمدخلات. ومع ذلك، بالنسبة إلى أية مجموعة بيانات ذات درجةٍ معقولة من التعقيد يُوجَد عددٌ كبير جدًّا من تكوينات المدخلات وما يقابلها من التعيينات المحتملة للمخرجات التي تعجز معها الخوارزمية أن تُجرب جميع الدوال المحتملة. ونتيجة لذلك، صُممت كل خوارزمية من خوارزميات تعلم الآلة للبحث عن أنواعٍ مُعينة من الدوال أو تفضيل تلك الأنواع بعينها أثناء بحثها. وتُعرف تلك التفضيلات ﺑ «التحيُّز الاستقرائي» (أو تحيُّز التعلُّم) الخاص بالخوارزمية. ويتمثل التحدي الفعلي أمام استخدام تعلُّم الآلة في العثور على الخوارزمية التي يتناسب تحيُّزها الاستقرائي على أفضل نحوٍ مع مجموعةٍ مُعينة من البيانات. وبوجهٍ عام، تشمل هذه المهمة إجراء تجارب على عددٍ من الخوارزميات المختلفة للعثور على أفضل واحدةٍ تتماشى مع تلك المجموعة من البيانات.

يتمثل التحدي الفعلي أمام استخدام تعلُّم الآلة في العثور على الخوارزمية التي يتناسب تحيُّزها الاستقرائي على أفضل نحوٍ مع مجموعة مُعينة من البيانات.

هذا النوع من تعلُّم الآلة «خاضع للإشراف» لأن كلَّ مثيلٍ في مجموعة البيانات يُدرِج كلًّا من قِيَم المدخلات وقيمة المخرج (المستهدف) لكلِّ مثيل. وبالتالي، خوارزمية التعلُّم يمكن أن تقود بحثها إلى أفضل دالةٍ من خلال مراجعة إلى أيِّ مدًى تتناسب كل دالة جرت تجربتُها مع مجموعة البيانات، وفي الوقت نفسه تؤدي مجموعة البيانات دور المشرف لعملية التعلُّم من خلال تقديم تقارير. ومن الواضح أنه من أجل حدوث التعلُّم الخاضع للإشراف يجب أن يُوصَف كل مثيلٍ في مجموعة البيانات بالقيمة الخاصة بالسمة المستهدفة. ومع ذلك، عادة ما يكون السبب وراء كون السمة المستهدفة مثيرةً للاهتمام هو أنها ليس من السهل تقدير قيمتِها مباشرة، وبالتالي لا يمكن إنشاء مجموعة بياناتٍ مكونة من مثيلاتٍ وُصِّفت بكلِّ سهولة. وفي هذا السيناريو، يستلزم الأمر قدرًا كبير من الوقت والجهد لإنشاء مجموعة بيانات بالقِيَم المستهدَفة قبل أن يتم تدريب النموذج باستخدام التعلُّم الخاضع للإشراف.

في التعلُّم غير الخاضع للإشراف، لا يوجد سمة مستهدفة. وكنتيجة لذلك، يمكن استخدام خوارزميات التعلُّم غير الخاضع للإشراف بدون استثمار وقتٍ وجهد في توصيف مثيلات مجموعة البيانات حسب السمة المستهدفة. ومع ذلك، عدم وجود سمة مُستهدفة يعني أيضًا أن عملية التعلُّم صارت أصعب: بدلًا من المشكلة المحددة الخاصة بالبحث عن تعيينات مُخرجات للمدخلات تُناسِب مجموعة البيانات، صار للخوارزمية مهمة أكثر عمومية تتمثل في البحث عن ثوابت في البيانات. والنوع الأكثر شيوعًا للتعلُّم الخاضع للإشراف هو «تحليل المجموعات» أو «التحليل العنقودي»، حيث تبحث الخوارزمية عن مجموعات المثيلات التي يشبِه بعضها بعضًا أكثر من تشابُهها بمثيلاتٍ أخرى في البيانات. عادة تبدأ خوارزميات التجميع بتخمين عددٍ من المجموعات أو العناقيد، ثم تحدِّث المجموعات أو العناقيد على نحوٍ مُتكرر (عن طريق حذف مثيلات من مجموعةٍ وإضافتها إلى مجموعةٍ أخرى) لكي يزداد التشابُه داخل المجموعة الواحدة والتنوع عبر المجموعات المختلفة.

ثمة تحدٍّ مرتبط بمسألة التجميع يتمثل في معرفة كيفية قياس درجة التشابه. فإذا كانت جميع السمات في مجموعة البيانات هي سمات عددية وتتمتع بنطاقاتٍ متشابهة، ربما يكون من المنطقي على الأرجح حساب المسافة الإقليدية (المعروفة باسم «مسافة الخط المستقيم») بين المثيلات (أو الصفوف). تُعامل الصفوف القريبة بعضها من بعضٍ على المسافة الإقليدية على أنها مُتشابهة. ومع ذلك، ثمة عددٌ من العوامل قد تجعل حساب درجة التشابُه بين الصفوف أمرًا مُعقدًا. ففي بعض مجموعات البيانات، للسمات العددية المختلفة نطاقات مختلفة، مما ينتُج عنه ألا يكون التبايُن في قِيَم الصفوف في أحد السمات على نفس القدْر من أهمية التبايُن بنفس المقدار في سمةٍ أخرى. في هذه الحالات، ينبغي تطبيع السمات بحيث يكون لها جميعًا النطاق نفسه. وثمة عامل تعقيد آخر في حساب درجة التشابُه ألا وهو أنه يمكن اعتبار الأشياء متشابهةً بعدة طرق مختلفة. أحيانًا تكون بعض السِّمات أهم من سماتٍ أخرى، لذا قد يكون من المنطقي تقدير بعض السمات في ضوء حسابات المسافة الإقليدية، أو لعلَّ مجموعة البيانات تشمل بياناتٍ غير عددية. ربما تتطلَّب السيناريوهات الأكثر تعقيدًا تصميم معايير مُخصصة للتشابُه لاستخدامها بواسطة خوارزمية التجميع.

ويمكن توضيح التعلُّم غير الخاضع للإشراف عن طريق مِثال واقعي. تخيَّل أننا مُهتمون بتحليل أسباب إصابة الذكور الأمريكيين البالِغين ذوي البشرة البيضاء بمرَض السُّكَّر من النوع الثاني. سنبدأ بإنشاء قاعدة بيانات، وفيها كل صفٍّ يُمثل شخصًا واحدًا وكل عمود يُمثل سمةً نعتقد أنها ذات صلةٍ بالدراسة. ولهذا المثال، سندرج السمات التالية: طول الفرد بالمتر ووزنه بالكيلوجرام، وعدد الدقائق التي يُمارس فيها الرياضة كل أسبوع، ومقاس حذائه، واحتمالية الإصابة بمرض السُّكر مُمثلة بنسبة مئوية بناءً على عدد الاختبارات السريرية ودراسات مَسحية عن نمط الحياة. ويوضح جدول ٤-١ جزءًا من هذه المجموعة من البيانات. من الواضح أنه يمكن إدراج سماتٍ أخرى — مثل عمر الشخص — ويمكن استبعاد بعض السمات — مثل مقاس الحذاء الذي لن يكون ذا أهمية خاصة لتحديد ما إذا كان شخصٌ ما سيُصاب بمرض السُّكَّر أم لا. وكما ناقشنا في الفصل الثاني، يُعد اختيار أي السمات التي ستُضمَّن أو تُستبعَد من مجموعة البيانات هي مهمة أساسية في علم البيانات، ولكن لأغراض هذه المناقشة سنعمل على مجموعة البيانات هذه دون تغيير.

جدول ٤-١: مجموعة بيانات خاصة بدراسة الإصابة بمرض السكر.

رقم تعريفي	الطول (بالمتر)	الوزن (بالكيلوجرام)	مقاس الحذاء	التمارين الرياضية (عدد الدقائق في الأسبوع)	مرض السكَّر (احتمالية الإصابة بالنسبة المئوية)
١	١٫٧٠	٧٠	٥	١٣٠	٠٫٠٥
٢	١٫٧٧	٨٨	٩	٨٠	٠٫١١
٣	١٫٨٥	١١٢	١١	٠	٠٫١٨

ستبحث خوارزمية التجميع غير الخاضعة للإشراف عن مجموعات الصفوف المتشابهة معًا أكثر من تشابهها مع الصفوف الأخرى في البيانات. وتُحدد كل مجموعةٍ من هذه المجموعات ذات الصفوف المتشابهة مجموعة من المثيلات المشابهة. على سبيل المثال، تستطيع خوارزميةٌ ما أن تُحدد أسباب المرض أو الأمراض المصاحبة (الأمراض التي تظهر معًا) من خلال إلقاء نظرة على قِيَم السمات المتكررة بصورةٍ نسبية داخل مجموعةٍ ما. إن الفكرة البسيطة المتمثلة في البحث عن مجموعاتٍ من الصفوف المتشابهة هي فكرة عظيمة جدًّا ولها تطبيقات في مناحٍ كثيرة بالحياة. ويتمثل تطبيقٌ آخر لتجميع الصفوف في تقديم توصيات بمنتجات معينة إلى العملاء. إذا أُعجِب عميل بكتاب أو أغنية أو فيلم، فلعلَّه يستمتع بكتاب آخر أو أغنية أخرى أو فيلم آخر من المجموعة نفسها.

نماذج التنبؤ الخاصة بتعلُّم الآلة

التنبؤ هو مهمة تقدير قيمة السمة المستهدفة من أجل مثيلٍ مُعين بناءً على قيم السمات الأخرى (أو سمات الإدخال) لذلك المثيل. وهذه هي المشكلة التي تحلها خوارزميات تعلُّم الآلة؛ فهي تُولِّد نماذج تنبؤ. وهنا يمكننا أيضًا استخدام مثال نموذج تصفية البريد العشوائي الذي استخدمناه لتوضيح التعلُّم الخاضع للإشراف: نحن نستخدم هذا النوع من التعلُّم لتدريب نموذج تصفية البريد العشوائي، ونموذج تصفية البريد العشوائي هو نموذج تنبؤ. ويتمثل الاستخدام الشائع لنموذج التنبؤ في تقدير قيمة السِّمة المستهدفة في المثيلات الجديدة غير الموجودة في مجموعة بيانات التدريب. واستكمالًا لمثال البريد العشوائي، نُدرب نموذج تصفية البريد العشوائي (نموذج التنبؤ) على قاعدة بياناتٍ من رسائل البريد الإلكتروني القديمة ثم نستخدِم هذا النموذج للتنبؤ بما إذا كانت الرسائل الجديدة تندرج تحت البريد العشوائي أم لا. وربما تكون مشكلات التنبؤ هي النوع الأكثر شيوعًا الذي يُستخدم من أجله تعلُّم الآلة، ولذلك يركز باقي هذا الفصل على التنبؤ باعتباره دراسة حالةٍ لتوضيح تعلُّم الآلة. وسوف نبدأ توضيح نماذج التنبؤ بتوضيح مفهومٍ من المفاهيم الأساسية في التنبؤ؛ ألا وهو «تحليل الارتباط». ثم نشرح كيف تعمل خوارزميات تعلُّم الآلة لإنشاء أنواعٍ مختلفة من نماذج التنبؤ الشائعة، بما فيها نماذج الانحدار الخطي، ونماذج الشبكة العصبية، والهياكل الشجرية الخاصة باتخاذ القرار.

العلاقات الارتباطية ليست علاقاتٍ سببية، ولكن بعضها مفيد

تصف «العلاقة الارتباطية» قوة الارتباط بين سمتَين.¹ وبوجهٍ عام، يمكن أن تصف العلاقة الارتباطية أي نوع من الارتباط بين سمتَين. ولمصطلح «العلاقة الارتباطية» معنًى إحصائي مُحدَّد، والذي يُستخدم عادةً كاختصار ﻟ «معامل ارتباط بيرسون». ويقيس معامل ارتباط بيرسون قوة العلاقة الخطية بين سمتَين عدديتَين. وتتراوح قيمته من −١ إلى +١. يُستخدم حرف «» للإشارة إلى قيمة بيرسون أو معامل الارتباط بين السمتَين. ويشير معامل الارتباط إلى أن السمتَين غير مرتبطتَين بعضهما ببعض. ويُشير معامل الارتباط إلى أن السمتَين بينهما علاقة ارتباطية موجبة مثالية، بمعنى أن كلَّ تغيير يحدُث في إحدى السمتَين يُصاحبه تغيير مُماثل في السمة الأخرى في الاتجاه نفسه. ويُشير معامل الارتباط إلى أن السمتَين تجمعهما علاقة ارتباطية سالبة مثالية، بمعنى أن كلَّ تغيير يحدُث في إحدى السمتين يصاحبه تغيير معاكس في السمة الأخرى. وتتمثل الإرشادات العامة لتفسير معاملات ارتباط بيرسون في أن قيمة تشير إلى علاقةٍ خطية قوية بين السمتَين؛ وتُشير إلى علاقة خطية متوسطة، وتُشير إلى علاقة ضعيفة، وتُشير إلى عدم وجود علاقة بين السمتَين.

وفي حالة دراسة احتمالية الإصابة بمرَض السُّكَّر، من شأننا أن نتوقَّع من واقع معرفتنا بآلية عمل الجسم البشري أنه سيكون هناك علاقات بين بعض السِّمات المدرجة في جدول ٤-١. على سبيل المثال، من المعروف بوجهٍ عام أنه كلما كانت قامة الشخص أطول، كان مقاس حذائه أكبر. ومن شأننا أيضًا أن نتوقَّع أنه كلما مارس الشخص تمارين رياضيةً أكثر، أصبح أخف وزنًا، رغم أن شخصًا طويل القامة من المحتمل أن يكون أثقل وزنًا من شخصٍ قصير القامة يُمارس رياضة بالقدْر نفسه. ومن شأننا أيضًا أن نتوقع أنه لن يكون هناك علاقة واضحة بين مقاس حذاء الشخص ومقدار ممارسته للتمارين الرياضية. يُقدم شكل ٤-١ ثلاثة مخططاتِ تشتُّتٍ توضح كيف تنعكس هذه البديهيات على البيانات. ويوضح مخطَّط التشتُّت العلوي كيف تنتشر البيانات إذا كان المخطط يعتمِد على مقاس الحذاء وطول الشخص. وثمة نمط واضح في هذا المخطط: تتحرك البيانات من الزاوية السفلية ناحية اليسار إلى الزاوية العلوية ناحية اليمين، مما يُشير إلى العلاقة التي مفادها أنه عندما يكون الأفراد أطول قامة (أو عندما نتَّجه يمينًا على المحور السيني)، فإنهم يميلون إلى ارتداء مقاسات أحذية أكبر (نتحرك إلى أعلى على المحور الصادي). وبوجهٍ عام، يُشير نمط البيانات المتجهة من الأسفل يسارًا إلى الأعلى يمينًا في مخطَّط التشتُّت على علاقةٍ ارتباطية موجبة بين هاتين السمتَين. وإذا حسبنا ارتباط بيرسون بين مقاس الحذاء وطول القامة، يكون معامل الارتباط يشير إلى علاقة ارتباطية موجبة قوية بين هاتَين السمتَين. ويُبين مخطَّط التشتُّت الأوسط كيف تنتشر البيانات عندما نرسم بيانيًّا العلاقة بين الوزن وممارسة التمارين الرياضية. وهنا يتمثل النمط العام في الاتجاه المعاكس، من أعلى اليسار إلى أسفل اليمين، مما يُشير إلى علاقة ارتباط سالبة: كلما زادت التمرينات الرياضية التي يُمارسها الفرد، صار أخفَّ وزنًا. ويكون معامل ارتباط بيرسون لهاتَين السمتَين كما يلي ، مما يُشير إلى علاقة سالبة قوية. ويوضح مخطَّط التشتُّت الأخير، بالأسفل، بيانيًّا العلاقة بين ممارسة التمارين الرياضية ومقاس الحذاء. في هذا المخطَّط، البيانات موزعة عشوائيًّا على نحوٍ نِسبي، ومعامل ارتباط بيرسون لهاتَين السمتَين هو ، مما يشير إلى عدم وجود علاقة ارتباطية حقيقية بين السمتَين.

شكل ٤-١: مخطَّطات التشتُّت الخاصة بالعلاقة الارتباطية بين مقاس الحذاء وطول القامة، والوزن والتمارين الرياضية، ومقاس الحذاء والتمارين الرياضية.

حقيقة أن تعريف ارتباط بيرسون الإحصائي على أنه ارتباط بين سمتَين تجعل استخدام هذه العلاقة الإحصائية لتحليل البيانات مقتصرًا فقط على أزواج السمات الثنائية. ولكن لحُسن الحظ يمكننا تخطي هذه المشكلة من خلال استخدام الدوالِّ على مجموعاتٍ من السمات. في الفصل الثاني، قدَّمنا مؤشر كتلة الجسم بوصفه دالة لوزن الشخص وطول قامته. والمقصود بها تحديدًا نسبة وزن الشخص (بالكيلوجرام) مقسومة على مُربع طوله (بالأمتار). ابتُكِر مؤشر كتلة الجسم في القرن التاسع عشر على يد عالِم رياضيات بلجيكي، يُدعى أدولف كوتيليه، ويُستخدم هذا المؤشر لتصنيف الأفراد إلى فئات: ناقص الوزن، أو ذي وزن طبيعي، أو زائد الوزن، أو يُعاني من السمنة. وتُستخدَم النسبة بين الوزن والطول لأن مؤشر الكتلة مُصمَّم ليكون ذا قيمة مماثلة بالنسبة إلى الأشخاص الذين يندرجون تحت الفئة نفسها (ناقص الوزن أو ذو وزن طبيعي أو زائد الوزن أو يعاني من السمنة) بغض النظر عن طول قامتهم. نحن نعرف أن ثمة علاقة ارتباطية موجبة بين الوزن والطول (بوجه عام، كلما كان الشخص أطول قامة، كان أثقل وزنًا)، إذن من خلال قسمة الوزن على الطول، نحسب تأثير الطول على الوزن. ونقسم على مربع الطول لأن الأشخاص يزيدون عرضًا كلما صاروا أطول، ولذا، تربيع الطول هي محاولة لحساب إجمالي حجم الشخص في هذه المعادلة. وثمة جانبان لمؤشر كتلة الجسم مثيران للاهتمام في مناقشتنا للعلاقة الارتباطية بين عدة سمات. أولًا: مؤشر الكتلة هو دالة تأخذ عددًا من السمات كمدخلاتٍ وتُعيِّن على أساسها قيمةً جديدة. في الواقع، يُنشئ هذا التعيين سمةً جديدة مُشتقة في البيانات (بخلاف السمات الخام). ثانيًا: نظرًا إلى أن مؤشر كتلة جسم الشخص هو قيمة عددية مفردة، يُمكننا أن نحسب العلاقة الارتباطية بينها وبين السِّمات الأخرى.

في دراسة الحالة الخاصة بأسباب إصابة الذكور الأمريكيين البالِغين ذوي البشرة البيضاء بمرض السكَّر من النوع الثاني، نحن مُهتمون بتحديد ما إذا كان أي من السمات ذا علاقةٍ ارتباطية قوية بالسمة المستهدَفة التي تصف احتمالية إصابة شخصٍ ما بمرض السكَّر. ويقدم شكل ٤-٢ ثلاثة مخطَّطات تشتُّت، يوضح كل منها بيانيًّا العلاقة الارتباطية بين السمة المستهدَفة (مرض السكَّر) وسمة أخرى: الطول والوزن ومؤشر كتلة الجسم. في مخطَّط التشتُّت الخاص بالطول ومرض السكَّر، لا يبدو أنه يوجَد نمط معيَّن في البيانات، مما يشير إلى أنه لا تُوجَد علاقة ارتباطية حقيقية بين هاتَين السمتَين (معامل ارتباط بيرسون هو ). ويُبيِّن مخطَّط التشتُّت الأوسط توزيع البيانات بيانيًّا باستخدام الوزن واحتمالية الإصابة بالسكَّر. ويشير انتشار البيانات إلى وجود علاقة ارتباطية موجبة بين هاتَين السمتَين؛ بمعنى أنه كلما زاد وزن الشخص، زادت احتمالية إصابته بمرض السكَّر (معامل ارتباط بيرسون هو ). ويوضح مخطَّط التشتُّت الأخير مجموعة البيانات مرسومة بيانيًّا باستخدام مؤشر كتلة الجسم والإصابة بالسكَّر. والنمط في هذا المخطَّط مُشابه لمخطَّط التشتُّت الأوسط: البيانات المنتشرة من الأسفل يسارًا إلى الأعلى يمينًا، تُشير إلى علاقة ارتباطية موجبة. غير أنه في هذا المخطَّط، المثيلات شديدة الارتباط ببعضها البعض، مما يُشير إلى أن العلاقة الارتباطية بين مؤشر كتلة الجسم ومرض السكَّر أقوى من العلاقة الارتباطية بين الوزن ومرض السكَّر. في الواقع، معامل ارتباط بيرسون لمرض السكَّر ومؤشر كتلة الجسم لهذه المجموعة من البيانات هو .

شكل ٤-٢: مخطَّطات التشتُّت الخاصة باحتمالية الإصابة بمرض السكَّر فيما يتعلق بطول القامة، والوزن، ومؤشر كتلة الجسم.

يوضح مثال مؤشر كتلة الجسم أنه من الممكن ابتكار سِمة مُشتقة جديدة من خلال تحديد دالَّة تأخذ سمات متعددة كمدخلٍ لها. كما يُبيِّن أيضًا أنه من الممكن حساب معامل ارتباط بيرسون بين هذه السمة المشتقة وسمة أخرى في مجموعة البيانات. علاوة على ذلك، يمكن لسمة مشتقة أن تحظى بعلاقة ارتباطية مع سمة مستهدَفة على نحوٍ أوثق من العلاقة التي تربط بين أيٍّ من السمات المستخدَمة لتوليد السمة المشتقة وبين السمة المستهدَفة. وتتمثل إحدى الطرق لفهم سبب وجود علاقة ارتباطية أكثر إيجابية بين مؤشر كتلة الجسم وسمة الإصابة بمرض السكَّر مقارنة إما بالطول أو بالوزن في أن احتمالية إصابة شخصٍ ما بهذا المرض متوقفة على التأثير المتبادَل بين الطول والوزن، ويُمثل مؤشر كتلة الجسم هذا التأثير المتبادَل على نحوٍ مناسب فيما يخصُّ احتمالية الإصابة بمرض السكَّر. ويهتم المعالجون بمؤشر كتلة الجسم الخاص بالأفراد لأنه يوفر لهم المزيد من المعلومات عن احتمالية إصابة الشخص بمرض السكَّر من النوع الثاني أكثر مما يوفِّره طول الشخص أو وزنه فحسْب على نحوٍ مستقل.

ذكرنا بالفعل أن اختيار السمة هي مُهمة أساسية في علم البيانات. ويُعد تصميم السمة مهمةً أساسية أيضًا. تكمن القيمة الحقيقية لعلم البيانات غالبًا في تصميم سمةٍ مشتقة ذات علاقة ارتباطية قوية بسمةٍ ما تثير اهتمامنا. وبمجرد أن تُحدِّد السمات المناسبة لتستخدِمها لتُمثِّل البيانات، يمكنك تصميم نماذج دقيقة بسرعة نسبيًّا. ويُعد اكتشاف السمات المناسبة وتصميمها هو الجزء الصعب. وفي حالة مؤشر كتلة الجسم، صمَّم البشر هذه السمة المشتقة في القرن التاسع عشر. غير أن خوارزميات تعلُّم الآلة يمكنها فهم التأثيرات المتبادلة بين السمات وإنشاء سماتٍ مشتقة مفيدة من خلال البحث عبر توليفاتٍ مختلفة من السمات والتأكد من العلاقة الارتباطية بين هذه التوليفات والسمة المستهدفة. ولهذا السبب تعلُّم الآلة مفيد في سياقات حيث تُسهم الكثير من السمات ذات التأثير المتبادل الضعيف في العملية التي نُحاول فهمها.

من المفيد تحديد سمةٍ (خام أو مشتقة) ذات علاقة ارتباطية وثيقة بسمةٍ مستهدَفة لأن السمة المرتبطة ربما تُعطينا رؤية عن العملية التي تسببت في الظاهرة التي تُمثلها السمة المستهدفة: تشير حقيقة أن مؤشر كتلة الجسم مرتبط ارتباطًا وثيقًا باحتمالية إصابة الشخص بمرض السكَّر إلى أن الوزن في حدِّ ذاته لا يُسهم في إصابة الشخص بالسكَّر وإنما ما يُسهم في الإصابة هي معاناة الشخص من السمنة. أيضًا إذا كانت السمة المدخَلة مرتبطة ارتباطًا وثيقًا بسمةٍ مستهدفة، فمن المرجَّح أن تكون مدخلًا مفيدًا في نموذج التنبؤ. وعلى غرار تحليل الارتباط، ينطوي التنبؤ على تحليل العلاقات بين السمات. ولكي نتمكن من تعيين السمة المستهدَفة من القِيَم الخاصة بمجموعة سماتٍ مُدخلة، يجب أن يكون هناك علاقة ارتباطية بين السمات المدخلة (أو دالة مُشتقة تطبق عليها) والسمة المستهدفة. وإذا لم تكن هذه العلاقة الارتباطية موجودة (أو لا تستطيع الخوارزمية العثور عليها)، إذن السمات المدخَلة ليست ذات صلةٍ بمسألة التنبؤ، وأفضل ما يستطيع النموذج أن يفعله هو تجاهل تلك المدخلات والتنبؤ بالاتجاه الرئيسي لتلك السمة المستهدفة² في مجموعة البيانات. وعلى العكس، إذا كان هناك ارتباط وثيق بين السمات المدخلة والسمة المستهدفة، من المرجَّح أن تكون خوارزمية تعلُّم الآلة قادرة على إنشاء نموذج تنبؤ دقيق للغاية.

الانحدار الخطي

عندما تتكوَّن مجموعة بيانات من سماتٍ عددية، حينئذٍ كثيرًا ما تُستخدَم نماذج التنبؤ المعتمدة على الانحدار. ويقدِّر «تحليل الانحدار» القيمة المتوقعة (أو المتوسطة) لسمةٍ عددية مستهدفة عندما تكون جميع سمات الإدخال ثابتة. والخطوة الأولى في تحليل الانحدار هي افتراض بِنية العلاقة بين السمات المدخلة والسمة المستهدفة. حينئذٍ يُحدَّد النموذج الرياضي القائم على المعاملات للعلاقة المفترَضة. يُسمَّى هذا النموذج القائم على المعاملات ﺑ «دالة الانحدار». يمكنك التفكير في دالة الانحدار باعتبارها آلةً تُحوِّل المدخلات إلى قيمةٍ مُخرجة والتفكير في المعاملات باعتبارها الإعدادات التي تتحكم في سلوك الآلة. وربما تحتوي دالة الانحدار على عدة مُعاملات، وينصبُّ تركيز تحليل الانحدار على إيجاد الإعدادات الصحيحة لهذه المعاملات.

من الممكن افتراض ونمذجة العديد من أنواع العلاقات المختلفة باستخدام تحليل الانحدار. ونظريًّا القيد الوحيد على بِنية العلاقة التي يمكن نمذجتها هو القدرة على تحديد دالَّة الانحدار المناسبة. وفي بعض المجالات، ربما يكون هناك أسباب نظرية قوية تفرِض نوعًا معينًا من العلاقة، ولكن في ظلِّ غياب هذا النوع من نظرية المجال فمن الأفضل البدء بافتراض أبسط شكلٍ للعلاقات — ألا وهي العلاقة الخطية — ثم المضي قدمًا لوضع نموذجٍ للعلاقات الأكثر تعقيدًا إذا لزم الأمر. وأحد الأسباب للبدء بعلاقةٍ خطية هو أن دوال الانحدار الخطي من السهل نسبيًّا تفسيرها. والسبب الآخر هو الاعتقاد السائد بأن إبقاء الأمور بسيطةً بقدْر الإمكان هي فكرة سديدة بوجهٍ عام.

عند افتراض علاقة خطِّية، يُطلَق على تحليل الانحدار «انحدار خطي». وأبسط تطبيقٍ للانحدار الخطي هو نمذجة العلاقة بين سمتَين: سمة مُدخَلة (س) وسمة مستهدفة (مُخرجة) (ص). وفي هذه المسألة البسيطة للانحدار الخطي، يكون شكل دالة الانحدار كما يلي:

ودالة الانحدار هذه هي مجرد معادلة خط (كثيرًا ما تُكتب على هذا الشكل: ) مألوفة لأغلب من درسوا مادة الهندسة في المرحلة الثانوية.³ ويُعَد المتغيِّران و مُعامِلَين لدالَّة الانحدار. ويغير تعديل هذَين المعاملَين طريقة تعيين الدالة للمُخرَج بناءً على المدخَل . والمعامل هو نقطة التقاطع مع المحور الصادي () (أو الرمز المستخدَم في مادة الهندسة بالمرحلة الثانوية) التي تُحدد نقطة تقاطع الخط مع المحور الرأسي عندما تساوي صفرًا. ويُحدد المعامِل درجة انحدار الخط (أي هو المكافئ للرمز في نسخة المرحلة الثانوية).

وفي تحليل الانحدار، تكون مُعاملات دالة الانحدار مجهولةً في البداية. وتحديد مُعاملات دالة الانحدار يكافئ البحث عن الخط الذي يتناسَب مع البيانات على أفضل وجه. وتبدأ استراتيجية تحديد هذه المعاملات بتخمين قِيَم المعاملات ثم تحديث المعاملات على نحوٍ مُتكرر لتقليل الخطأ الإجمالي للدالة على مجموعة البيانات. ويُحسب الخطأ الإجمالي في ثلاث خطوات:

(١)
تُنفذ الدالة على مجموعة البيانات، وتقدر قيمة السِّمة المستهدفة لكل مثيلٍ موجود في البيانات.
(٢)
يُحسب خطأ الدالة لكل مثيلٍ من خلال طرح القيمة التقديرية للسمة المستهدفة من قيمتها الحقيقية.
(٣)
يتم تربيع خطأ الدالة لكلِّ مثيل، ثم تُجمَع هذه القِيَم التربيعية.

يتم تربيع خطأ الدالَّة لكل مثيلٍ في الخطوة الثالثة لتجنُّب إلغاء أثر الأخطاء المتعاكسة عند المبالغة في تقدير القيمة المستهدفة وعند التقليل منها. وتربيع الخطأ يجعل الخطأ موجبًا في كِلتا الحالتَين. ويُعرف هذا القياس للخطأ باسم «مجموع الأخطاء التربيعية»، وتُعرف استراتيجية إعداد دالة خطِّية من خلال البحث عن المعامِلات التي تُقلل هذا المجموع إلى الحد الأدنى باسم «المربعات الصغرى». ويتحدَّد مجموع الأخطاء التربيعية بالمعادلة التالية:

حيث تحتوي مجموعة البيانات على عدد من المثيلات، و هي قيمة السمة المستهدفة للمثيل في مجموعة البيانات، وهو القيمة التقديرية للسمة المستهدفة باستخدام دالَّة بالمثيل نفسه.

ولكي نُنشئ نموذج تنبؤٍ قائمًا على الانحدار الخطي الذي يُقدِّر احتمالية إصابة الفرد بمرض السكَّر بناءً على مؤشر كتلة جسمه، نستبدِل سمةَ مؤشر كتلة الجسم بالرمز ، وسمة الإصابة بالسكَّر بالرمز ، ونستعين بخوارزمية المربعات الصغرى لإيجاد الخط الأكثر ملاءمةً لمجموعة بيانات الإصابة بالسكَّر. يوضح شكل ٤-٣(أ) الخط الأكثر ملاءمةً ومَوضِعَهُ بالنسبة إلى المثيلات في مجموعة البيانات. وفي شكل ٤-٣(ب)، تُظهِر الخطوط المتقطِّعة الخطأ (أو القيمة الباقية) لكل مثيلٍ لهذا الخط. وباستخدام منهج المربعات الصغرى، يكون الخط الأكثر ملاءمةً هو الخط الذي يُقلل إجمالي القيم الباقية التربيعية إلى أدنى حد. ومعادلة هذا الخط كما يلي:

الإصابة بمرض السكر = − ٧٫٣٨٤٣١ + ٠٫٥٥٥٩٣ ⋆ مؤشر كتلة الجسم

تُشير قيمة معامِل الميل إلى أن النموذج يزيد من الاحتمالية المقَدَّرة لإصابة الشخص بالسكَّر بنسبةٍ تزيد قليلًا عن نصف بالمائة مع كل زيادة مقدارها وحدة واحدة على مؤشر كتلة الجسم. ومن أجل التنبؤ باحتمالية إصابة الشخص بالسكَّر، نُدخِل بكل بساطة مؤشر كتلة جسم الشخص في النموذج. على سبيل المثال، إذا كان مؤشر كتلة الجسم يساوي ٢٠، يتنبَّأ النموذج باحتمالية الإصابة بالسكَّر بنسبة ٣٫٧٣ بالمائة، وعندما يساوي مؤشر كتلة الجسم ٢١، يتنبَّأ النموذج باحتمالية الإصابة بنسبة ٤٫٢٩.⁴

شكل ٤-٣: (أ) خط الانحدار الأكثر ملاءمةً للنموذج هو «الإصابة بمرض السكر = −٧٫٣٨٤٣١ + ٠٫٥٥٥٩٣ ⋆ مؤشر كتلة الجسم». (ب) توضح الخطوط الرأسية المتقطِّعة القيمة المتبقية لكل مثيل.

وفي باطن هذه العملية، يحسُب نموذجُ انحدار خطِّي، مُعَد باستخدام أسلوب المربعات الصغرى، فعليًّا المتوسطَ المرجَّحَ عبر المثيلات. في الواقع، تؤكد قيمة معامِل انحدار الميل أن الخط الأكثر ملاءمةً يمر عبر النقطة المحددة بمتوسط قيمة مؤشر كتلة الجسم ومتوسط قيمة الإصابة بالسكَّر من واقع مجموعة البيانات. فإذا أُدخلت قيمة متوسط مؤشر كتلة الجسم في مجموعة البيانات (مؤشر كتلة الجسم = ٢٤٫٠٩٣٢)، فإن النموذج يقدِّم قيمةَ احتمالية الإصابة بالسكَّر بنسبة ٤٫٢٩ في المائة، وهي القيمة المتوسطة للإصابة بمرض السكَّر وفقًا لمجموعة البيانات.

يتوقف ترجيح (تحديد وزن) المثيلات على المسافة الفاصلة بين المثيل والخط: كلما ابتعد أحد المثيلات عن الخط، زادت القيمة المتبقية لذلك المثيل، وستُرجح الخوارزمية ذلك المثيل من خلال تربيع القيمة المتبقية. وإحدى تداعِيات تحديد الوزن هي أن المَثيلات ذات القِيم المتطرفة (الشاذة) يكون لها تأثير كبير على نحوٍ غير متناسب على عملية إعداد الخط الأكثر ملاءمة، مما يُسفر عن إبعاد الخط عن المثيلات الأخرى. وبالتالي، من المهم التحقق من القِيَم الشاذة في مجموعة البيانات قبل إعداد الخط الأكثر ملاءمةً لمجموعة البيانات (أو بعبارة أخرى، تدريب دالة انحدار خطِّي على مجموعة البيانات) باستخدام خوارزمية المربعات الصغرى.

يمكن التوسع في نماذج الانحدار الخطي لاستيعاب عدة مدخلات. يُضاف معاملٌ جديد إلى النموذج من أجل كل سمةٍ مُدخلة جديدة، وتُحدَّث المعادلة الخاصة بالنموذج لتشملَ نتيجة ضرب السمة الجديدة في المعامل الجديد ضمن المجموع. على سبيل المثال، من أجل التوسع في النموذج ليشمل سِمتَي التمارين الرياضية والوزن كمدخلات، ستصير معادلة دالة الانحدار كما يلي:

الإصابة بمرض السكر = + مؤشر كتلة الجسم + التمارين الرياضية + الوزن.

في علم الإحصاء، تُعرف دالة الانحدار التي تُعيِّن مُخرجًا واحدًا من عدة مدخلات بهذه الطريقة باسم «دالة انحدار خطِّي مُتعدد». تُعد بِنية دالة الانحدار المتعدد المدخلات أساسًا لمجموعةٍ من خوارزميات تعلُّم الآلة، من بينها الشبكات العصبية.

وتُعد العلاقة الارتباطية والانحدار مفهومَين متشابهَين حيث إن كليهما تِقنيتان تُركزان على العلاقات بين السمات في مجموعة البيانات. وتركز العلاقة الارتباطية على اكتشاف ما إذا كان هناك علاقة موجودة بين سِمتَين، ويركز الانحدار على نمذجة علاقة مفترضة بين السمات بغرَض القدرة على تقدير قيمة إحدى السمات المستهدَفة بناءً على قِيَم سِمة أو أكثر من السِّمات المدخلة. في الحالات المحددة لعلاقة بيرسون الارتباطية والانحدار الخطي، تقيس علاقة بيرسون الارتباطية درجة وجود علاقةٍ خطية بين سمتَين، والانحدار الخطي المدرب باستخدام المربعات الصغرى هو عملية لإيجاد خطٍّ أكثر ملاءمةً يتنبأ بقيمة سمةٍ بمعلومية قيمة سِمة أخرى.

الشبكات العصبية والتعلُّم العميق

تتكون «الشبكة العصبية» من مجموعة من الخلايا العصبية (أو العصبونات). تأخذ الخلية العصبية مجموعة من القيم العددية كمُدخلٍ لها ثم تعيِّن قيمة مُخرَجة وحيدة. والخلية العصبية، في جوهرها، هي بكل بساطة دالة انحدار خطي متعدد المدخلات. الفارق الوحيد المهم بين الاثنين أنه في الخلية العصبية يُمرَّر مخرج دالة الانحدار الخطي المتعدد المدخلات عبر دالةٍ أخرى يُطلق عليها «دالة تنشيط».

تُنفِّذ دوال التنشيط هذه عملية تعيين غير خطية لمُخرَج دالة الانحدار الخطي المتعدد المدخلات. ثمة دالتان تنشيطيَّتان شائعتا الاستخدام ألا وهما الدالة اللوجستية ودالة ظلِّ الزاوية الزائديِّ (انظر شكل ٤-٤). تأخذ كلتا الدالتَين قيمةً واحدة بصفتها مدخلًا؛ في الخلية العصبية، هذه القيمة هي المخرج الناتج عن دالة الانحدار الخطِّي المتعدد المدخَلات التي نفذتها الخلية العصبية على مدخلاتها. وتستخدِم كلتا الدالتين عدد أويلر، ، الذي يساوي تقريبًا ٢٫٧١٨٢٨١٨٢. أحيانًا يُطلق على هاتَين الدالتَين «دوال الضغط» لأنهما تأخذان أية قيمةٍ بين عددٍ لا نهائي موجب وعددٍ لا نهائي سالب ويقومان بتعيينها إلى نطاقٍ صغير مُحدد مسبقًا. ونطاق مخرجات الدالة اللوجستية يكون من ٠ إلى ١، ونطاق دالة ظلِّ الزاوية الزائدي يكون من −١ إلى ١. وكنتيجة لذلك، دائمًا ما تكون مُخرَجات الخلية العصبية التي تستعين بالدالة اللوجستية بوصفها دالَّتها التنشيطية ما بين صفر وواحد. وتتَّضح حقيقة أن كِلتا الدالتَين اللوجستية وظل الزاوية الزائدي تُنفذان عمليات تعيين غير خطية في شكل المنحنيات التي تتخذ شكل حرف . والسبب وراء تنفيذ عمليات تعيين غير خطية في الخلية العصبية هو أن أحد أوجه قصور دالة الانحدار الخطي المتعدد المدخلات يتمثل في أن الدالة خطية، كما يتَّضح من اسمها، وإذا نفَّذت جميع الخلايا العصبية داخل الشبكة عمليات التعيين الخطية فحسب، فسوف تقتصِر الشبكة العصبية ككلٍّ على تعلُّم الدوال الخطية فقط. ومع ذلك، فإن تنفيذ دالة التنشيط غير الخطية في الخلايا العصبية الخاصة بالشبكة تُتيح للشبكة تعلُّم الدوالِّ الأكثر تعقيدًا (غير الخطية).

شكل ٤-٤: رسم بياني للدالة اللوجستية ودالة ظلِّ الزاوية الزائديِّ أثناء تنفيذهما على المدخل .

تجدُر الإشارة إلى أن كل خليةٍ عصبية في الشبكة تُجري مجموعة بسيطة جدًّا من العمليات:

(١)
ضرب كل مُدخلٍ في وزن.
(٢)
جمع نتائج عمليات الضرب معًا.
(٣)
تمرير هذه النتيجة عبر دالة تنشيط.

تُعد العمليَّتان الأولى والثانية مجرد عملياتٍ حسابية لدالة انحدار مُتعدد المدخلات، والعملية الثالثة هي تنفيذ دالة تنشيط.

لكل الوصلات بين الخلايا العصبية في شبكةٍ ما يُوجَد اتجاه مُعين ووزن مُرتبط بها. ووزن الوصلة المتجهة إلى داخل خليةٍ عصبية هو الوزن الذي تمنحه الخلية العصبية للمُدخَل الذي تستقبِله في تلك الوصلة عند حساب دالة الانحدار المتعدد المدخلات على مدخلاتها. ويوضح شكل ٤-٥ البنية الهيكلية لشبكةٍ عصبية بسيطة. ويُمثل المربَّعان الموجودان على يسار الشكل، المكتوب عليهما و، مواضع في الذاكرة نستخدِمها لتقديم البيانات المدخلة إلى الشبكة. ولا تُنفذ أية عمليات لمعالجة البيانات أو تحويلها في تلك المواضع. يمكنك أن تعتبر تلك العقد خلايا عصبية خاصة بالمدخلات أو خلايا استشعارية، حيث يُضبط تنشيط مخرجاتها حسب قيمة المدخَل.⁵ وتُمثِّل الدوائر الموجودة في شكل ٤-٥ (المكتوب عليها و و و) الخلايا العصبية في الشبكة. غالبًا ما يفيد التفكير في الخلايا العصبية في الشبكة على أنها مُرتَّبة على هيئة طبقات. ولهذه الشبكة ثلاث طبقات من الخلايا العصبية: طبقة المدخلات وهي تحتوي على و؛ وطبقة مَخفيَّة وتحتوي على و و؛ وطبقة المخرجات وتحتوي على . ويصف مصطلح «الطبقة المخفية» حقيقة أن الخلايا العصبية في هذه الطبقة ليست موجودة في طبقة المدخلات ولا في طبقة المخرَجات؛ وإنما هي مخفيَّة عن الأنظار.

شكل ٤-٥: شبكة عصبية بسيطة.

تمثل الأسهم، التي تربط بين الخلايا العصبية في الشبكة، اتجاه تدفُّق المعلومات عبر هذه الشبكة. فمن الناحية التقنية، تُعَد هذه الشبكة بعينها شبكةً عصبية ذات تغذيةٍ أمامية لأنه لا يوجد حلقات تكرار في هذه الشبكة: تُشير جميع الوصلات إلى الأمام من المدخلات إلى المخرجات. وهذه الشبكة متصلة بعضها ببعض بالكامل لأن كل خلية عصبية متصلة بجميع الخلايا العصبية الأخرى في الطبقة التالية من الشبكة. ومن الممكن إنشاء عدة أنواعٍ مختلفة من الشبكات العصبية من خلال تغيير عدد الطبقات، وعدد الخلايا العصبية في كل طبقة، ونوع دوالِّ التنشيط المستخدَمة، واتجاه الوصلات بين الطبقات، وغيرها من المعاملات. في الواقع، يتضمن قدْر كبير من الجهد المطلوب لتطوير شبكةٍ عصبية لأداء مهمةٍ معينة، التجريبَ، للعثور على أفضل تصميمٍ للشبكة لكي تؤدي تلك المهمة.

تمثل التسميات على كلِّ سهم الوزن الذي تمنحه العقدة الموجودة في نهاية السهم للمعلومات التي تُنقل عبر تلك الوصلة. على سبيل المثال، السهم الرابط بين و يُشير إلى أن المخرَج من يُمرر كمُدخل إلى ، وسوف تمنح الوزن للمُدخل القادم من .

إذا افترضنا أن الخلايا العصبية في الشبكة الموضحة بشكل ٤-٥ تستخدِم دالة تنشيطٍ من نوع ظل الزاوية الزائدي، يُمكننا إذن كتابة المعادلة الحسابية التي تُجرى في الخلية العصبية من الشبكة على النحو التالي:

المخرج = ظل الزاوية الزائدي ().

يوضح التعريف الرياضي لعملية المعالجة التي تُجرى في الخلية العصبية أن المخرج النهائي للشبكة يُحسب باستخدام تركيبةٍ من مجموعة دوال. وتعني عبارة «تركيبة من الدوال» أن المخرَج الخاص بدالة واحدة يُستخدم كمُدخلٍ لدالة أخرى. في هذه الحالة، مُخرجات الخلايا العصبية و و تُستخدَم كمُدخلاتٍ للخلية العصبية ، وبالتالي تتكوَّن الدالة التي تستخدِمها خلية من الدوال التي تنفذها الخلايا و و.

يجعل شكل ٤-٦ هذا الوصف الخاص بالشبكات العصبية أكثر واقعية، موضحًا شبكة عصبية تأخذ نسبة الدهون في الجسم لشخصٍ والسعة القصوى للأكسجين (مقياس للحد الأقصى لكمية الأكسجين التي يمكن لشخصٍ استخدامها في الدقيقة) كمُدخَل وتحسب مستوى لياقة هذا الشخص.⁶ تحسب كل خلية عصبية في الطبقة الوسطى من الشبكة دالةً قائمة على نسبة الدهون في الجسم والسعة القصوى للأكسجين: و و. تُظهِر كل دالةٍ التفاعل بين المدخلات بطريقةٍ مختلفة. تمثل هذه الدوال بالأساس سماتٍ جديدة مُستقاة من المدخلات الخام إلى الشبكة. وهي تُشبه سمة مؤشر كتلة الجسم المذكورة آنفًا؛ ويُحسَب مؤشر كتلة الجسم كدالةٍ للوزن والطول. وأحيانًا من الممكن تفسير ما يُمثله المخرج الخاص بخلية عصبية في الشبكة إلى الحد الذي يمكن أن يُقدِّم وصفًا نظريًّا لما تُمثله السمة المشتقة وفهم سبب كون هذه السمة المشتقة مفيدة للشبكة. ومع ذلك، عادةً لا يكون للسمة المشتقة، التي تحسبها الخلية العصبية، معنًى رمزي بالنسبة للبشر. وبدلًا من ذلك، تُصوِّر هذه السمات التفاعلاتِ بين السمات الأخرى التي وجدتها الشبكة مفيدة. تحسب العقدة الأخيرة في الشبكة دالةً أخرى — عبر مُخرَجات و و — تُعَد مخرجاتها هي مستوى اللياقة المتوقَّع الناتج عن الشبكة. ونُكرر مرة أخرى أن هذه الدالة ربما لا تكون ذات مغزًى بالنسبة للبشر، باستثناء حقيقة أنها تُحدد تأثيرًا متبادلًا وجدَتِ الشبكة أنه ذا علاقة ارتباطية وثيقة بالسمة المستهدفة.

شكل ٤-٦: شبكة عصبية تتنبأ بمستوى لياقة شخصٍ ما.

يشمل تدريب الشبكة العصبية إيجاد الأوزان الصحيحة للوصلات الموجودة في الشبكة. ولفهم كيفية تدريب شبكة عصبية، من المفيد البدء في التفكير في كيفية تدريب الأوزان من أجل خليةٍ عصبية وحيدة في طبقة المخرجات الخاصة بالشبكة. افترض أن لدَينا مجموعة بيانات تدريب تحتوي على مُدخلاتٍ ومُخرجات مستهدَفة لكلِّ مَثيل. افترض أيضًا أن الوصلات الآتية إلى الخلية العصبية لها أوزان مُعينة. فإذا أخذنا مثيلًا من مجموعة البيانات وقدَّمنا قِيمًا للسمات المدخَلة لهذا المثيل في الشبكة، ستتنبَّأ الخلية العصبية بالسمة المستهدَفة على هيئة مُخرج. ومن خلال طرح هذه القيمة المتنبِّئة من القيمة المحسوبة للسمة المستهدَفة في مجموعة البيانات، يُمكننا حساب خطأ الخلية العصبية لذلك المثيل. ومن خلال الاستعانة ببعض أساسيات حساب التفاضل والتكامل، من الممكن استنباط قاعدةٍ لتحديث الأوزان الخاصة بالوصلات الآتية من الخلية العصبية بمعلومية قياس خطأ المخرَج الخاص بالخلية العصبية بهدف تقليل نسبة خطأ الخلية العصبية. وسيختلف التعريف الدقيق لهذه القاعدة باختلاف دالَّة التنشيط التي استخدمتها الخلية العصبية لأن دالة التنشيط تؤثر على السمة المشتقة المستخدَمة لاشتقاق القاعدة. ولكن يُمكننا تقديم التفسير البديهي التالي لآلية عمل قاعدة تحديث الوزن:

(١)
إذا كان الخطأ يُساوي صفرًا، إذن لا ينبغي لنا تغيير الأوزان الممنوحة للمُدخلات.
(٢)
إذا كان الخطأ بالموجب، سنُقلل الخطأ إذا قُمنا بزيادة مُخرَجات الخلية العصبية، إذن يجب أن نزيد أوزان جميع الوصلات التي يكون فيها المدخَل بالموجب ونُقلل أوزان الوصلات التي يكون فيها المدخَل بالسالب.
(٣)
إذا كان الخطأ بالسالب، سنُقلل الخطأ إذا قلَّلنا مُخرَجات الخلية العصبية، وبالتالي يجب أن نُقلل أوزان جميع الوصلات التي يكون فيها المدخَل بالموجب ونزيد أوزان الوصلات حيث يكون المدخَل بالسالب.

تكمن الصعوبة في تدريب شبكةٍ عصبية في أن قاعدة تحديث الوزن تتطلَّب تقديرًا للخطأ الموجود في خلية عصبية، وعلى الرغم من أنه يسهل حساب الخطأ في كل خليةٍ عصبية من طبقة المخرَجات الخاصة بالشبكة، فمن الصعب حساب الخطأ الخاص بالخلايا العصبية في الطبقات الأولى. والطريقة القياسية لتدريب شبكة عصبية هو استخدام خوارزمية تُسمَّى «خوارزمية الانتشار العكسي» لحساب الخطأ لكلِّ خليةٍ عصبية في الشبكة واستخدام قاعدة تحديث الوزن لتعديل الأوزان في الشبكة.⁷ وتُعد خوارزمية الانتشار العكسي خوارزمية تعلُّم آلةٍ خاضع للإشراف، ومن ثم تفترض مجموعة بيانات مدربة لها مُدخَلات ومُخرَج مستهدَف لكل مثيل. يبدأ التدريب بتعيين أوزانٍ عشوائية لكل وصلةٍ من الوصلات الموجودة في الشبكة. تحدِّث الخوارزمية بعد ذلك الأوزان في الشبكة على نحوٍ متكرِّر من خلال عرض مثيلات التدريب من مجموعة البيانات على الشبكة وتحدِّث أوزان الشبكة إلى أن يتحسَّن أداء الشبكة كما هو متوقَّع منها. ويأتي اسم خوارزمية «الانتشار العكسي» من حقيقة أنه بعد تقديم كلِّ مثيلٍ تدريبي إلى الشبكة، تُمرِّر الخوارزمية خطأ الشبكة على نحوٍ عكسي عبر الشبكة بدايةً من طبقة المخرَجات وتحسب عند كل طبقة في الشبكة أخطاء الخلايا العصبية الموجودة في تلك الطبقة قبل مشاركة هذا الخطأ مرةً أخرى مع الخلايا العصبية الموجودة في الطبقة السابقة. وفيما يلي الخطوات الأساسية التي تقوم بها هذه الخوارزمية:

(١)
حساب خطأ الخلايا العصبية الموجودة في طبقة المخرجات والاستعانة بقاعدة تحديث الوزن لتحديث الأوزان الداخلة إلى هذه الخلايا العصبية.
(٢)
مشاركة الخطأ المحسوب عند إحدى الخلايا العصبية مع كلِّ خليةٍ عصبية في الطبقة السابقة المتصلة بتلك الخلية العصبية بالتناسُب مع وزن الوصلة الرابطة بين الخليتَين العصبيتَين.
(٣)
بالنسبة إلى كل خليةٍ عصبية في الطبقة السابقة، حساب إجمالي أخطاء الشبكة التي تَسبَّبَت فيها الخلية العصبية عن طريق جمع الأخطاء التي انتشرت انتشارًا عكسيًّا واستخدام نتيجة مجموع هذه الأخطاء لتحديث الأوزان الخاصة بالوصلات الداخلة إلى هذه الخلية العصبية.
(٤)
التعامل مع باقي الطبقات في الشبكة من خلال تكرار الخطوتَين الثانية والثالثة حتى تُحدَّث أوزان الوصلات ما بين خلايا المدخلات والطبقة الأولى من الخلايا العصبية المخفية.

في الانتشار العكسي، تُحسَب تحديثات الأوزان لكل خليةٍ عصبية من أجل الإقلال من أخطاء الخلية العصبية في المثيل التدريبي، لا من أجل التخلُّص نهائيًّا من الأخطاء. والسبب وراء ذلك أن الهدف وراء تدريب الشبكة هو تمكينها من التعميم على المَثيلات الجديدة غير الموجودة في بيانات التدريب بدلًا من حفظ بيانات التدريب. وبالتالي، كل مجموعة من تحديثات الأوزان تدفع الشبكة نحوَ مجموعةٍ من الأوزان التي تُناسب بوجهٍ عام مجموعة البيانات بالكامل، ومن خلال العديد من عمليات التكرار تستقر الشبكة على مجموعةٍ من الأوزان التي ترصد التوزيع العام للبيانات بدلًا من التفاصيل المخصصة لمثيلات التدريب. وفي بعض نُسَخ الانتشار العكسي، تُحدَّث الأوزان بعد تقديم عددٍ من المثيلات (أو مجموعة من المثيلات) للشبكة وليس بعد كل مثيلٍ تدريبي. التعديل الوحيد اللازم إجراؤه على هذه النُّسَخ هو أن تستخدِم الخوارزمية متوسط خطأ الشبكة على مجموعةٍ من المثيلات باعتباره مقياس الخطأ عند طبقة المخرجات لعملية تحديث الوزن.

أحد أكثر التطوُّرات التقنية المثيرة للاهتمام خلال السنوات العشر الأخيرة هو ظهور التعلُّم العميق. وشبكات «التعلُّم العميق» هي ببساطة شبكات عصبية ذات طبقاتٍ متعددة⁸ من الوحدات المخفية؛ بعبارةٍ أخرى، هي «عميقة» من حيث عدد الطبقة المخفية التي تحتويها. للشبكة العصبية الموجودة في شكل ٤-٧ خمس طبقات: طبقة مدخلات على اليسار تحتوي على ثلاث خلايا عصبية، وثلاث طبقات مخفية (الدوائر السوداء)، وطبقة مُخرَجات واحدة على اليمين تحتوي على خليتَين. توضح هذه الشبكة أنه يمكن أن يكون هناك عدد مختلف من الخلايا العصبية في كل طبقة: طبقة المدخَلات بها ثلاث خلايا عصبية؛ الطبقة الأولى المخفيَّة بها خمس؛ وكل طبقة من الطبقتَين المخفيتَين التاليتَين بها أربع؛ وطبقة المخرجات بها اثنتان. توضح هذه الشبكة أيضًا أن طبقة المخرَجات من الممكن أن تحتوي على عدة خلايا عصبية. واستخدام عدة خلايا عصبية للمخرجات مفيد إذا كانت السمات المستهدفة من نوع البيانات الاسمية أو الترتيبية التي لها مستويات مختلفة. وفي هذه السيناريوهات، تُعدَّ الشبكة بحيث يكون هناك خلية عصبية واحدة للمُخرَجات في كل مستوًى، ويتم تدريب الشبكة بحيث يكون لكل مُدخَل خلية مُخرَجات واحدة فقط تُخرج تنشيطًا عاليًا (مما يدل على المستوى المستهدف المتوقع).

شكل ٤-٧: شبكة عصبية عميقة.

كما في الشبكات السابقة التي ألقينا نظرةً عليها، الشبكة المبينة في شكل ٤-٧ متصلة بعضها ببعض بالكامل، وهي شبكة تغذية أمامية. ومع ذلك، ليست جميع الشبكات شبكةَ تغذية أمامية مُتصلة بالكامل. في الواقع، طُوِّرت أشكال مُتعددة من طوبولوجيا الشبكة. على سبيل المثال، تقدم الشبكات العصبية التكرارية الحلقات التكرارية في طوبولوجيا الشبكة: تُرجَع مُخرجات الخلية العصبية الخاصة بمُدخل مُعين إلى الخلية العصبية أثناء معالجة الإدخال التالي. تُكوِّن هذه الحلقة التكرارية ذاكرة للشبكة تُمكنها من معالجة كل مُدخَل في سياق المدخلات السابقة التي عالجتها. ونتيجة لذلك، تُعد الشبكات العصبية التكرارية مناسبةً لمعالجة البيانات المتسلسلة مثل اللغة.⁹ ثمة بِنية أخرى مشهورة للشبكات العصبية العميقة ألا وهي الشبكة العصبية الالتفافية. صُمِّمت هذه الشبكات في الأصل من أجل استخدامها مع الصور (Le Cun 1989). وإحدى الخصائص المرغوبة لشبكة التعرُّف على الصور هي أنها ينبغي أن تكون قادرة على التعرُّف على ما إذا كانت سمةٌ بصرية معينة قد ظهرت في صورةٍ ما بغضِّ النظر عن موضع حدوثها في الصورة. على سبيل المثال، إذا كانت شبكةٌ ما تجري عملية التعرُّف على الوجوه، فإنها يجب أن تكون قادرةً على التعرُّف على شكل العين إذا كانت العين موجودةً في الركن العلوي الأيسر أم في وسط الصورة. تُحقق الشبكات العصبية الالتفافية هذا لأنها تحتوي على مجموعاتٍ من الخلايا العصبية التي تتشارك في نفس مجموعة الأوزان الخاصة بمُدخلاتها. وفي هذا السياق، فلنضرب مثلًا بمجموعة أوزان المدخلات على أنها تعرف دالة بحيث تعطي نتيجة «صواب» في حال إذا ظهرت سمة بصرية مُعينة في مجموعة البكسلات التي تُمرَّر إلى هذه الدالة. هذا يعني أن كل مجموعة من الخلايا العصبية التي تتشارك في أوزانها تتعلَّم التعرُّف على سمةٍ بصرية مُعينة، وكل خلية عصبية في المجموعة تؤدي دور جهاز كشفٍ عن تلك السمة. وفي الشبكة العصبية الالتفافية، تُرتَّب الخلايا العصبية داخل كل مجموعةٍ بحيث تفحص كل خليةٍ موضعًا مختلفًا في الصورة، وتُغطي المجموعة الصورة بأكملها. ونتيجة لذلك، إذا كانت السمة البصرية التي تبحث عنها المجموعة موجودةً في أي مكانٍ بالصورة، فستتعرف عليها إحدى الخلايا العصبية في المجموعة.

تأتي قوة الشبكات العصبية العميقة من حقيقة أنها يمكن أن تتعلَّم السمات المفيدة تلقائيًّا، مثلما تفعل الخلايا الكاشفة عن سمةٍ ما في الشبكات العصبية الالتفافية. في الواقع، أحيانًا يُعرف التعلُّم العميق باسم «التعلُّم التمثيلي» لأن هذه الشبكات العميقة تتعلم بالضرورة تمثيلًا جديدًا للبيانات المدخلة يعتبر أفضل في التنبؤ بالسمة المستهدَفة من المدخل الأساسي الخام. تعرِّف كل خليةٍ عصبية في الشبكة دالةً تعيِّن القيم المدخلة إلى الخلية العصبية إلى سمة جديدة مُخرجة. ومن ثم، ربما تتعلم خلية عصبية في الطبقة الأولى من الشبكة دالَّةً تعيِّن القيم الخام المدخَلة (مثل الوزن والطول) إلى سمة أفيدَ مِن القِيَم المدخَلة الفردية (مثل مؤشر كتلة الجسم). ومع ذلك، تُغذَّى الخلايا العصبية الموجودة في الطبقة الثانية بالمخرَجات الخاصة بهذه الخلية، بالإضافة إلى المخرجات الخاصة بالخلايا العصبية المجاورة في الطبقة الأولى، وتحاول الخلايا العصبية في الطبقة الثانية أن تتعلَّم الدوال التي تعين مُخرجات الطبقة الأولى إلى تمثيلاتٍ جديدة أكثر فائدة. وتستمر هذه العملية الخاصة بتعيين مُدخلات إلى السمات الجديدة وتغذية الدوال الجديدة بهذه السمات الجديدة كمدخلاتٍ عبر الشبكة، وبينما تزداد الشبكة عمقًا، يُمكنها أن تتعلَّم تعييناتٍ أكثر تعقيدًا من المدخلات الخام إلى تمثيلات السمة الجديدة. إن القدرة على تعلُّم التعيينات المعقدة للبيانات المدخلة تلقائيًّا إلى تمثيلات مفيدة هي ما تجعل نماذج التعلُّم العميق دقيقةً للغاية في المهام الكثيرة الأبعاد (مثل معالجة الصور والنصوص).

ومن المعروف منذ فترةٍ طويلة أن جعل الشبكات العصبية أعمقَ يُتيح للشبكة أن تتعلم تعيينات أعقد للبيانات. والسبب وراء أن التعلُّم العميق لم يُحقق نجاحًا فوريًّا إلا في السنوات القليلة الماضية هو أن المزيج المعتاد المتمثل في الاستهلال بأوزانٍ عشوائية يتبعها خوارزمية انتشار عكسي لا يؤتِي ثماره بشكلٍ جيد مع الشبكات العميقة. وتتمثل إحدى مشكلات خوارزمية الانتشار العكسي في أن الخطأ تتم مشاركته نظرًا إلى أن العملية تتم بشكلٍ عكسي عبر الطبقات، وبالتالي في الشبكة العميقة عندما تصِل الخوارزمية إلى الطبقات الأولى من الشبكة، حينئذٍ لن تكونَ تقديرات الخطأ مفيدة.¹⁰ ونتيجة لذلك، لا تتعلم الطبقات الموجودة في الأجزاء الأولى من الشبكة عمليات التحويل المفيدة للبيانات. وفي السنوات القليلة الماضية، طوَّر الباحثون أنواعًا جديدة من الخلايا العصبية وأضافوا تعديلاتٍ على خوارزمية الانتشار العكسي التي تتعامل مع هذه المشكلة. وقد وُجِد أيضًا أن توخِّي الحذَر بشأن تحديد أوزان عشوائية للشبكة في البداية أمرٌ مفيد. وكان هناك عاملان آخران جعلا من الصعب تدريب الشبكات العميقة، ألا وهما أن تدريب شبكةٍ عصبية يتطلب قدرًا مهولًا من القدرة الحوسبية، وتؤتي الشبكات العصبية ثمارها على نحوٍ أفضل عندما يكون هناك قدرٌ كبير من بيانات التدريب. وكما ناقشنا بالفعل، في السنوات الأخيرة أدَّت الزيادات الكبيرة في إتاحة القدرة الحوسبية ومجموعات البيانات الكبيرة إلى جعل الشبكات العميقة أكثر جدوى.

الهياكل الشجرية لاتخاذ القرار

يعمل الانحدار الخطِّي والشبكات العصبية على أفضل نحوٍ مع المدخَلات العددية. فإذا كانت السمات المدخَلة في مجموعة البيانات سماتٍ اسميةً أو ترتيبية في الأساس، فربما تكون خوارزميات ونماذج تعلُّم الآلة الأخرى، مثل الهياكل الشجَرية لاتخاذ القرار، مناسبةً أكثر لهذه البيانات.

يشفر الهيكل الشجري لاتخاذ القرار مجموعةً من قواعد if-then-else على هيئة شجرة. ويوضح شكل ٤-٨ هيكلًا شجريًّا مستخدمًا لتحديد ما إذا كانت رسالة البريد الإلكتروني عشوائيةً أم غير عشوائية. يمثل المستطيلان مُستديرَا الزوايا اختباراتٍ تخضع لها السمات، أما المربعات فتشير إلى القرار أو التصنيف. يشفر هذا الهيكل الشجري القواعد التالية: «إذا كانت رسالة البريد الإلكتروني من مُرسِل مجهول، إذن فهي رسالة عشوائية؛ وإذا لم تكن من مُرسِل مجهول؛ ولكنها تحتوي على كلماتٍ مُريبة، إذن فهي رسالة عشوائية؛ وإذا لم تكن من مُرسِل مجهول ولا تحتوي على كلماتٍ مُريبة؛ إذن فهي ليست رسالة عشوائية.» وفي الهيكل الشجري لاتخاذ القرار، يُتخَذ القرار الخاص بمثيلٍ عن طريق البدء عند قمة الهيكل الشجري نزولًا إلى الأسفل من خلال إخضاع المثيل لسلسلةٍ من اختبارات السمات. وتُحدد كل عقدةٍ في الهيكل الشجري سمة واحدة للاختبار، وتسير العملية على طول الهيكل الشجري إلى أسفلَ، عقدةً بعقدةٍ من خلال اختيار الفرع المنحدِر من العقدة الحالية ذات المسمَّى المناسب للقيمة الخاصة بالسمة الاختبارية الخاصة بالمثيل. القرار النهائي هو تسمية العقدة الطرفية (أو الورقة) التي ينحدِر إليها المثيل.

شكل ٤-٨: هيكل شجري لتحديد ما إذا كانت رسالة البريد الإلكتروني عشوائيةً أم غير عشوائية.

يحدد كل مسار في الهيكل الشجري، بدايةً من الجذر وصولًا إلى الأوراق، قاعدةً تصنيفية تتألف من سلسلة من الاختبارات. والهدف من خوارزمية التعلُّم القائمة على الهياكل الشجرية هو إيجاد مجموعة من القواعد التصنيفية التي تُقسِّم مجموعة بيانات التدريب إلى مجموعاتٍ من المثيلات لها نفس قيمة السمة المستهدفة. الفكرة هي إذا كانت القاعدة التصنيفية يُمكنها أن تفصل من مجموعة البيانات مجموعةً فرعية من المثيلات التي لها نفس القيمة المستهدفة، وإذا كانت هذه القاعدة التصنيفية مُتحقِّقة أو تعطي نتيجة true لمثيلٍ جديد (بمعنى أن المثيل يسري على ذلك المسار في الهيكل الشجري)، إذن فعلى الأرجح يكون التنبؤ الصحيح لهذا المثيل الجديد هو القيمة المستهدفة التي تتشاركها جميع مثيلات التدريب التي تنطبق عليها هذه القاعدة.

تُعد خوارزمية ثنائية التفرُّع التكرارية ٣ (آي دي ٣) هي المنشأ الذي تنحدِر منه أحدث خوارزميات تعلُّم الآلة القائمة على الهياكل الشجرية لاتخاذ القرار (Quinlan 1986). تنشئ خوارزمية آي دي ٣ هيكلًا شجريًّا لاتخاذ القرار بأسلوبٍ تكراري يعطي الأولوية للتعمق، مُضيفة عقدة واحدة في كل مرة، بدءًا من عقدة الجذر. وتبدأ هذه الخوارزمية باختيار سمةٍ ما عند عقدة الجذر لإخضاعها للاختبار. ينشأ فرع من الجذر لكل قيمةٍ في نطاق هذه السمة الاختبارية ويُسمى بتلك القيمة. على سبيل المثال، سينحدِر فرعان من أي عُقدةٍ ذات سمةٍ ثنائية اختبارية. بعد ذلك تُقسَّم مجموعة البيانات: يسير كلُّ مثيل في مجموعة البيانات إلى أسفل الفرع وتُعطى له تسمية فئوية تتناسَب مع قيمة السمة الاختبارية للمثيل. ثم تنمي خوارزمية آي دي ٣ كل فرع باستخدام العملية نفسها المستخدمة لإنماء عقدة الجذر: أي اختيار سمة اختبارية، وإضافة عقدة ذات فروع، وتقسيم البيانات من خلال تحويل المَثيلات إلى الفروع ذات الصِّلة. وتستمر هذه العملية إلى أن تُصبح لجميع المثيلات على أحد الفروع القيمة نفسها للسمة المستهدَفة، وفي هذه الحالة تُضاف العقدة الختامية إلى الشجرة وتُسمى بقيمة السمة المستهدفة التي تشاركها جميع المثيلات على الفرع.¹¹

تختار خوارزمية آي دي ٣ السمة التي ستُختبَر عند كل عقدة في الشجرة بحيث تُقلل عدد الاختبارات المطلوبة لإنشاء مجموعاتٍ نقية (أي مجموعات المثيلات التي لها نفس القيمة الخاصة بالسمة المستهدفة). وإحدى الطرق لقياس نقاء مجموعةٍ ما هو استخدام معيار «الإنتروبيا» لكلود شانون. والحد الأدنى الممكن للإنتروبيا لمجموعةٍ ما هو صفر، وقيمة الإنتروبيا للمجموعة النقية هي صفر. تعتمد القيمة العددية القصوى للإنتروبيا الخاصة بمجموعة بيانات على حجم المجموعة وعدد الأنواع المختلفة من العناصر التي قد تُوجَد في المجموعة. وتمتلك أي مجموعةٍ الحد الأقصى من الإنتروبيا عندما تكون جميع عناصرها مختلفة الأنواع.¹² تختار هذه الخوارزمية السِّمة التي ستُختبَر عند عقدةٍ لكي تكون السمة التي تُنتج الإنتروبيا الأقل وزنًا بعد تقسيم مجموعة البيانات عند العقدة باستخدام هذه السمة. ويحسب وزن الإنتروبيا لسمةٍ ما عن طريق: (١) تقسيم مجموعة البيانات باستخدام السمة؛ (٢) حساب الإنتروبيا الخاصة بالمجموعات الناتجة؛ (٣) تقدير وزن كل إنتروبيا حسب الجزء من البيانات الموجود في المجموعة؛ (٤) ثم تجميع النتائج.

يُدرِج جدول ٤-٢ مجموعةَ بياناتٍ خاصة برسائل البريد الإلكتروني تُوصَف فيه كل رسالةٍ عن طريق عددٍ من السمات وما إذا كانت الرسالة عشوائية أم غير عشوائية. وتأخذ سمة «مرفق» القيمة «صواب» إذا كانت رسالة البريد الإلكتروني تحتوي على ملفٍّ مرفق، أما إذا لم يكن بها ملف مرفق، فستكون قيمة هذه السمة «خطأ» (في هذه العينة من رسائل البريد الإلكتروني، لا تحتوي أيٌّ من الرسائل على مرفق).

جدول ٤-٢: مجموعة بيانات خاصة برسائل البريد الإلكتروني: عشوائية أم غير عشوائية؟

مرفق	كلمات مُريبة	مُرسِل مجهول	عشوائية
خطأ	خطأ	صواب	صواب
خطأ	خطأ	صواب	صواب
خطأ	خطأ	خطأ	صواب
خطأ	خطأ	خطأ	خطأ
خطأ	خطأ	خطأ	خطأ

تأخذ سمة «كلمات مريبة» القيمة «صواب» إذا كان البريد الإلكتروني يحتوي على كلمةٍ أو أكثر من قائمةٍ مُحدَّدة مسبقًا من الكلمات المريبة. وتأخذ سمة «مُرسِل مجهول» القيمة «صواب» إذا كان مرسِل رسالة البريد الإلكتروني غير موجود في دليل جهات الاتصال الخاصة بالمتلقي. هذه هي مجموعة البيانات التي استخدمت لتدريب الهيكل الشجري لاتخاذ القرار المبيَّن في شكل ٤-٨. في هذه المجموعة للبيانات، تُعَد سِمات «مرفق»، و«كلمات مُريبة»، و«مُرسِل مجهول» هي السمات المدخلة وتُعد سمة «عشوائية» هي السمة المستهدفة. وتقسم سمة «مُرسِل مجهول» مجموعة البيانات إلى مجموعاتٍ أكثر نقاءً مقارنةً بأيٍّ من السمات الأخرى (تحتوي مجموعةٌ على مثيلاتٍ حيث «عشوائية = صواب» ومجموعة أخرى على مثيلات حيث «عشوائية = خطأ» وتضم الأخيرة معظم المثيلات). ونتيجة لذلك، توضع سمة «مُرسل مجهول» عند عقدة الجذر (انظر شكل ٤-٩). وبعد هذه التقسيمة المبدئية، تُصبح جميع المثيلات الموجودة على الفرع الأيمن لها نفس قيمة السمة المستهدفة. أما المثيلات الموجودة على الفرع الأيسر فتحتوي على قيمتَين مختلفتَين للسمة المستهدفة. وينتج عن تقسيم المثيلات على الفرع الأيسر باستخدام سِمة «كلمات مُريبة» مجموعتان نقيَّتان: الأولى حيث «عشوائية = خطأ» والثانية حيث «عشوائية = صواب». ومن ثم، تُختار سمة «كلمات مريبة» باعتبارها سمةً اختبارية للعقدة الجديدة على الفرع الأيسر (انظر شكل ٤-١٠). عند هذه النقطة، تكون مجموعة البيانات الفرعية الموجودة عند طرف كل فرعٍ نقية، وبالتالي تنتهي الخوارزمية وتنتج الهيكل الشجري لاتخاذ القرار المبين في شكل ٤-٨.

شكل ٤-٩: إنشاء عقدة الجذر في الهيكل الشجري.

إحدى نقاط القوة التي تتمتع بها الهياكل الشجرية لاتخاذ القرار هي أنها يسهل فهمُها. كما أنه من الممكن ابتكار نماذج دقيقة للغاية استنادًا إلى هذه الهياكل. على سبيل المثال، يتألف «نموذج الغابة العشوائية» من مجموعة من الهياكل الشجرية، حيث يتم تدريب كل هيكل على عينةٍ فرعية من بيانات التدريب، ويكون التنبؤ الذي يُنتجه النموذج لاستعلامٍ فردي هو التنبؤ الأكثر شيوعًا عبر جميع أشجار الغابة. وعلى الرغم من أن الهياكل الشجرية لاتخاذ القرار تستطيع التعامل مع كلٍّ من البيانات الاسمية والترتيبية؛ فإنها تواجِه صعوبةً في التعامل مع البيانات العددية. ففي أحد الهياكل الشجرية، ينحدِر فرع مُنفصل من كل عقدة عن كل قيمةٍ في نطاق السمة الاختبارية عند العقدة. أما السِّمات العددية فلها عددٌ لا نهائي من القِيم في نطاقاتها، وذلك يعني ضمنيًّا أن الهيكل الشجري سيحتاج عددًا لا نهائيًّا من الفروع. وأحد الحلول لهذه المشكلة هو تحويل السمات العددية إلى سماتٍ ترتيبية، على الرغم من أن القيام بذلك يستلزِم تعيين الحدود المناسبة؛ وهو أمر قد يكون صعبًا أيضًا.

شكل ٤-١٠: إضافة العقدة الثانية إلى الهيكل الشجري.

أخيرًا، نظرًا إلى أن خوارزمية تعلُّم الآلة القائمة على الهياكل الشجرية تُقسِّم مجموعة البيانات بصورةٍ متكررة كلما كبر الهيكل الشجري، فإنها تُصبح أكثر حساسيةً نحو التشويش (مثل المَثيلات المضللة). تصير المجموعة الفرعية للأمثلة (المَثيلات) الموجودة على كل فرعٍ أصغر فأصغر، وبالتالي تصير عينة البيانات التي تستند إليها كل قاعدةٍ تصنيفية أصغر. وكلما كانت عينة البيانات المستخدمة لتحديد القاعدة التصنيفية أصغر، صارت القاعدة أكثر حساسيةً للتشويش. ونتيجة لذلك، من الجيد الإبقاء على الهياكل الشجرية سطحية. ويتمثل أحد المناهج في إيقاف نموِّ الفرع عندما يكون عددُ المثيلات على الفرع لا يزال أقلَّ من الحَدِّ المحدد مسبقًا (على سبيل المثال، ٢٠ مثيلًا). وتسمح مناهج أخرى بنموِّ الهيكل الشجري، ثم بعد ذلك يُقلَّم. تستعين هذه المناهج عادةً باختباراتٍ إحصائية أو أداء النموذج على مجموعة من المثيلات المختارة بدقة لأداء هذه المهمة المتمثلة في تحديد التفريعات القريبة من الجزء السفلي من الهيكل الشجري والتي ينبغي إزالتها.

التحيُّز في علم البيانات

الهدف من تعلُّم الآلة هو إنشاء نماذج تشفِّر التعميمات الصحيحة استنادًا إلى مجموعات البيانات. وثمة عاملان مُهمان يساهمان في التعميم (أو النموذج) الذي ستولده خوارزمية تعلُّم الآلة من مجموعة البيانات. العامل الأول هو مجموعة البيانات التي تعمل عليها الخوارزمية. إذا لم تكن مجموعة البيانات تُمثل المجتمع الإحصائي، فلن يكون النموذج الذي تُولده الخوارزمية دقيقًا. على سبيل المثال، في موضعٍ سابق طوَّرنا نموذج انحدار خطِّي يتنبأ باحتمالية إصابة الفرد بمرض السكَّر من النوع الثاني استنادًا إلى مؤشر كتلة جسمه. تم توليد هذا النموذج من مجموعةِ بياناتٍ خاصة بالذكور الأمريكيين البالِغين ذوي البشرة البيضاء. ونتيجة لذلك، ليس من المرجَّح أن يكون هذا النموذج دقيقًا إذا استُخدم للتنبؤ باحتمالية إصابة الإناث أو الذكور من عِرق مختلفٍ أو خلفيات عرقية مختلفة. يصف مصطلح «تحيُّز العينة» إلى أي مدًى يمكن أن تقدم العملية المستخدمة لاختيار مجموعة البيانات تحيزاتٍ إلى التحليل اللاحق، سواء أكان هذا التحليل إحصائيًّا أم لإنتاج نماذج تنبؤ باستخدام تعلُّم الآلة.

العامل الثاني الذي يؤثر على النموذج المتولد من مجموعة البيانات هو اختيار خوارزمية تعلُّم الآلة. هناك الكثير من هذه الخوارزميات، وكل واحدة منها تشفِّر طريقة مختلفة لاستنباط التعميمات من مجموعة البيانات. تُعرف نوعية التعميم الذي تشفره الخوارزمية ﺑ «التحيز الاستقرائي» الخاص بالخوارزمية (أو أحيانًا يُطلق عليه «تحيز النمذجة» أو «تحيز الاختيار»). على سبيل المثال، تشفر خوارزمية الانحدار الخطي تعميمًا خطيًّا من البيانات وبالتالي تتجاهل العلاقات غير الخطية التي ربما تتناسَب بدرجةٍ أكبر مع البيانات. عادةً ما يُفهم التحيز على أنه شيءٌ سيئ. على سبيل المثال، التحيز في اختيار العينة هو التحيز الذي سيحاول عالِم البيانات أن يتجنَّبه. ومع ذلك، في ظلِّ غياب التحيز الاستقرائي لا يمكن أن يكون هناك تعلُّم، وإنما ستكون الخوارزمية قادرةً على حفظ البيانات فقط.

ومع ذلك، نظرًا إلى أن خوارزميات تعلُّم الآلة تتحيَّز نحو البحث عن الأنواع المختلفة من الأنماط، ونظرًا إلى أنه لا يوجد تحيُّز استقرائي يصلح لجميع المواقف، فإنه لا يُوجَد ما يُعرَف بأفضل خوارزمية تعلُّم آلة. في الواقع، تنص النظرية المعروفة باسم «نظرية لا شيء مجاني»، أو «نظرية لا غداء مجاني» (Wolpert and Macready 1997) على أنه لا تُوجَد خوارزمية تعلُّم آلة أفضل تتفوَّق في متوسط أدائها على جميع الخوارزميات الأخرى عبر مجموعات البيانات المحتملة كافة. لذلك، عادةً ما تشمل مرحلة النمذجة الخاصة بالعملية القياسية المتعددة المجالات للتنقيب في البيانات إنشاء عدة نماذج باستخدام خوارزميات مختلفة، ومقارنة النماذج لتحديد أي خوارزمية تُولِّد أفضل نموذج. وتختبر هذه التجارب عمليًّا أي تحيزٍ استقرائي يُنتِج في المتوسط أفضل نماذج لمجموعة البيانات والمهمة المحددة.

تقييم النماذج: التعميم لا الحفظ

بمجرد أن يختار عالِم البيانات مجموعة من خوارزميات تعلُّم الآلة ليُجربها على مجموعة بيانات، تكون المهمة الرئيسية التالية هي وضع خطة فحصٍ لكيف ستُقيَّم النماذج التي تم توليدها بواسطة هذه الخوارزميات. الهدف من خطة الفحص هو التأكُّد من أن التقييم يُقدِّم تقديراتٍ واقعية لأداء النموذج على البيانات التي لم يسبق رؤيتها. وليس من المرجَّح أن يبلي نموذج التنبؤ الذي يحفظ مجموعة البيانات فحسب بلاءً حسنًا في تقدير القِيَم من أجل الأمثلة الجديدة. وتتمثَّل إحدى المشكلات المرتبطة بحفظ البيانات فحسب في أن معظم مجموعات البيانات تحتوي على تشويش. وبالتالي، فإن نموذج التنبؤ الذي يحفظ البيانات فحسب يحفظ أيضًا التشويش الموجود في البيانات. وتتمثل مشكلة أخرى مرتبطة بحفظ البيانات فحسب في اختزال عملية التنبؤ على البحث في جدول؛ دون إيجاد حلٍّ لمشكلة كيفية التعميم من بيانات التدريب على أمثلةٍ جديدة لا توجَد في الجدول.

وجزء من خطة الفحص مرتبطٌ بكيفية استخدام مجموعة البيانات لتدريب النماذج واختبارها. يجب أن تُستخدَم مجموعة البيانات لغرَضَين مختلفَين. الغرض الأول هو إيجاد الخوارزمية التي تُولِّد أفضل نموذج. والغرض الثاني هو تقييم أداء التعميم الخاص بالنموذج الأفضل؛ أي إلى أي مدًى من المرجَّح أن يُجيد النموذج التعامل مع البيانات التي لم يسبق رؤيتها. والقاعدة الذهبية لتقييم النماذج هي أنه لا ينبغي أبدًا اختبار النماذج بناءً على نفس البيانات التي دُرِّبت عليها. إن الاستعانة بالبيانات نفسها لتدريب النماذج واختبارها أشبَهُ بإعطاء الطلَّاب أسئلة الاختبار في ليلة الامتحان. بالطبع، سيُبلي الطلَّاب بلاءً حسنًا في الاختبار؛ ولن تعكس درجاتهم إجادتهم الحقيقية للمادة الدراسية بوجهٍ عام. وهذا هو الوضع أيضًا مع نماذج تعلُّم الآلة: إذا قُيِّم النموذج بناءً على البيانات نفسها التي تدرَّب عليها، فستكون نتائج التقييم متفائلةً مقارنة بالأداء الحقيقي للنموذج. وتتمثل العملية المعيارية لضمان أن النماذج لا يُمكنها اختلاس النظر إلى بيانات الاختبار أثناء التدريب في تقسيم البيانات إلى ثلاثة أجزاء: مجموعة تدريب، ومجموعة تحقُّق، ومجموعة اختبار. وستختلف نِسَب هذه المجموعات باختلاف المشروعات، إلا أن تقسيم المجموعات على هذا النحو: ٥٠:٢٠:٣٠ و٤٠:٢٠:٤٠ هو التقسيم الشائع. وحجم مجموعة البيانات هو عامل رئيسي في تحديد التقسيمات: بوجهٍ عام، كلما كانت مجموعة البيانات كبيرة، كانت مجموعة الاختبار كبيرة. تُستخدَم مجموعة التدريب لتدريب مجموعةٍ مبدئية من النماذج. ثم تُستخدَم مجموعة التحقُّق لمقارنة أداء هذه النماذج على البيانات التي لم يسبق رؤيتها. تمكِّننا مقارنة أداء هذه النماذج المبدئية بمجموعة التحقُّق من تحديد أي الخوارزميات تُولِّد النموذج الأفضل. وبمجرد اختيار أفضل خوارزمية، يمكن دمج مجموعة التدريب والتحقُّق معًا لتُصبح مجموعة تدريب أكبر، وتُغذَّى أفضل خوارزمية بهذه المجموعة لكي تُنشئ النموذج النهائي. ومن الأهمية بمكانٍ ألا تُستخدَم مجموعة الاختبار خلال عملية اختيار أفضل خوارزمية، ولا ينبغي أن تُستخدَم لتدريب هذا النموذج النهائي. وإذا اتبعت هذه التحفظات، إذن يمكن استخدام مجموعة الاختبار لتقدير أداء التعميم الخاص بهذا النموذج النهائي على البيانات التي لم يسبق رؤيتها.

القاعدة الذهبية لتقييم النماذج هي أنه لا ينبغي أبدًا اختبار النماذج بناءً على نفس البيانات التي تدرَّبت عليها.

المكون الرئيسي الآخر لخطة الفحص هو اختيار معايير تقييمٍ مناسبة لاستخدامها أثناء التجربة. بوجهٍ عام، تُقيَّم النماذج استنادًا إلى أي مدًى تتوافق عادةً مُخرجات النموذج مع المخرجات المذكورة في مجموعة الاختبار. فإذا كانت السِّمة المستهدفة قيمةً عددية، إذن مجموع الأخطاء التربيعية هي إحدى الطرق لقياس دقة النموذج على مجموعة الاختبار. وإذا كانت السمة المستهدَفة اسميةً أو ترتيبية، إذن تكون أسهل طريقة لتقييم دقة النموذج هي حساب نسبة الأمثلة في مجموعة الاختبار التي تنبَّأ بها النموذج على النحو الصحيح. ومع ذلك، من المهم في بعض السياقات تضمين تحليل الخطأ داخل التقييم. إذا كان النموذج مستخدَمًا في سياق تشخيصٍ طبيٍّ مثلًا، يكون الأمر أكثر خطورة إذا شخَّص النموذج مريضًا على أنه شخصٌ سليم مما إذا كان الشخص سليمًا وشُخِّص على أنه مريض. ربما يسفر تشخيص شخصٍ مريض على أنه سليم عن إعادته إلى المنزل دون تلقِّي العناية الطبية المناسبة، ولكن إذا شخَّص النموذج شخصًا سليمًا على أنه مريض، فمن المرجَّح اكتشاف هذا الخطأ بواسطة الفحوصات الطبية التالية التي سيُجريها المريض. وبالتالي ينبغي أن يُعطي مقياس التقييم المستخدَم لتقييم هذه الأنواع من النماذج وزنًا أكبر لنوعٍ من الأخطاء على غيره عند تقييم أداء النموذج. وبمجرد أن تُنشأ خطة الاختبار، يستطيع عالِم البيانات أن يبدأ تدريب النماذج وتقييمها.

ملخص

استُهِلَّ هذا الفصل بقول إن علم البيانات بمثابة علاقة شراكة بين عالِم البيانات والكمبيوتر. ويوفر تعلُّم الآلة مجموعةً من الخوارزميات التي تُولِّد نماذج من مجموعةٍ كبيرة من البيانات. ومع ذلك، ستعتمد فائدة هذه النماذج من عدمها على خبرة عالِم البيانات. ولكي ينجح مشروع علم البيانات، ينبغي أن تكون مجموعة البيانات ممثلة للمجال وينبغي أن تتضمن سماتٍ ذات صلة. ينبغي أن يُقيِّم عالِم البيانات مجموعة من خوارزميات تعلُّم الآلة لتحديد الخوارزمية التي تولد أفضل النماذج. وينبغي أن تتبع عملية تقييم النموذج القاعدة الذهبية التي تنص على أن النموذج ينبغي ألا يُقيَّم بناءً على البيانات التي تدرَّب عليها.

حاليًّا المعيار الأساسي، في أغلب مشروعات علم البيانات، لاختيار النموذج الذي سيُستخدم هو دقة النموذج. ومع ذلك، في المستقبل القريب، ربما تؤثر لوائح الخصوصية واستخدام البيانات على اختيار خوارزميات تعلُّم الآلة. على سبيل المثال، ستدخل اللائحة العامة لحماية البيانات حَيِّز التنفيذ في الاتحاد الأوروبي في ٢٥ مايو ٢٠١٨. سنناقش هذه اللوائح فيما يخصُّ استخدام البيانات في الفصل السادس، ولكن في الوقت الراهن نودُّ أن نُشير إلى أنه ربما يبدو أن بعض البنود في هذه اللائحة تفرض «الحق في التفسير» فيما يخص عمليات اتخاذ القرار الآلية.¹³ ومن بين الآثار المحتملة لهذا الحق هو أنه ربما يصير استخدام النماذج، مثل الشبكات العصبية التي يصعب تفسير قراراتها المرتبطة بالأفراد، أمرًا إشكاليًّا. وفي ظل هذه الظروف، ربما تجعل الشفافية وسهولة تفسير بعض النماذج، مثل الهياكل الشجرية لاتخاذ القرار، استخدام هذه النماذج أكثر ملاءمة.

في النهاية، العالم يتغير، ولكن النماذج لا تتغير. ويكمُن في صميم عملية تعلُّم الآلة الخاصة بإنشاء مجموعة البيانات وتدريب النموذج وتقييمه افتراض أن المستقبل لن يختلف عن الماضي في شيء. ويُعرَف هذا الافتراض باسم «افتراض الثبات»: العمليات أو السلوكيات التي تُنمذَج تتَّسِم بالثبات عبر الزمن (أي أنها لا تتغير). ومجموعات البيانات في حدِّ ذاتها قديمة بمعنى أن البيانات هي تمثيلات للملاحظات التي دُوِّنت في الماضي. ولذا، في الواقع، تبحث خوارزميات تعلُّم الآلة عبر الماضي عن أنماطٍ ربما تُعمَّم على المستقبل. ومن الواضح أن هذا الافتراض لا تثبُت صحته على الدوام. يستخدم علماء البيانات مصطلح «انحراف المفاهيم» لوصف كيف قد تتغير العملية أو السلوك، أو تنحرف، مع مرور الوقت. ولهذا السبب تتقادم النماذج وتحتاج إلى إعادة تدريبها من جديد ولهذا السبب تتضمن العملية القياسية المتعددة المجالات للتنقيب في البيانات الدائرة الخارجية المبينة في شكل ٢-٣ للتأكيد على أن علم البيانات يتَّسِم بالتكرارية. يجب على العمليات أن تضمن مرحلة ما بعد نشر النموذج للتأكد من أن النموذج لم يتقادم، وعندما يتقادم، يجب إعادة تدريبه. ومعظم هذه القرارات لا يمكن تنفيذها آليًّا، وإنما تتطلَّب رؤيةً ومعرفة بشرية. سيجيب جهاز الكمبيوتر عن الأسئلة التي تطرح عليه، ولكن ما لم يُولَ الاهتمام، فمن السهل أن يُطرَح السؤال الخطأ.