أساسيات تعلُّم الآلة
أفضل ما قيل عن علم البيانات هو أنه شراكة بين عالِم البيانات وجهاز الكمبيوتر. في الفصل الثاني، وصفنا العملية التي يتَّبعها عالم البيانات: مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات. وتُحدد هذه العملية القياسية سلسلةً من القرارات يتعين على عالم البيانات أن يتَّخذها والأنشطة التي ينبغي أن يشارك فيها لجعل هذه القرارات مستنيرةً ولتنفيذها. في هذه العملية، تتمثل المهام الكبرى لعاِلم البيانات في تحديد المشكلة وتصميم مجموعةِ البيانات وتجهيز البيانات وتحديد نوع تحليل البيانات المراد تطبيقه، وتقييم نتائج تحليل البيانات وتفسيرها. وما يُساهم به جهاز الكمبيوتر في هذه الشراكة هو القدرة على معالجة البيانات والبحث عن أنماطٍ مُحددة في البيانات. وتعلُّم الآلة هو مجال دراسة يُطوِّر الخوارزميات التي تتَّبعها أجهزة الكمبيوتر لتحديد الأنماط واستخلاصها من البيانات. وتُطبَّق خوارزميات تعلُّم الآلة وتقنياتها بالأساس أثناء مرحلة النمذجة في العملية القياسية المتعددة المجالات للتنقيب في البيانات. وينطوي تعلُّم الآلة على عمليةٍ تتألف من خطوتَين.
أولًا: تُطبَّق خوارزمية تعلُّم الآلة على مجموعة بياناتٍ لتحديد الأنماط المفيدة الموجودة في البيانات. وهذه الأنماط يمكن تمثيلها بعدة طرق مختلفة. وفي موضعٍ لاحق من هذا الفصل، سوف نصف بعض التمثيلات الشائعة؛ ولكنها تشمل الهيكل الشجري لاتخاذ القرار، ونماذج الانحدار، والشبكات العصبية. وتُعرف هذه التمثيلات للأنماط باسم «النماذج»، وهذا هو السبب أن هذه المرحلة من مراحل العملية القياسية المتعددة المجالات للتنقيب في البيانات تُعرف باسم «مرحلة النمذجة». ببساطة، تنشئ خوارزميات تعلُّم الآلة نماذج باستخدام تمثيلٍ مُعين (شبكة عصبية أو هيكل شجري أو أي شيءٍ غيرهما).
ثانيًا: بمجرد أن يُنشأ النموذج، يُستخدم من أجل التحليل. وفي بعض الحالات، ما يُهم هي بِنية النموذج. فبِنية النموذج يمكن أن تكشف عن السمات المهمة في مجالٍ ما. على سبيل المثال، في المجال الطبي، ربما نقوم بتطبيق خوارزمية تعلُّم الآلة على مجموعة بيانات خاصة بمرضى السكتة الدماغية ونستخدِم بنية النموذج لنُحدد العوامل التي لها علاقة قوية بالسكتة الدماغية. وفي حالات أخرى، يُستخدم النموذج لوصف أمثلة جديدة أو تصنيفها. الغاية الأساسية من نموذج تصفية البريد العشوائي هو وصف رسائل البريد الإلكتروني الجديدة إما بأنها رسائل عشوائية أو غير عشوائية بدلًا من كشف السمات المحددة لرسائل البريد العشوائي.
التعلُّم الخاضع للإشراف في مقابل التعلُّم غير الخاضع للإشراف
تُصنَّف أغلبية خوارزميات تعلُّم الآلة ضمن إحدى فئتَين: «تعلُّم خاضع للإشراف» أو «تعلُّم غير خاضع للإشراف». يهدف التعلُّم الخاضع للإشراف إلى إنشاء دالَّةٍ وتعليمها كيفية تعيين قيمة السمة التي تصف مثيلًا (السمة المستهدفة) بالاستدلال بقِيَم سماتٍ أخرى لذلك المثيل. على سبيل المثال، عندما يُستخدم التعلُّم الخاضع للإشراف لتدريب أداة تصفية البريد العشوائي، تحاول الخوارزمية إنشاء دالةٍ تعيِّن قيمةً للسمة المستهدفة (عشوائي/غير عشوائي) بالاستدلال بقِيَم السمات التي تصف البريد الإلكتروني؛ وتكون الدالة التي تُنشئها الخوارزمية هي نموذج تصفية البريد العشوائي الذي تُنتجه الخوارزمية. إذن، في هذا السياق، النمط الذي تبحث عنه الخوارزمية في البيانات هو دالَّة تُعيِّن قيمة السمة المستهدفة بالاستدلال بقِيَم السمات المدخَلة، والنموذج الناتج عن الخوارزمية هو برنامج كمبيوتر يُنفذ هذه الدالة. يشمل التعلُّم الخاضع للإشراف البحث عبر الكثير من الدوالِّ المختلفة لإيجاد الدالة التي تستطيع تعيين أفضل مُخرجات ملائمة للمدخلات. ومع ذلك، بالنسبة إلى أية مجموعة بيانات ذات درجةٍ معقولة من التعقيد يُوجَد عددٌ كبير جدًّا من تكوينات المدخلات وما يقابلها من التعيينات المحتملة للمخرجات التي تعجز معها الخوارزمية أن تُجرب جميع الدوال المحتملة. ونتيجة لذلك، صُممت كل خوارزمية من خوارزميات تعلم الآلة للبحث عن أنواعٍ مُعينة من الدوال أو تفضيل تلك الأنواع بعينها أثناء بحثها. وتُعرف تلك التفضيلات ﺑ «التحيُّز الاستقرائي» (أو تحيُّز التعلُّم) الخاص بالخوارزمية. ويتمثل التحدي الفعلي أمام استخدام تعلُّم الآلة في العثور على الخوارزمية التي يتناسب تحيُّزها الاستقرائي على أفضل نحوٍ مع مجموعةٍ مُعينة من البيانات. وبوجهٍ عام، تشمل هذه المهمة إجراء تجارب على عددٍ من الخوارزميات المختلفة للعثور على أفضل واحدةٍ تتماشى مع تلك المجموعة من البيانات.
يتمثل التحدي الفعلي أمام استخدام تعلُّم الآلة في العثور على الخوارزمية التي يتناسب تحيُّزها الاستقرائي على أفضل نحوٍ مع مجموعة مُعينة من البيانات.
هذا النوع من تعلُّم الآلة «خاضع للإشراف» لأن كلَّ مثيلٍ في مجموعة البيانات يُدرِج كلًّا من قِيَم المدخلات وقيمة المخرج (المستهدف) لكلِّ مثيل. وبالتالي، خوارزمية التعلُّم يمكن أن تقود بحثها إلى أفضل دالةٍ من خلال مراجعة إلى أيِّ مدًى تتناسب كل دالة جرت تجربتُها مع مجموعة البيانات، وفي الوقت نفسه تؤدي مجموعة البيانات دور المشرف لعملية التعلُّم من خلال تقديم تقارير. ومن الواضح أنه من أجل حدوث التعلُّم الخاضع للإشراف يجب أن يُوصَف كل مثيلٍ في مجموعة البيانات بالقيمة الخاصة بالسمة المستهدفة. ومع ذلك، عادة ما يكون السبب وراء كون السمة المستهدفة مثيرةً للاهتمام هو أنها ليس من السهل تقدير قيمتِها مباشرة، وبالتالي لا يمكن إنشاء مجموعة بياناتٍ مكونة من مثيلاتٍ وُصِّفت بكلِّ سهولة. وفي هذا السيناريو، يستلزم الأمر قدرًا كبير من الوقت والجهد لإنشاء مجموعة بيانات بالقِيَم المستهدَفة قبل أن يتم تدريب النموذج باستخدام التعلُّم الخاضع للإشراف.
في التعلُّم غير الخاضع للإشراف، لا يوجد سمة مستهدفة. وكنتيجة لذلك، يمكن استخدام خوارزميات التعلُّم غير الخاضع للإشراف بدون استثمار وقتٍ وجهد في توصيف مثيلات مجموعة البيانات حسب السمة المستهدفة. ومع ذلك، عدم وجود سمة مُستهدفة يعني أيضًا أن عملية التعلُّم صارت أصعب: بدلًا من المشكلة المحددة الخاصة بالبحث عن تعيينات مُخرجات للمدخلات تُناسِب مجموعة البيانات، صار للخوارزمية مهمة أكثر عمومية تتمثل في البحث عن ثوابت في البيانات. والنوع الأكثر شيوعًا للتعلُّم الخاضع للإشراف هو «تحليل المجموعات» أو «التحليل العنقودي»، حيث تبحث الخوارزمية عن مجموعات المثيلات التي يشبِه بعضها بعضًا أكثر من تشابُهها بمثيلاتٍ أخرى في البيانات. عادة تبدأ خوارزميات التجميع بتخمين عددٍ من المجموعات أو العناقيد، ثم تحدِّث المجموعات أو العناقيد على نحوٍ مُتكرر (عن طريق حذف مثيلات من مجموعةٍ وإضافتها إلى مجموعةٍ أخرى) لكي يزداد التشابُه داخل المجموعة الواحدة والتنوع عبر المجموعات المختلفة.
ثمة تحدٍّ مرتبط بمسألة التجميع يتمثل في معرفة كيفية قياس درجة التشابه. فإذا كانت جميع السمات في مجموعة البيانات هي سمات عددية وتتمتع بنطاقاتٍ متشابهة، ربما يكون من المنطقي على الأرجح حساب المسافة الإقليدية (المعروفة باسم «مسافة الخط المستقيم») بين المثيلات (أو الصفوف). تُعامل الصفوف القريبة بعضها من بعضٍ على المسافة الإقليدية على أنها مُتشابهة. ومع ذلك، ثمة عددٌ من العوامل قد تجعل حساب درجة التشابُه بين الصفوف أمرًا مُعقدًا. ففي بعض مجموعات البيانات، للسمات العددية المختلفة نطاقات مختلفة، مما ينتُج عنه ألا يكون التبايُن في قِيَم الصفوف في أحد السمات على نفس القدْر من أهمية التبايُن بنفس المقدار في سمةٍ أخرى. في هذه الحالات، ينبغي تطبيع السمات بحيث يكون لها جميعًا النطاق نفسه. وثمة عامل تعقيد آخر في حساب درجة التشابُه ألا وهو أنه يمكن اعتبار الأشياء متشابهةً بعدة طرق مختلفة. أحيانًا تكون بعض السِّمات أهم من سماتٍ أخرى، لذا قد يكون من المنطقي تقدير بعض السمات في ضوء حسابات المسافة الإقليدية، أو لعلَّ مجموعة البيانات تشمل بياناتٍ غير عددية. ربما تتطلَّب السيناريوهات الأكثر تعقيدًا تصميم معايير مُخصصة للتشابُه لاستخدامها بواسطة خوارزمية التجميع.
رقم تعريفي | الطول (بالمتر) | الوزن (بالكيلوجرام) | مقاس الحذاء | التمارين الرياضية (عدد الدقائق في الأسبوع) | مرض السكَّر (احتمالية الإصابة بالنسبة المئوية) |
---|---|---|---|---|---|
١ | ١٫٧٠ | ٧٠ | ٥ | ١٣٠ | ٠٫٠٥ |
٢ | ١٫٧٧ | ٨٨ | ٩ | ٨٠ | ٠٫١١ |
٣ | ١٫٨٥ | ١١٢ | ١١ | ٠ | ٠٫١٨ |
ستبحث خوارزمية التجميع غير الخاضعة للإشراف عن مجموعات الصفوف المتشابهة معًا أكثر من تشابهها مع الصفوف الأخرى في البيانات. وتُحدد كل مجموعةٍ من هذه المجموعات ذات الصفوف المتشابهة مجموعة من المثيلات المشابهة. على سبيل المثال، تستطيع خوارزميةٌ ما أن تُحدد أسباب المرض أو الأمراض المصاحبة (الأمراض التي تظهر معًا) من خلال إلقاء نظرة على قِيَم السمات المتكررة بصورةٍ نسبية داخل مجموعةٍ ما. إن الفكرة البسيطة المتمثلة في البحث عن مجموعاتٍ من الصفوف المتشابهة هي فكرة عظيمة جدًّا ولها تطبيقات في مناحٍ كثيرة بالحياة. ويتمثل تطبيقٌ آخر لتجميع الصفوف في تقديم توصيات بمنتجات معينة إلى العملاء. إذا أُعجِب عميل بكتاب أو أغنية أو فيلم، فلعلَّه يستمتع بكتاب آخر أو أغنية أخرى أو فيلم آخر من المجموعة نفسها.
نماذج التنبؤ الخاصة بتعلُّم الآلة
التنبؤ هو مهمة تقدير قيمة السمة المستهدفة من أجل مثيلٍ مُعين بناءً على قيم السمات الأخرى (أو سمات الإدخال) لذلك المثيل. وهذه هي المشكلة التي تحلها خوارزميات تعلُّم الآلة؛ فهي تُولِّد نماذج تنبؤ. وهنا يمكننا أيضًا استخدام مثال نموذج تصفية البريد العشوائي الذي استخدمناه لتوضيح التعلُّم الخاضع للإشراف: نحن نستخدم هذا النوع من التعلُّم لتدريب نموذج تصفية البريد العشوائي، ونموذج تصفية البريد العشوائي هو نموذج تنبؤ. ويتمثل الاستخدام الشائع لنموذج التنبؤ في تقدير قيمة السِّمة المستهدفة في المثيلات الجديدة غير الموجودة في مجموعة بيانات التدريب. واستكمالًا لمثال البريد العشوائي، نُدرب نموذج تصفية البريد العشوائي (نموذج التنبؤ) على قاعدة بياناتٍ من رسائل البريد الإلكتروني القديمة ثم نستخدِم هذا النموذج للتنبؤ بما إذا كانت الرسائل الجديدة تندرج تحت البريد العشوائي أم لا. وربما تكون مشكلات التنبؤ هي النوع الأكثر شيوعًا الذي يُستخدم من أجله تعلُّم الآلة، ولذلك يركز باقي هذا الفصل على التنبؤ باعتباره دراسة حالةٍ لتوضيح تعلُّم الآلة. وسوف نبدأ توضيح نماذج التنبؤ بتوضيح مفهومٍ من المفاهيم الأساسية في التنبؤ؛ ألا وهو «تحليل الارتباط». ثم نشرح كيف تعمل خوارزميات تعلُّم الآلة لإنشاء أنواعٍ مختلفة من نماذج التنبؤ الشائعة، بما فيها نماذج الانحدار الخطي، ونماذج الشبكة العصبية، والهياكل الشجرية الخاصة باتخاذ القرار.
العلاقات الارتباطية ليست علاقاتٍ سببية، ولكن بعضها مفيد

حقيقة أن تعريف ارتباط بيرسون الإحصائي على أنه ارتباط بين سمتَين تجعل استخدام هذه العلاقة الإحصائية لتحليل البيانات مقتصرًا فقط على أزواج السمات الثنائية. ولكن لحُسن الحظ يمكننا تخطي هذه المشكلة من خلال استخدام الدوالِّ على مجموعاتٍ من السمات. في الفصل الثاني، قدَّمنا مؤشر كتلة الجسم بوصفه دالة لوزن الشخص وطول قامته. والمقصود بها تحديدًا نسبة وزن الشخص (بالكيلوجرام) مقسومة على مُربع طوله (بالأمتار). ابتُكِر مؤشر كتلة الجسم في القرن التاسع عشر على يد عالِم رياضيات بلجيكي، يُدعى أدولف كوتيليه، ويُستخدم هذا المؤشر لتصنيف الأفراد إلى فئات: ناقص الوزن، أو ذي وزن طبيعي، أو زائد الوزن، أو يُعاني من السمنة. وتُستخدَم النسبة بين الوزن والطول لأن مؤشر الكتلة مُصمَّم ليكون ذا قيمة مماثلة بالنسبة إلى الأشخاص الذين يندرجون تحت الفئة نفسها (ناقص الوزن أو ذو وزن طبيعي أو زائد الوزن أو يعاني من السمنة) بغض النظر عن طول قامتهم. نحن نعرف أن ثمة علاقة ارتباطية موجبة بين الوزن والطول (بوجه عام، كلما كان الشخص أطول قامة، كان أثقل وزنًا)، إذن من خلال قسمة الوزن على الطول، نحسب تأثير الطول على الوزن. ونقسم على مربع الطول لأن الأشخاص يزيدون عرضًا كلما صاروا أطول، ولذا، تربيع الطول هي محاولة لحساب إجمالي حجم الشخص في هذه المعادلة. وثمة جانبان لمؤشر كتلة الجسم مثيران للاهتمام في مناقشتنا للعلاقة الارتباطية بين عدة سمات. أولًا: مؤشر الكتلة هو دالة تأخذ عددًا من السمات كمدخلاتٍ وتُعيِّن على أساسها قيمةً جديدة. في الواقع، يُنشئ هذا التعيين سمةً جديدة مُشتقة في البيانات (بخلاف السمات الخام). ثانيًا: نظرًا إلى أن مؤشر كتلة جسم الشخص هو قيمة عددية مفردة، يُمكننا أن نحسب العلاقة الارتباطية بينها وبين السِّمات الأخرى.

يوضح مثال مؤشر كتلة الجسم أنه من الممكن ابتكار سِمة مُشتقة جديدة من خلال تحديد دالَّة تأخذ سمات متعددة كمدخلٍ لها. كما يُبيِّن أيضًا أنه من الممكن حساب معامل ارتباط بيرسون بين هذه السمة المشتقة وسمة أخرى في مجموعة البيانات. علاوة على ذلك، يمكن لسمة مشتقة أن تحظى بعلاقة ارتباطية مع سمة مستهدَفة على نحوٍ أوثق من العلاقة التي تربط بين أيٍّ من السمات المستخدَمة لتوليد السمة المشتقة وبين السمة المستهدَفة. وتتمثل إحدى الطرق لفهم سبب وجود علاقة ارتباطية أكثر إيجابية بين مؤشر كتلة الجسم وسمة الإصابة بمرض السكَّر مقارنة إما بالطول أو بالوزن في أن احتمالية إصابة شخصٍ ما بهذا المرض متوقفة على التأثير المتبادَل بين الطول والوزن، ويُمثل مؤشر كتلة الجسم هذا التأثير المتبادَل على نحوٍ مناسب فيما يخصُّ احتمالية الإصابة بمرض السكَّر. ويهتم المعالجون بمؤشر كتلة الجسم الخاص بالأفراد لأنه يوفر لهم المزيد من المعلومات عن احتمالية إصابة الشخص بمرض السكَّر من النوع الثاني أكثر مما يوفِّره طول الشخص أو وزنه فحسْب على نحوٍ مستقل.
ذكرنا بالفعل أن اختيار السمة هي مُهمة أساسية في علم البيانات. ويُعد تصميم السمة مهمةً أساسية أيضًا. تكمن القيمة الحقيقية لعلم البيانات غالبًا في تصميم سمةٍ مشتقة ذات علاقة ارتباطية قوية بسمةٍ ما تثير اهتمامنا. وبمجرد أن تُحدِّد السمات المناسبة لتستخدِمها لتُمثِّل البيانات، يمكنك تصميم نماذج دقيقة بسرعة نسبيًّا. ويُعد اكتشاف السمات المناسبة وتصميمها هو الجزء الصعب. وفي حالة مؤشر كتلة الجسم، صمَّم البشر هذه السمة المشتقة في القرن التاسع عشر. غير أن خوارزميات تعلُّم الآلة يمكنها فهم التأثيرات المتبادلة بين السمات وإنشاء سماتٍ مشتقة مفيدة من خلال البحث عبر توليفاتٍ مختلفة من السمات والتأكد من العلاقة الارتباطية بين هذه التوليفات والسمة المستهدفة. ولهذا السبب تعلُّم الآلة مفيد في سياقات حيث تُسهم الكثير من السمات ذات التأثير المتبادل الضعيف في العملية التي نُحاول فهمها.
الانحدار الخطي
عندما تتكوَّن مجموعة بيانات من سماتٍ عددية، حينئذٍ كثيرًا ما تُستخدَم نماذج التنبؤ المعتمدة على الانحدار. ويقدِّر «تحليل الانحدار» القيمة المتوقعة (أو المتوسطة) لسمةٍ عددية مستهدفة عندما تكون جميع سمات الإدخال ثابتة. والخطوة الأولى في تحليل الانحدار هي افتراض بِنية العلاقة بين السمات المدخلة والسمة المستهدفة. حينئذٍ يُحدَّد النموذج الرياضي القائم على المعاملات للعلاقة المفترَضة. يُسمَّى هذا النموذج القائم على المعاملات ﺑ «دالة الانحدار». يمكنك التفكير في دالة الانحدار باعتبارها آلةً تُحوِّل المدخلات إلى قيمةٍ مُخرجة والتفكير في المعاملات باعتبارها الإعدادات التي تتحكم في سلوك الآلة. وربما تحتوي دالة الانحدار على عدة مُعاملات، وينصبُّ تركيز تحليل الانحدار على إيجاد الإعدادات الصحيحة لهذه المعاملات.
من الممكن افتراض ونمذجة العديد من أنواع العلاقات المختلفة باستخدام تحليل الانحدار. ونظريًّا القيد الوحيد على بِنية العلاقة التي يمكن نمذجتها هو القدرة على تحديد دالَّة الانحدار المناسبة. وفي بعض المجالات، ربما يكون هناك أسباب نظرية قوية تفرِض نوعًا معينًا من العلاقة، ولكن في ظلِّ غياب هذا النوع من نظرية المجال فمن الأفضل البدء بافتراض أبسط شكلٍ للعلاقات — ألا وهي العلاقة الخطية — ثم المضي قدمًا لوضع نموذجٍ للعلاقات الأكثر تعقيدًا إذا لزم الأمر. وأحد الأسباب للبدء بعلاقةٍ خطية هو أن دوال الانحدار الخطي من السهل نسبيًّا تفسيرها. والسبب الآخر هو الاعتقاد السائد بأن إبقاء الأمور بسيطةً بقدْر الإمكان هي فكرة سديدة بوجهٍ عام.
- (١)
تُنفذ الدالة على مجموعة البيانات، وتقدر قيمة السِّمة المستهدفة لكل مثيلٍ موجود في البيانات.
- (٢)
يُحسب خطأ الدالة لكل مثيلٍ من خلال طرح القيمة التقديرية للسمة المستهدفة من قيمتها الحقيقية.
- (٣)
يتم تربيع خطأ الدالة لكلِّ مثيل، ثم تُجمَع هذه القِيَم التربيعية.
يتم تربيع خطأ الدالَّة لكل مثيلٍ في الخطوة الثالثة لتجنُّب إلغاء أثر الأخطاء المتعاكسة عند المبالغة في تقدير القيمة المستهدفة وعند التقليل منها. وتربيع الخطأ يجعل الخطأ موجبًا في كِلتا الحالتَين. ويُعرف هذا القياس للخطأ باسم «مجموع الأخطاء التربيعية»، وتُعرف استراتيجية إعداد دالة خطِّية من خلال البحث عن المعامِلات التي تُقلل هذا المجموع إلى الحد الأدنى باسم «المربعات الصغرى». ويتحدَّد مجموع الأخطاء التربيعية بالمعادلة التالية:

يتوقف ترجيح (تحديد وزن) المثيلات على المسافة الفاصلة بين المثيل والخط: كلما ابتعد أحد المثيلات عن الخط، زادت القيمة المتبقية لذلك المثيل، وستُرجح الخوارزمية ذلك المثيل من خلال تربيع القيمة المتبقية. وإحدى تداعِيات تحديد الوزن هي أن المَثيلات ذات القِيم المتطرفة (الشاذة) يكون لها تأثير كبير على نحوٍ غير متناسب على عملية إعداد الخط الأكثر ملاءمة، مما يُسفر عن إبعاد الخط عن المثيلات الأخرى. وبالتالي، من المهم التحقق من القِيَم الشاذة في مجموعة البيانات قبل إعداد الخط الأكثر ملاءمةً لمجموعة البيانات (أو بعبارة أخرى، تدريب دالة انحدار خطِّي على مجموعة البيانات) باستخدام خوارزمية المربعات الصغرى.
يمكن التوسع في نماذج الانحدار الخطي لاستيعاب عدة مدخلات. يُضاف معاملٌ جديد إلى النموذج من أجل كل سمةٍ مُدخلة جديدة، وتُحدَّث المعادلة الخاصة بالنموذج لتشملَ نتيجة ضرب السمة الجديدة في المعامل الجديد ضمن المجموع. على سبيل المثال، من أجل التوسع في النموذج ليشمل سِمتَي التمارين الرياضية والوزن كمدخلات، ستصير معادلة دالة الانحدار كما يلي:
في علم الإحصاء، تُعرف دالة الانحدار التي تُعيِّن مُخرجًا واحدًا من عدة مدخلات بهذه الطريقة باسم «دالة انحدار خطِّي مُتعدد». تُعد بِنية دالة الانحدار المتعدد المدخلات أساسًا لمجموعةٍ من خوارزميات تعلُّم الآلة، من بينها الشبكات العصبية.
وتُعد العلاقة الارتباطية والانحدار مفهومَين متشابهَين حيث إن كليهما تِقنيتان تُركزان على العلاقات بين السمات في مجموعة البيانات. وتركز العلاقة الارتباطية على اكتشاف ما إذا كان هناك علاقة موجودة بين سِمتَين، ويركز الانحدار على نمذجة علاقة مفترضة بين السمات بغرَض القدرة على تقدير قيمة إحدى السمات المستهدَفة بناءً على قِيَم سِمة أو أكثر من السِّمات المدخلة. في الحالات المحددة لعلاقة بيرسون الارتباطية والانحدار الخطي، تقيس علاقة بيرسون الارتباطية درجة وجود علاقةٍ خطية بين سمتَين، والانحدار الخطي المدرب باستخدام المربعات الصغرى هو عملية لإيجاد خطٍّ أكثر ملاءمةً يتنبأ بقيمة سمةٍ بمعلومية قيمة سِمة أخرى.
الشبكات العصبية والتعلُّم العميق
تتكون «الشبكة العصبية» من مجموعة من الخلايا العصبية (أو العصبونات). تأخذ الخلية العصبية مجموعة من القيم العددية كمُدخلٍ لها ثم تعيِّن قيمة مُخرَجة وحيدة. والخلية العصبية، في جوهرها، هي بكل بساطة دالة انحدار خطي متعدد المدخلات. الفارق الوحيد المهم بين الاثنين أنه في الخلية العصبية يُمرَّر مخرج دالة الانحدار الخطي المتعدد المدخلات عبر دالةٍ أخرى يُطلق عليها «دالة تنشيط».

- (١)
ضرب كل مُدخلٍ في وزن.
- (٢)
جمع نتائج عمليات الضرب معًا.
- (٣)
تمرير هذه النتيجة عبر دالة تنشيط.
تُعد العمليَّتان الأولى والثانية مجرد عملياتٍ حسابية لدالة انحدار مُتعدد المدخلات، والعملية الثالثة هي تنفيذ دالة تنشيط.

تمثل الأسهم، التي تربط بين الخلايا العصبية في الشبكة، اتجاه تدفُّق المعلومات عبر هذه الشبكة. فمن الناحية التقنية، تُعَد هذه الشبكة بعينها شبكةً عصبية ذات تغذيةٍ أمامية لأنه لا يوجد حلقات تكرار في هذه الشبكة: تُشير جميع الوصلات إلى الأمام من المدخلات إلى المخرجات. وهذه الشبكة متصلة بعضها ببعض بالكامل لأن كل خلية عصبية متصلة بجميع الخلايا العصبية الأخرى في الطبقة التالية من الشبكة. ومن الممكن إنشاء عدة أنواعٍ مختلفة من الشبكات العصبية من خلال تغيير عدد الطبقات، وعدد الخلايا العصبية في كل طبقة، ونوع دوالِّ التنشيط المستخدَمة، واتجاه الوصلات بين الطبقات، وغيرها من المعاملات. في الواقع، يتضمن قدْر كبير من الجهد المطلوب لتطوير شبكةٍ عصبية لأداء مهمةٍ معينة، التجريبَ، للعثور على أفضل تصميمٍ للشبكة لكي تؤدي تلك المهمة.

- (١)
إذا كان الخطأ يُساوي صفرًا، إذن لا ينبغي لنا تغيير الأوزان الممنوحة للمُدخلات.
- (٢)
إذا كان الخطأ بالموجب، سنُقلل الخطأ إذا قُمنا بزيادة مُخرَجات الخلية العصبية، إذن يجب أن نزيد أوزان جميع الوصلات التي يكون فيها المدخَل بالموجب ونُقلل أوزان الوصلات التي يكون فيها المدخَل بالسالب.
- (٣)
إذا كان الخطأ بالسالب، سنُقلل الخطأ إذا قلَّلنا مُخرَجات الخلية العصبية، وبالتالي يجب أن نُقلل أوزان جميع الوصلات التي يكون فيها المدخَل بالموجب ونزيد أوزان الوصلات حيث يكون المدخَل بالسالب.
- (١)
حساب خطأ الخلايا العصبية الموجودة في طبقة المخرجات والاستعانة بقاعدة تحديث الوزن لتحديث الأوزان الداخلة إلى هذه الخلايا العصبية.
- (٢)
مشاركة الخطأ المحسوب عند إحدى الخلايا العصبية مع كلِّ خليةٍ عصبية في الطبقة السابقة المتصلة بتلك الخلية العصبية بالتناسُب مع وزن الوصلة الرابطة بين الخليتَين العصبيتَين.
- (٣)
بالنسبة إلى كل خليةٍ عصبية في الطبقة السابقة، حساب إجمالي أخطاء الشبكة التي تَسبَّبَت فيها الخلية العصبية عن طريق جمع الأخطاء التي انتشرت انتشارًا عكسيًّا واستخدام نتيجة مجموع هذه الأخطاء لتحديث الأوزان الخاصة بالوصلات الداخلة إلى هذه الخلية العصبية.
- (٤)
التعامل مع باقي الطبقات في الشبكة من خلال تكرار الخطوتَين الثانية والثالثة حتى تُحدَّث أوزان الوصلات ما بين خلايا المدخلات والطبقة الأولى من الخلايا العصبية المخفية.
في الانتشار العكسي، تُحسَب تحديثات الأوزان لكل خليةٍ عصبية من أجل الإقلال من أخطاء الخلية العصبية في المثيل التدريبي، لا من أجل التخلُّص نهائيًّا من الأخطاء. والسبب وراء ذلك أن الهدف وراء تدريب الشبكة هو تمكينها من التعميم على المَثيلات الجديدة غير الموجودة في بيانات التدريب بدلًا من حفظ بيانات التدريب. وبالتالي، كل مجموعة من تحديثات الأوزان تدفع الشبكة نحوَ مجموعةٍ من الأوزان التي تُناسب بوجهٍ عام مجموعة البيانات بالكامل، ومن خلال العديد من عمليات التكرار تستقر الشبكة على مجموعةٍ من الأوزان التي ترصد التوزيع العام للبيانات بدلًا من التفاصيل المخصصة لمثيلات التدريب. وفي بعض نُسَخ الانتشار العكسي، تُحدَّث الأوزان بعد تقديم عددٍ من المثيلات (أو مجموعة من المثيلات) للشبكة وليس بعد كل مثيلٍ تدريبي. التعديل الوحيد اللازم إجراؤه على هذه النُّسَخ هو أن تستخدِم الخوارزمية متوسط خطأ الشبكة على مجموعةٍ من المثيلات باعتباره مقياس الخطأ عند طبقة المخرجات لعملية تحديث الوزن.

تأتي قوة الشبكات العصبية العميقة من حقيقة أنها يمكن أن تتعلَّم السمات المفيدة تلقائيًّا، مثلما تفعل الخلايا الكاشفة عن سمةٍ ما في الشبكات العصبية الالتفافية. في الواقع، أحيانًا يُعرف التعلُّم العميق باسم «التعلُّم التمثيلي» لأن هذه الشبكات العميقة تتعلم بالضرورة تمثيلًا جديدًا للبيانات المدخلة يعتبر أفضل في التنبؤ بالسمة المستهدَفة من المدخل الأساسي الخام. تعرِّف كل خليةٍ عصبية في الشبكة دالةً تعيِّن القيم المدخلة إلى الخلية العصبية إلى سمة جديدة مُخرجة. ومن ثم، ربما تتعلم خلية عصبية في الطبقة الأولى من الشبكة دالَّةً تعيِّن القيم الخام المدخَلة (مثل الوزن والطول) إلى سمة أفيدَ مِن القِيَم المدخَلة الفردية (مثل مؤشر كتلة الجسم). ومع ذلك، تُغذَّى الخلايا العصبية الموجودة في الطبقة الثانية بالمخرَجات الخاصة بهذه الخلية، بالإضافة إلى المخرجات الخاصة بالخلايا العصبية المجاورة في الطبقة الأولى، وتحاول الخلايا العصبية في الطبقة الثانية أن تتعلَّم الدوال التي تعين مُخرجات الطبقة الأولى إلى تمثيلاتٍ جديدة أكثر فائدة. وتستمر هذه العملية الخاصة بتعيين مُدخلات إلى السمات الجديدة وتغذية الدوال الجديدة بهذه السمات الجديدة كمدخلاتٍ عبر الشبكة، وبينما تزداد الشبكة عمقًا، يُمكنها أن تتعلَّم تعييناتٍ أكثر تعقيدًا من المدخلات الخام إلى تمثيلات السمة الجديدة. إن القدرة على تعلُّم التعيينات المعقدة للبيانات المدخلة تلقائيًّا إلى تمثيلات مفيدة هي ما تجعل نماذج التعلُّم العميق دقيقةً للغاية في المهام الكثيرة الأبعاد (مثل معالجة الصور والنصوص).
الهياكل الشجرية لاتخاذ القرار
يعمل الانحدار الخطِّي والشبكات العصبية على أفضل نحوٍ مع المدخَلات العددية. فإذا كانت السمات المدخَلة في مجموعة البيانات سماتٍ اسميةً أو ترتيبية في الأساس، فربما تكون خوارزميات ونماذج تعلُّم الآلة الأخرى، مثل الهياكل الشجَرية لاتخاذ القرار، مناسبةً أكثر لهذه البيانات.

مرفق | كلمات مُريبة | مُرسِل مجهول | عشوائية |
---|---|---|---|
خطأ | خطأ | صواب | صواب |
خطأ | خطأ | صواب | صواب |
خطأ | خطأ | خطأ | صواب |
خطأ | خطأ | خطأ | خطأ |
خطأ | خطأ | خطأ | خطأ |

إحدى نقاط القوة التي تتمتع بها الهياكل الشجرية لاتخاذ القرار هي أنها يسهل فهمُها. كما أنه من الممكن ابتكار نماذج دقيقة للغاية استنادًا إلى هذه الهياكل. على سبيل المثال، يتألف «نموذج الغابة العشوائية» من مجموعة من الهياكل الشجرية، حيث يتم تدريب كل هيكل على عينةٍ فرعية من بيانات التدريب، ويكون التنبؤ الذي يُنتجه النموذج لاستعلامٍ فردي هو التنبؤ الأكثر شيوعًا عبر جميع أشجار الغابة. وعلى الرغم من أن الهياكل الشجرية لاتخاذ القرار تستطيع التعامل مع كلٍّ من البيانات الاسمية والترتيبية؛ فإنها تواجِه صعوبةً في التعامل مع البيانات العددية. ففي أحد الهياكل الشجرية، ينحدِر فرع مُنفصل من كل عقدة عن كل قيمةٍ في نطاق السمة الاختبارية عند العقدة. أما السِّمات العددية فلها عددٌ لا نهائي من القِيم في نطاقاتها، وذلك يعني ضمنيًّا أن الهيكل الشجري سيحتاج عددًا لا نهائيًّا من الفروع. وأحد الحلول لهذه المشكلة هو تحويل السمات العددية إلى سماتٍ ترتيبية، على الرغم من أن القيام بذلك يستلزِم تعيين الحدود المناسبة؛ وهو أمر قد يكون صعبًا أيضًا.

أخيرًا، نظرًا إلى أن خوارزمية تعلُّم الآلة القائمة على الهياكل الشجرية تُقسِّم مجموعة البيانات بصورةٍ متكررة كلما كبر الهيكل الشجري، فإنها تُصبح أكثر حساسيةً نحو التشويش (مثل المَثيلات المضللة). تصير المجموعة الفرعية للأمثلة (المَثيلات) الموجودة على كل فرعٍ أصغر فأصغر، وبالتالي تصير عينة البيانات التي تستند إليها كل قاعدةٍ تصنيفية أصغر. وكلما كانت عينة البيانات المستخدمة لتحديد القاعدة التصنيفية أصغر، صارت القاعدة أكثر حساسيةً للتشويش. ونتيجة لذلك، من الجيد الإبقاء على الهياكل الشجرية سطحية. ويتمثل أحد المناهج في إيقاف نموِّ الفرع عندما يكون عددُ المثيلات على الفرع لا يزال أقلَّ من الحَدِّ المحدد مسبقًا (على سبيل المثال، ٢٠ مثيلًا). وتسمح مناهج أخرى بنموِّ الهيكل الشجري، ثم بعد ذلك يُقلَّم. تستعين هذه المناهج عادةً باختباراتٍ إحصائية أو أداء النموذج على مجموعة من المثيلات المختارة بدقة لأداء هذه المهمة المتمثلة في تحديد التفريعات القريبة من الجزء السفلي من الهيكل الشجري والتي ينبغي إزالتها.
التحيُّز في علم البيانات
الهدف من تعلُّم الآلة هو إنشاء نماذج تشفِّر التعميمات الصحيحة استنادًا إلى مجموعات البيانات. وثمة عاملان مُهمان يساهمان في التعميم (أو النموذج) الذي ستولده خوارزمية تعلُّم الآلة من مجموعة البيانات. العامل الأول هو مجموعة البيانات التي تعمل عليها الخوارزمية. إذا لم تكن مجموعة البيانات تُمثل المجتمع الإحصائي، فلن يكون النموذج الذي تُولده الخوارزمية دقيقًا. على سبيل المثال، في موضعٍ سابق طوَّرنا نموذج انحدار خطِّي يتنبأ باحتمالية إصابة الفرد بمرض السكَّر من النوع الثاني استنادًا إلى مؤشر كتلة جسمه. تم توليد هذا النموذج من مجموعةِ بياناتٍ خاصة بالذكور الأمريكيين البالِغين ذوي البشرة البيضاء. ونتيجة لذلك، ليس من المرجَّح أن يكون هذا النموذج دقيقًا إذا استُخدم للتنبؤ باحتمالية إصابة الإناث أو الذكور من عِرق مختلفٍ أو خلفيات عرقية مختلفة. يصف مصطلح «تحيُّز العينة» إلى أي مدًى يمكن أن تقدم العملية المستخدمة لاختيار مجموعة البيانات تحيزاتٍ إلى التحليل اللاحق، سواء أكان هذا التحليل إحصائيًّا أم لإنتاج نماذج تنبؤ باستخدام تعلُّم الآلة.
العامل الثاني الذي يؤثر على النموذج المتولد من مجموعة البيانات هو اختيار خوارزمية تعلُّم الآلة. هناك الكثير من هذه الخوارزميات، وكل واحدة منها تشفِّر طريقة مختلفة لاستنباط التعميمات من مجموعة البيانات. تُعرف نوعية التعميم الذي تشفره الخوارزمية ﺑ «التحيز الاستقرائي» الخاص بالخوارزمية (أو أحيانًا يُطلق عليه «تحيز النمذجة» أو «تحيز الاختيار»). على سبيل المثال، تشفر خوارزمية الانحدار الخطي تعميمًا خطيًّا من البيانات وبالتالي تتجاهل العلاقات غير الخطية التي ربما تتناسَب بدرجةٍ أكبر مع البيانات. عادةً ما يُفهم التحيز على أنه شيءٌ سيئ. على سبيل المثال، التحيز في اختيار العينة هو التحيز الذي سيحاول عالِم البيانات أن يتجنَّبه. ومع ذلك، في ظلِّ غياب التحيز الاستقرائي لا يمكن أن يكون هناك تعلُّم، وإنما ستكون الخوارزمية قادرةً على حفظ البيانات فقط.
تقييم النماذج: التعميم لا الحفظ
بمجرد أن يختار عالِم البيانات مجموعة من خوارزميات تعلُّم الآلة ليُجربها على مجموعة بيانات، تكون المهمة الرئيسية التالية هي وضع خطة فحصٍ لكيف ستُقيَّم النماذج التي تم توليدها بواسطة هذه الخوارزميات. الهدف من خطة الفحص هو التأكُّد من أن التقييم يُقدِّم تقديراتٍ واقعية لأداء النموذج على البيانات التي لم يسبق رؤيتها. وليس من المرجَّح أن يبلي نموذج التنبؤ الذي يحفظ مجموعة البيانات فحسب بلاءً حسنًا في تقدير القِيَم من أجل الأمثلة الجديدة. وتتمثَّل إحدى المشكلات المرتبطة بحفظ البيانات فحسب في أن معظم مجموعات البيانات تحتوي على تشويش. وبالتالي، فإن نموذج التنبؤ الذي يحفظ البيانات فحسب يحفظ أيضًا التشويش الموجود في البيانات. وتتمثل مشكلة أخرى مرتبطة بحفظ البيانات فحسب في اختزال عملية التنبؤ على البحث في جدول؛ دون إيجاد حلٍّ لمشكلة كيفية التعميم من بيانات التدريب على أمثلةٍ جديدة لا توجَد في الجدول.
وجزء من خطة الفحص مرتبطٌ بكيفية استخدام مجموعة البيانات لتدريب النماذج واختبارها. يجب أن تُستخدَم مجموعة البيانات لغرَضَين مختلفَين. الغرض الأول هو إيجاد الخوارزمية التي تُولِّد أفضل نموذج. والغرض الثاني هو تقييم أداء التعميم الخاص بالنموذج الأفضل؛ أي إلى أي مدًى من المرجَّح أن يُجيد النموذج التعامل مع البيانات التي لم يسبق رؤيتها. والقاعدة الذهبية لتقييم النماذج هي أنه لا ينبغي أبدًا اختبار النماذج بناءً على نفس البيانات التي دُرِّبت عليها. إن الاستعانة بالبيانات نفسها لتدريب النماذج واختبارها أشبَهُ بإعطاء الطلَّاب أسئلة الاختبار في ليلة الامتحان. بالطبع، سيُبلي الطلَّاب بلاءً حسنًا في الاختبار؛ ولن تعكس درجاتهم إجادتهم الحقيقية للمادة الدراسية بوجهٍ عام. وهذا هو الوضع أيضًا مع نماذج تعلُّم الآلة: إذا قُيِّم النموذج بناءً على البيانات نفسها التي تدرَّب عليها، فستكون نتائج التقييم متفائلةً مقارنة بالأداء الحقيقي للنموذج. وتتمثل العملية المعيارية لضمان أن النماذج لا يُمكنها اختلاس النظر إلى بيانات الاختبار أثناء التدريب في تقسيم البيانات إلى ثلاثة أجزاء: مجموعة تدريب، ومجموعة تحقُّق، ومجموعة اختبار. وستختلف نِسَب هذه المجموعات باختلاف المشروعات، إلا أن تقسيم المجموعات على هذا النحو: ٥٠:٢٠:٣٠ و٤٠:٢٠:٤٠ هو التقسيم الشائع. وحجم مجموعة البيانات هو عامل رئيسي في تحديد التقسيمات: بوجهٍ عام، كلما كانت مجموعة البيانات كبيرة، كانت مجموعة الاختبار كبيرة. تُستخدَم مجموعة التدريب لتدريب مجموعةٍ مبدئية من النماذج. ثم تُستخدَم مجموعة التحقُّق لمقارنة أداء هذه النماذج على البيانات التي لم يسبق رؤيتها. تمكِّننا مقارنة أداء هذه النماذج المبدئية بمجموعة التحقُّق من تحديد أي الخوارزميات تُولِّد النموذج الأفضل. وبمجرد اختيار أفضل خوارزمية، يمكن دمج مجموعة التدريب والتحقُّق معًا لتُصبح مجموعة تدريب أكبر، وتُغذَّى أفضل خوارزمية بهذه المجموعة لكي تُنشئ النموذج النهائي. ومن الأهمية بمكانٍ ألا تُستخدَم مجموعة الاختبار خلال عملية اختيار أفضل خوارزمية، ولا ينبغي أن تُستخدَم لتدريب هذا النموذج النهائي. وإذا اتبعت هذه التحفظات، إذن يمكن استخدام مجموعة الاختبار لتقدير أداء التعميم الخاص بهذا النموذج النهائي على البيانات التي لم يسبق رؤيتها.
القاعدة الذهبية لتقييم النماذج هي أنه لا ينبغي أبدًا اختبار النماذج بناءً على نفس البيانات التي تدرَّبت عليها.
المكون الرئيسي الآخر لخطة الفحص هو اختيار معايير تقييمٍ مناسبة لاستخدامها أثناء التجربة. بوجهٍ عام، تُقيَّم النماذج استنادًا إلى أي مدًى تتوافق عادةً مُخرجات النموذج مع المخرجات المذكورة في مجموعة الاختبار. فإذا كانت السِّمة المستهدفة قيمةً عددية، إذن مجموع الأخطاء التربيعية هي إحدى الطرق لقياس دقة النموذج على مجموعة الاختبار. وإذا كانت السمة المستهدَفة اسميةً أو ترتيبية، إذن تكون أسهل طريقة لتقييم دقة النموذج هي حساب نسبة الأمثلة في مجموعة الاختبار التي تنبَّأ بها النموذج على النحو الصحيح. ومع ذلك، من المهم في بعض السياقات تضمين تحليل الخطأ داخل التقييم. إذا كان النموذج مستخدَمًا في سياق تشخيصٍ طبيٍّ مثلًا، يكون الأمر أكثر خطورة إذا شخَّص النموذج مريضًا على أنه شخصٌ سليم مما إذا كان الشخص سليمًا وشُخِّص على أنه مريض. ربما يسفر تشخيص شخصٍ مريض على أنه سليم عن إعادته إلى المنزل دون تلقِّي العناية الطبية المناسبة، ولكن إذا شخَّص النموذج شخصًا سليمًا على أنه مريض، فمن المرجَّح اكتشاف هذا الخطأ بواسطة الفحوصات الطبية التالية التي سيُجريها المريض. وبالتالي ينبغي أن يُعطي مقياس التقييم المستخدَم لتقييم هذه الأنواع من النماذج وزنًا أكبر لنوعٍ من الأخطاء على غيره عند تقييم أداء النموذج. وبمجرد أن تُنشأ خطة الاختبار، يستطيع عالِم البيانات أن يبدأ تدريب النماذج وتقييمها.
ملخص
استُهِلَّ هذا الفصل بقول إن علم البيانات بمثابة علاقة شراكة بين عالِم البيانات والكمبيوتر. ويوفر تعلُّم الآلة مجموعةً من الخوارزميات التي تُولِّد نماذج من مجموعةٍ كبيرة من البيانات. ومع ذلك، ستعتمد فائدة هذه النماذج من عدمها على خبرة عالِم البيانات. ولكي ينجح مشروع علم البيانات، ينبغي أن تكون مجموعة البيانات ممثلة للمجال وينبغي أن تتضمن سماتٍ ذات صلة. ينبغي أن يُقيِّم عالِم البيانات مجموعة من خوارزميات تعلُّم الآلة لتحديد الخوارزمية التي تولد أفضل النماذج. وينبغي أن تتبع عملية تقييم النموذج القاعدة الذهبية التي تنص على أن النموذج ينبغي ألا يُقيَّم بناءً على البيانات التي تدرَّب عليها.