الفصل السادس

لا تنسَ (علم) البيانات

تعلُّم الآلة

بما أن العديد من الأسئلة الأخلاقية حول الذكاء الاصطناعي تتعلق بتقنيات تعتمِد كليًّا أو جزئيًّا على تعلُّم الآلة وعلم البيانات ذي الصِّلة، فإنه يجدُر بنا أن نُلقي الضوء على هذه التقنية والعلم.

يُشير «تعلُّم الآلة» إلى البرامج التي يُمكنها «التعلُّم». والمصطلح مُثير للجدل: فالبعض يقولون إن ما تقوم به ليس تعلُّمًا حقيقيًّا لأنها لا تتمتَّع بإدراكٍ حقيقي؛ والتعلُّم مقصور على البشَر فحسب. على أي حال، يحمل تعلُّم الآلة الحديث «تشابهًا ضئيلًا أو مُنعدمًا مع ما قد يحدُث في عقول البشر» (Boden 2016, 46). وهو يعتمد على الإحصاءات؛ إذ إنه عملية إحصائية. ويُمكن استخدامه لمهامَّ متنوعة، ولكن المهمة الأساسية غالبًا ما تكون هي التعرُّف على الأنماط. ويُمكن للخوارزميات التعرُّف على الأنماط أو القواعد الموجودة في البيانات واستخدام تلك الأنماط أو القواعد لتفسير البيانات وتوقُّع البيانات المُستقبلية.

يحدُث ذلك ذاتيًّا؛ بمعنى أنه يحدُث دون تعليماتٍ وقواعد مباشرة يُعطيها المبرمج. وعلى عكس الأنظمة الخبيرة التي تعتمِد على خبراء بشريين في المجال يشرحون القواعد للمُبرمِجين الذين يتولَّون بعد ذلك برمجة هذه القواعد، تبحث خوارزمية تعلُّم الآلة عن قواعد أو أنماطٍ لم يُحدِّدها المبرمج. كل ما عليك هو تحديد الهدف أو المهمة فقط. وسوف يستطيع البرنامج أن يُكيِّف سلوكَه بما يتوافق مع مُتطلبات المهمة. على سبيل المثال، يمكن لتعلُّم الآلة المساعدة في التمييز بين البريد الإلكتروني العشوائي غير المرغوب فيه والبريد المُهم من خلال فحص عددٍ كبير من الرسائل وتعلُّم ما يُعتبَر عشوائيًّا. مثال آخَر: لإنشاء خوارزمية تتعرَّف على صور القطط، لا يُقدِّم المبرمجون للكمبيوتر مجموعةً من القواعد تُعرَّف فيها ما هي القطط، ولكنهم يُتيحون للخوارزمية إنشاء نموذجٍ خاصٍّ بها لصور القطط. وتُحسِّن الخوارزمية من أدائها ذاتيًّا لتحقيق أعلى دقَّة تنبؤ بالاستناد إلى مجموعةٍ من صور القطط وغير القطط. وبالتالي، تهدف إلى تعلُّم ما هي صور القطط. ويُقدِّم البشر تقارير، ولكنهم لا يُغذُّونها بتعليماتٍ أو قواعد مُحددة.

كان العلماء في السابق يُنشئون نظرياتٍ لتفسير البيانات والتنبُّؤ بها؛ في حين يُنشئ الكمبيوتر في تعلُّم الآلة نماذج خاصة به تتناسب مع البيانات. إذَن فنقطة البداية هي البيانات، وليس النظريات. ومن هذا المُنطلق، لم تعُد البيانات «سلبية» بل «نشطة»: «فالبيانات نفسها هي التي تُحدِّد ما يجب القيام به بعد ذلك» (Alpaydin 2016, 11). يُدرِّب الباحثون الخوارزمية باستخدام مجموعات البيانات الموجودة (على سبيل المثال، رسائل البريد الإلكتروني القديمة)، وعندئذٍ تستطيع الخوارزمية التنبُّؤ بالنتائج من البيانات الجديدة (على سبيل المثال، البريد الإلكتروني الوارد الجديد) (CDT 2018). يُشار أحيانًا إلى التعرُّف على الأنماط في كمياتٍ كبيرة من المعلومات (البيانات الضخمة) باسم «التنقيب عن البيانات»، تشبيهًا له باستخراج المعادن القَيِّمة من الأرض. ومع ذلك، فإن المصطلح مُضلِّل لأن الهدف هو استخراج أنماطٍ من البيانات، وتحليل البيانات، وليس استخراج البيانات نفسها.

يمكن أن يكون تعلُّم الآلة «مُوجَّهًا»، مما يَعني أن الخوارزمية تركِّز على متغيِّر مُعيَّن يُعرَف باسم هدف التنبؤ. على سبيل المثال، إذا كان الهدف هو تقسيم الأشخاص إلى فئتَين (على سبيل المثال، خطورة أمنية عالية أو منخفضة)، فإن المُتغيرات التي تتنبأ بهاتَين الفئتَين معروفة بالفعل، وبالتالي تتعلَّم الخوارزمية التنبُّؤ بالانتماء إلى إحدى الفئتَين (الخطورة الأمنية العالية أو الخطورة الأمنية المنخفضة). يُدرِّب المبرمج النظام عن طريق توفير أمثلة وغيرها، على سبيل المثال، صور للأشخاص الذين يُشكِّلون خطورة أمنية عالية وأمثلة للأشخاص الذين لا يُشكلون خطورة أمنية. يكون الهدف أن يتعلَّم النظام التنبُّؤ بمَن ينتمي إلى كل فئة، أي مَن يُشكل خطورةً أمنية عالية ومَن لا يشكل بناءً على البيانات الجديدة. إذا أُعطِي النظام ما يكفي من الأمثلة، فإنه سيكون قادرًا على التعميم من هذه الأمثلة ومعرفة كيفية تصنيف البيانات الجديدة، مثل صورةٍ جديدة لراكبٍ يمرُّ عَبْر أمن المطار. أما تعلُّم الآلة «غير المُوجَّه» فيعني عدم تقديم هذا النوع من التدريب، وأن الفئات غير معروفة: ومن ثَم تُنشئ الخوارزميات فئاتٍ خاصَّة بها. على سبيل المثال، يُنشئ الذكاء الاصطناعي فئاتٍ أمنيةً خاصةً به استنادًا إلى المُتغيرات التي يُحددها؛ لا التي يُقدمها إليه المبرمج. وربما يعثر الذكاء الاصطناعي على أنماطٍ لم يُحدِّدها خبراء المجال (في هذا السياق: الخبراء الأمنيون). ويمكن أن تبدو الفئات التي أنشأها الذكاء الاصطناعي من منظور البشر عشوائية للغاية. وربما لا يكون لها معنى. ولكنها موجودة من الناحية الإحصائية. وفي بعض الأحيان يكون لها معنى، وفي هذه الحالة يمكن لهذه الطريقة أن تُعطينا معرفةً جديدة حول الفئات في العالم الواقعي. أما التعلُّم «المُعزَّز»، فإنه يتطلب تقييمًا للمُخرجات إن كانت جيدة أم سيئة. وهذا يُشبه فكرة الثواب والعقاب. فالبرنامج لا يُخبَر أيُّ الإجراءات يجب أن يُتخَذ، ولكنه «يتعلم» من خلال عملية تكرارية أي الإجراءات التي تؤدي إلى الثواب. ففي المثال الأمني السابق، يتلقى النظام تقريرًا (أو بيانات) من الخبراء الأمنِيِّين بحيث «يعرف» ما إذا كان قد قام بعملٍ جيد عندما يجري تنبؤًا معينًا. فإذا لم يُسبب الشخص الذي تنبأ النظام بأنه ذو خطورة أمنية منخفضة أيَّ مشكلاتٍ أمنية، فإن النظام يتلقى تقريرًا بأن مخرجاته كانت جيدة ومن ثَم «يتعلم» منه. يجب ملاحظة أن هناك دائمًا نسبةً من الخطأ: فالنظام ليس دقيقًا بنسبة ١٠٠ في المائة. يجب أيضًا ملاحظة أن المُصطلَحَين الفنِّيَّين «موجَّه» و«غير موجَّه» لا علاقة لهما بمدى التدخُّل البشري في استخدام التكنولوجيا: ففي حين أن الخوارزمية تتمتَّع ببعض الاستقلالية، فإن البشر في جميع أنواع تعلُّم الآلة يتدخَّلون بطرقٍ مختلفة.

هذا صحيح أيضًا فيما يخصُّ البيانات في مجال الذكاء الاصطناعي، بما في ذلك ما يُسمَّى ﺑ «البيانات الضخمة». اكتسب تعلُّم الآلة القائم على البيانات الضخمة الكثير من الاهتمام بسبب توفر كميات كبيرة من البيانات وزيادة قدرة الكمبيوتر (الأرخص). يتحدَّث بعض الباحثين عن «زلزال البيانات» (Alpaydin 2016, x). نحن جميعًا نُنتِج بيانات من خلال أنشطتنا الرقمية، مثلما يحدُث على سبيل المثال عندما نستخدِم وسائل التواصل الاجتماعي أو عندما نشتري منتجاتٍ عبر الإنترنت. هذه البيانات مهمة بالنسبة إلى الجهات التجارية وأيضًا بالنسبة إلى الحكومات والعلماء. لقد صار جمع البيانات وتخزينها ومعالجتها أسهل بكثير على المؤسسات (Kelleher and Tierney 2018). وليس ذلك بسبب تعلُّم الآلة فقط: فالبيئة الرقمية الأوسع وتقنيات الوسائط الرقمية الأخرى تلعب دورًا مُهمًّا في هذا الصدد. إذ تيسر التطبيقات عبر الإنترنت ووسائل التواصُل الاجتماعي جمع البيانات من الأفراد. كما أن تخزين البيانات أصبح أقلَّ تكلفة، وأصبحت أجهزة الكمبيوتر ذات إمكانياتٍ أكبر. كل هذا كان مُهمًّا لتطوير الذكاء الاصطناعي بشكلٍ عام، وعلم البيانات بشكل خاص.

علم البيانات

نستنتِج مما سبق أن تعلُّم الآلة يرتبط ﺑ «علم البيانات». إذ يهدف علم البيانات إلى استخراج أنماطٍ مفيدة وذات معنًى من مجموعات البيانات، وفي الوقت الحالي هذه المجموعات كبيرة جدًّا. يستطيع تعلُّم الآلة تحليل هذه المجموعات الكبيرة من البيانات آليًّا. ويعتمِد تعلُّم الآلة وعلم البيانات على الإحصاءات، أو على الانتقال من الملاحظات الفردية إلى توصيفاتٍ عامة. فعلماء الإحصاء يهتمُّون بالعثور على ارتباطاتٍ في البيانات من خلال التحليل الإحصائي. وتبحث عمليات إنشاء النماذج الإحصائية عن العلاقات الرياضية بين المدخلات والمخرجات. وهذا هو ما تساعد فيه خوارزميات تعلُّم الآلة.

نحن جميعًا نُنتج بيانات من خلال أنشطتنا الرقمية، كما يحدث على سبيل المثال عندما نستخدِم وسائل التواصُل الاجتماعي أو عندما نشتري مُنتجات عبر الإنترنت.

ولكن علم البيانات ينطوي على أكثر من مجرد تحليل البيانات بواسطة تعلُّم الآلة. إذ يجب جمع البيانات وإعدادها قبل تحليلها، وبعد ذلك يجب تفسير نتائج التحليل. وينطوي علم البيانات على تحدِّيات مثل كيفية الحصول على البيانات وتنقيتها (على سبيل المثال، من وسائل التواصل الاجتماعي والويب)، وكيفية الوصول إلى كميةٍ كافية من البيانات، وكيفية جمع مجموعات البيانات معًا، وكيفية إعادة هيكلة مجموعات البيانات، وكيفية اختيار مجموعات البيانات ذات الصلة، وأي نوع من البيانات يتم استخدامه. لذلك لا يزال البشَر يلعبون دورًا مهمًّا في جميع المراحل وفيما يتعلق بجميع هذه الجوانب، بما في ذلك صياغة المشكلة، والحصول على البيانات، وإعداد البيانات (مجموعة البيانات التي تتدرَّب عليها الخوارزمية ومجموعة البيانات التي ستُطبق عليها)، وإنشاء خوارزمية التعلُّم أو اختيارها، وتفسير النتائج، واتخاذ قرار حول الإجراء الذي يجب اتخاذه (Kelleher and Tierney 2018).

تظهر التحدِّيات العلمية في كل مرحلة من هذه العملية، وعلى الرغم من أن البرامج قد تكون سهلة الاستخدام، فإن مواجهة هذه التحديات تتطلَّب وجود المعرفة البشرية الخبيرة المُتخصِّصة. وعادةً ما يكون التعاون بين البشر أمرًا ضروريًّا أيضًا، على سبيل المثال، بين علماء البيانات والمهندسين. ومن الوارد حدوث أخطاء طوال الوقت، لذا فإن الاختيار البشري والمعرفة البشرية والتفسير البشري أمر حاسم الأهمية. فالبشر مهمُّون في هذا السياق لتفسير الأمور على نحوٍ معقول وتوجيه التكنولوجيا نحو البحث عن عوامل وعلاقات مختلفة. والذكاء الاصطناعي، من وجهة نظر بودن (٢٠١٦)، يفتقر إلى فهمنا للصِّلات والعلاقات. ويمكننا أن نُضيف أنه يفتقر أيضًا إلى الفهم والتجربة والحساسية والحكمة. وهذه حجة جيدة تدعم نظريًّا ومبدئيًّا ضرورة مشاركتنا نحن البشر في الأمر. ولكن ثمة حجة عملية أيضًا تدعم عدم خروج البشر من المشهد؛ وهي أن البشر يشاركون بالفعل عمليًّا في الأمر. فدون المبرمجين وعلماء البيانات، لن تستطيع التكنولوجيا القيام بوظيفتها ببساطة. علاوةً على ذلك، كثيرًا ما يتم دمج الخبرة البشرية مع الذكاء الاصطناعي، على سبيل المثال، عندما يستخدم الطبيب استراتيجية علاج سرطان يوصي بها الذكاءُ الاصطناعي، ولكنه في الوقت نفسه يعتمد على تجاربه وحدسه كخبير. فإذا ألغي التدخل البشري، يمكن أن تسوء الأمور أو تفقد معناها أو ببساطة تُصبح غير منطقية.

ولنضرب مثلًا بالمشكلة المعروفة التالية من الإحصاء، والتي تؤثر بدَورها على استخدام تعلُّم الآلة: الارتباطات لا تعني بالضرورة علاقاتٍ سببية. يُقدم تايلر فيجين في كتابه «الارتباطات الزائفة» (٢٠١٥) بعض الأمثلة الجيدة على ذلك. في الإحصاء، الارتباط الزائف هو الارتباط الذي تكون فيه المُتغيرات غير مرتبطة فيما بينها بعلاقاتٍ سببية ولكنها قد تبدو كذلك؛ ويكون الارتباط ناجمًا عن وجود عاملٍ ثالث غير مرئي. من بين الأمثلة التي يُقدِّمها فيجين الارتباط بين معدل الطلاق في ولاية مين ومعدل استهلاك السمن النباتي للفرد الواحد، أو الارتباط بين معدل استهلاك جبن الموتزاريلا للفرد الواحد والحصول على دكتوراه في الهندسة المَدنية.1 ربما يعثر الذكاء الاصطناعي على مثل هذه الارتباطات، ولكن يجب أن يتدخَّل البشر لتقرير الارتباطات التي تستحقُّ مزيدًا من الدراسة من أجل العثور على علاقاتٍ سببية.
فضلًا عن ذلك، في المرحلة التي يتم فيها جمع البيانات وتصميم أو إنشاء مجموعة البيانات، نجري اختياراتٍ فيما يخصُّ كيفية التجريد عن الواقع (Kelleher and Tierney 2018). والتجريد عن الواقع لا يكون مُحايدًا أبدًا، والتجريد نفسه ليس واقعًا؛ وإنما هو تمثيل للواقع. وهذا يَعني أنه يُمكننا مناقشة مدى جودة هذا التمثيل وملاءمته، فيما يتعلق بغرَض مُعين. قارن هذا بأية خريطة: الخريطة نفسها ليست هي الإقليم، وقد اختار البشَر طريقة تصميم الخريطة لغرَضٍ مُعين (على سبيل المثال، خريطة لملاحة السيارات مقابل خريطة طوبوغرافية للتنزُّه سيرًا على الأقدام). في تعلُّم الآلة، يعمل التجريد باستخدام الأساليب الإحصائية على إنشاء نموذج للواقع؛ إنه ليس الواقع الفعلي. كما يتضمَّن ذلك اختيارات: اختيارات بشأن الخوارزمية نفسها التي تُوفِّر العملية الإحصائية التي تأخذنا من البيانات إلى النمط/القاعدة، ولكن أيضًا اختيارات بشأن تصميم مجموعة البيانات التي تتدرَّب عليها الخوارزمية. يعني هذا الجانب الاختياري، ومن ثَم الجانب البشري، في تعلُّم الآلة أنه يُمكننا أن نطرح أسئلةً نقدية حول الاختيارات التي تُتَّخَذ، بل يجب علينا أن نفعل ذلك. على سبيل المثال، هل مجموعة البيانات التي سيتم التدريب عليها تُمثل السكان تمثيلًا جيدًا؟ هل هناك أي تحيُّزات في البيانات؟ كما سنرى في الفصل القادم، هذه الاختيارات والقضايا ليست مجرد أسئلة فنية ولكن لها أيضًا جانب أخلاقي شديد الأهمية.

التطبيقات

لتعلُّم الآلة وعلم البيانات تطبيقاتٌ عديدة، ذَكرتُ بعضها بالفعل تحت العنوان الأعم المُتمثل في الذكاء الاصطناعي. هذه التقنيات يُمكن استخدامها للتعرُّف على الوجوه (بل للتعرُّف على الانفعالات بناءً على تحليل الوجوه)، أو تقديم اقتراحات بحث، أو قيادة السيارة، أو إجراء توقُّعات شخصية، أو التنبُّؤ بمَن سيعاود ارتكاب الجريمة، أو التوصية بموسيقى مُعينة للاستماع إليها. وتستخدَم في مجال المبيعات والتسويق، للتوصية بمنتجات وخدمات. على سبيل المثال، عندما تشتري شيئًا على موقع أمازون، سيجمع الموقع بياناتٍ عنك ثم يُقدم توصيات على أساس نموذج إحصائي يستند إلى بياناتٍ من جميع العملاء. استخدمت شركة وولمارت في متاجرها تقنية التعرُّف على الوجوه للتصدي للسرقة؛ وقد تستخدم في المُستقبل التقنية نفسها لتحديد ما إذا كان المُتسوقون سعداء أم مُحبَطين. كما أن للتقنيات تطبيقات مختلفة في مجال التمويل. تعاونت وكالة إكسبريان للمرجعية الائتمانية مع الذكاء الاصطناعي المدعوم بتعلُّم الآلة لتحليل البيانات المُتعلقة بالمُعاملات والقضايا المنظورة في المحاكم من أجل التوصية بما إذا كان يجب تقديم قرضٍ لمُقدِّم طلب لرهن عقاري. وتستخدم أمريكان إكسبريس تعلُّم الآلة لتوقع المعاملات الاحتيالية. وفي مجال النقل، يُستخدَم الذكاء الاصطناعي والبيانات الضخمة لإنشاء سيارات ذاتية القيادة. على سبيل المثال، تستخدِم شركة بي إم دبليو نوعًا من تقنية التعرُّف على الصور لتحليل البيانات الواردة من أجهزة الاستشعار والكاميرات في السيارة. وفي مجال الرعاية الصحية، يمكن أن يُساعد الذكاء الاصطناعي المدعوم بتعلُّم الآلة في تشخيص السرطان (على سبيل المثال، في تحليل صور الأشعة لتشخيص مرض السرطان) أو اكتشاف الأمراض المُعدية. على سبيل المثال، أجرى نظام الذكاء الاصطناعي لشركة ديب مايند تحليلًا لمليون صورة من صور أشعة العيون وبيانات المرضى، مُدربًا نفسه على تشخيص أعراض حالات العيون المرضية المُتدهورة. وقد تجاوز نظام واتسون الذي أنشأته شركة آي بي إم مُمارسة لعبة «جيوباردي» ويستخدم لتقديم توصياتٍ بشأن علاج السرطان. كما تُزوِّد أجهزة الرياضة والصحة التي يمكن ارتداؤها تطبيقات تعلُّم الآلة بالبيانات. وفي مجال الصحافة، يمكن لتعلُّم الآلة كتابة تقارير إخبارية. على سبيل المثال، في المملكة المتحدة، تستخدِم وكالة أنباء «بريس أسوسييشن» الروبوتات في كتابة تقارير الأخبار المحلية. ويدخل الذكاء الاصطناعي أيضًا إلى المنزل والمجال الشخصي، على سبيل المثال، في شكل روبوتات تتولَّى جمع البيانات وأجهزة تفاعُلية مساعدة متَّصلة بمعالجة اللغة الطبيعية. تتحدَّث دُمية «هالو باربي» إلى الأطفال باستخدام مُعالجة اللغة الطبيعية التي تُحلل المحادثات المسجلة. فكلُّ ما يقوله الأطفال يتم تسجيلُه وتخزينه وتحليله في وحدات الخدمة الخاصة ﺑ «توي توك». ثم يُرسل ردًّا إلى الجهاز: وتجيب دمية «هالو باربي» على أساس ما «تعلمته» عن مُستخدمها. ويستخدِم فيسبوك تقنيات التعلُّم العميق والشبكات العصبية لهيكلة وتحليل البيانات الآتية مما يقرُب من مليارَي مستخدم للمنصَّة يُنتجون بياناتٍ غير مُهيكلة. وهذا يساعد الشركة في تقديم إعلانات مُستهدفة. ويحلِّل إنستجرام صور ٨٠٠ مليون مُستخدِم بهدف بيع الإعلانات إلى الشركات. ويستخدم نتفليكس محركات التوصية التي تُحلِّل بيانات العملاء، لكي يُحوِّل نفسه من موزع إلى منتج محتوى: فإذا كنتَ تستطيع التنبُّؤ بما يرغب الناس في مشاهدته، فيُمكنك إنتاجه بنفسك وتحقيق ربح منه. بل إن علم البيانات استُخدِم في مجال الطهي. على سبيل المثال، بناءً على تحليل نحو ١٠٠٠٠ وصفة، يُنشئ نظام شيف واتسون الذي أنتجته شركة آي بي إم وصفاته الخاصة التي تقترح توليفات جديدة للمكونات.2 ويمكن أيضًا استخدام الذكاء الاصطناعي المدعوم بتعلُّم الآلة في التعليم، والتوظيف، والعدالة الجنائية، والأمن (على سبيل المثال، الشرطة التنبؤية)، واسترجاع الموسيقى، والأعمال المكتبية، والزراعة، والأسلحة العسكرية، وما إلى ذلك.

في الماضي، كانت الإحصاء من المجالات غير الجذابة. أما اليوم، فبعد أن أصبحت جزءًا من عِلم البيانات وفي شكلٍ يُدمَج فيه الذكاء الاصطناعي مع البيانات الضخمة، أصبحت الإحصاء شديدة الجاذبية. إنها السحر الجديد. إنها المجال الذي تُفضِّله وسائل الإعلام. كما أنها تُعتبر مجالَ أعمال ضخمًا. فالبعض يتحدَّثون عن نوعٍ جديد من التنقيب عن الذهب؛ والتوقعات هائلة. علاوةً على ذلك، فهذا النوع من الذكاء الاصطناعي ليس خيالًا علميًّا أو محضَ نبوءة، كما تُبين الأمثلة التي ضربناها أن ما يُسمَّى بالذكاء الاصطناعي المحدود أو الضعيف موجود بالفعل وواسع الانتشار. وفيما يتعلق بتأثيره المُحتمَل، فليس هناك ما يُمكننا أن نصِفه بأنه محدود أو ضعيف. لذلك، فإنه من الضروري جدًّا أن نُحلِّل ونُناقش العديد من القضايا الأخلاقية التي أثارتها تقنيات تعلُّم الآلة وغيرها من تقنيات الذكاء الاصطناعي وتطبيقاتها. وهذا هو موضوع الفصول القادمة.

في الماضي، كانت الإحصاء من المجالات غير الجذَّابة. أما اليوم، فبعد أن أصبحت جزءًا من علم البيانات وفي شكلٍ يُدمج فيه الذكاء الاصطناعي مع البيانات الضخمة، أصبحت الإحصاء شديدة الجاذبية. إنها السحر الجديد.

جميع الحقوق محفوظة لمؤسسة هنداوي © ٢٠٢٤