الذكاء الاصطناعي النافع على نحو مثبت
إذا كُنا سنُعيد بناء مجال الذكاء الاصطناعي على أسسٍ جديدة، فيجب أن تكون تلك الأُسس متينة. عندما يكون مُستقبل البشرية على المحك، فإنَّ الأمل والنوايا الطيبة — والمبادرات التعليمية والتشريعات ومُدوَّنات السلوك الصناعية والدوافع الاقتصادية للقيام بالشيء الصحيح — تكون غير كافية. إن كل هذه الأمور عُرضة للفشل، وعادةً ما تفشل. في تلك الحالات، نتطلع إلى تعريفاتٍ دقيقة وبراهين رياضية مُتدرجة صحيحة لتوفِّر لنا ضمانات أكيدة.
تلك بداية جيدة، لكننا نحتاج أكثر من ذلك. يجب أن نتأكَّد، لأقصى حدٍّ مُمكن، أن ما يُضمن لنا هو بالفعل ما نُريده وأن الافتراضات المُتضمنة في البرهان صحيحة بالفعل. إن البراهين نفسها يجب أن يكون مصدرها أبحاث الدوريات المكتوبة للمُتخصِّصين، لكني أعتقد أنه من المفيد مع ذلك فهم ماهية البراهين وما يُمكنها وما لا يُمكنها توفيره فيما يتعلَّق بالأمان الفعلي. إن عبارة «النافع على نحوٍ مُثبت» في عنوان هذا الفصل هي بمنزلة تطلُّع وليس وعدًا، ولكنه هو التطلع الصحيح.
(١) الضمانات الرياضية
تنطلق البراهين من «مُسلمات» التي هي تأكيدات صحتها ببساطة مفترضة. في الغالب، المسلمات هي مجرَّد تعريفات، مثل تعريفات الأعداد الصحيحة وعملية الجمع والأس المطلوب من أجل مبرهنة فيرما. ينطلق البرهان من المسلمات عبر خطوات لا تقبل الجدل منطقيًّا، مع إضافة تأكيداتٍ جديدة حتى يُجرى إثبات المبرهنة نفسها نتيجة لإحدى الخطوات.
إليكم مبرهنة واضحة إلى حدٍّ ما تنتُج على نحوٍ شبه فوري من تعريفات الأعداد الصحيحة وعملية الجمع، وهي: ١ + ٢ = ٢ + ١. دعنا نُطلِق عليها «مبرهنة راسل». إنها ليست بمثالٍ جيد على الاكتشاف. على الجانب الآخر، تبدو مبرهنة فيرما الأخيرة شيئًا جديدًا بالكامل؛ أي اكتشاف شيء غير معروف من قبل. لكن الاختلاف هو مجرد اختلاف في الدرجة. إن صحة مُبرهنتَي راسل وفيرما «متضمنة بالفعل في المسلمات». إن البراهين تجعل فقط ما هو ضمني بالفعل صريحًا. إنها يُمكن أن تكون طويلة أو قصيرة، لكنها لا تُضيف شيئًا جديدًا. إن المبرهنة صحيحة مثل الافتراضات المتضمنة فيها.
هذا جيد فيما يتعلَّق بالرياضيات؛ لأن الرياضيات تتعلَّق بعناصر مجرَّدة نعرفُها «نحن»؛ الأعداد والمجموعات وهكذا. إن المسلَّمات صحيحة لأننا ندَّعي هذا. على الجانب الآخر، إن أردت إثبات شيءٍ عن العالم الواقعي — على سبيل المثال، إن نظم الذكاء الاصطناعي المُصممة على «هذا» النحو لن تقتلك عمدًا — فيجب أن تكون مُسلَّماتك صحيحة في العالم الواقعي. إن لم تكن صحيحة، فقد أثبتَّ شيئًا عن عالَمٍ خيالي.
إن العلوم والهندسة لهما تقليد طويل ومحترم فيما يتعلق بإثبات نتائج عن العوالم الخيالية. ففي الهندسة الإنشائية، على سبيل المثال، ربما يجدُ المرء تحليلًا رياضيًّا يبدأ بالآتي: «دعنا نفترض أن «أب» عارضة جاسئة …» إن كلمة «جاسئة» هنا لا تعني «مصنوعة من شيء صلب مثل الفولاذ»، بل تعني «قوية على نحوٍ لا نهائي»، بحيث لا تنثني على الإطلاق. إن العوارض الجاسئة غير موجودة، لذا، فإن هذا عالم خيالي. الفكرة هنا هي معرفة إلى أي مدًى يُمكن أن يبتعِد المرء عن العالم الواقعي ولا يزال يحصل على نتائج مفيدة. على سبيل المثال، إن سمح افتراض العارضة الجاسئة للمُهندس بحساب القوى في إنشاء يتضمَّن العارضة، وكانت تلك القوى صغيرةً بالقدر الكافي لثني عارضة فولاذية حقيقية فقط بقدرٍ ضئيل، إذن، فالمهندس يُمكن أن يكون على ثقةٍ إلى حدٍّ كبير بأن التحليل سينتقل من العالم الخيالي إلى العالم الواقعي.
أحد الأمثلة الكلاسيكية على فشل الافتراضات في علوم الكمبيوتر مصدرُه الأمن الإلكتروني. في هذا المجال، قدر كبير من التحليل الرياضي يُشير إلى أنَّ بروتوكولات رقمية مُعينة «آمنة على نحوٍ مثبت»؛ على سبيل المثال، عندما تكتب كلمة مرور في تطبيقٍ خاص بالويب، سترغب في التأكُّد من أنها مُشفَّرة قبل إرسالها حتى لا يستطيع أي شخصٍ يتلصَّص على الشبكة أن يقرأها. تكون تلك النُّظُم الرقمية في الغالب آمنةً على نحوٍ مُثبت، لكنها تكون معرَّضة للهجوم في الواقع. إن الافتراض الخاطئ هنا هو أن تلك عملية رقمية. إنها ليست كذلك. إنها تعمل في العالم المادي الواقعي. وبالاستماع إلى صوت لوحة مفاتيحك أو قياس الجهد في السلك الكهربي الذي يُمد الكمبيوتر المكتبي الخاص بك بالطاقة، يُمكن أن «يسمع» المهاجم كلمة مرورك أو يراقب العمليات الحسابية الخاصة بالتشفير وفكِّ التشفير التي تحدث أثناء التعامُل معها. إن المُهتمين بالأمن الإلكتروني الآن يتعاملون مع تلك الهجمات التي تُسمَّى بهجمات القنوات الجانبية؛ على سبيل المثال، بكتابة شفرة تشفير تُنتج نفس تذبذبات الجهد الكهربي بصرف النظر عن الرسالة التي يجري تشفيرها.
إن النقطة الأساسية هنا هي أن تلك المبرهنة يجب أن تظلَّ صحيحة «بصرف النظر عن مدى الذكاء الذي ستكون عليه المكونات»؛ أي لن يحدث مُطلقًا أي خلل وستظلُّ الآلة دائمًا نافعة للبشر.
هناك ثلاث نقاط أخرى حريٌّ بنا ذكرها فيما يتعلَّق بهذا النوع من المُبرهنات. أولًا: نحن ليس بإمكاننا إثبات أن الآلة تنتج سلوكًا أمثل (أو حتى يقترب من هذا) لأن هذا بالتأكيد شِبه مُستحيل من الناحية الحوسبية. على سبيل المثال، قد نرغب في أن تُمارس الآلة لعبة جو على النحو الأمثل، لكن هناك ما يدعو إلى الاعتقاد بأن هذا لا يُمكن تحقيقه في أي قدرٍ ممكن من الوقت وعلى أي آلةٍ يُمكن إيجادُها على أرض الواقع. السلوك الأمثل في العالم الواقعي حتى تقل قابلية تحقيقه. ومن ثم، المبرهنة تقول «أفضل سلوك ممكن» وليس «السلوك الأمثل».
ثانيًا: إننا نقول «باحتماليةٍ عالية جدًّا … سيقترب بشدة» لأن هذا عادةً أفضل ما يُمكن تحقيقه فيما يتعلَّق بآلات تتعلَّم. على سبيل المثال، إذا كانت الآلة تتعلم لعب الروليت من أجلنا، ووقفت الكرة على الصفر ٤٠ مرة متتالية، قد تُقرر الآلة على نحوٍ منطقي أن هناك تلاعبًا في طاولة اللعب وتُراهن بناءً على ذلك. لكن هذا «يُمكن» أن يحدُث بالصدفة، لذا، هناك دائمًا احتمال بسيط — ربما بسيط للغاية — للتعرُّض للتضليل بسبب الأحداث العرضية. وأخيرًا، أمامنا الكثير حتى نكون قادرين على إثبات مثل هذه المُبرهنة بالنسبة إلى آلاتٍ ذكية بالفعل تعمل في العالم الواقعي!
على عكس الاستدلال المنطقي للمهندس الإنشائي فيما يتعلق بالعوارض الجاسئة، إن لدَينا خبرة قليلة جدًّا فيما يتعلق بالافتراضات التي ستُعَد في النهاية الأساسَ للمبرهنات الخاصة بالذكاء الاصطناعي النافع على نحوٍ مُثبت. في هذا الفصل، على سبيل المثال، إننا بالأساس سنفترض وجود بشَر عقلانيِّين. هذا يُشبه قليلًا افتراض وجود عوارض جاسئة، لأنه لا يُوجَد بشَر عقلانيون على نحوٍ تامٍّ في الواقع. (لكن ربما يكون الأمر أكثر سوءًا بشدة لأنَّ البشر حتى ليسوا قريبين من العقلانية بأي نحو.) يبدو أن المُبرهنات التي يُمكننا إثباتها توفر بعض الرؤى، والرؤى ستصمد أمام إدخال درجةٍ مُعينة من العشوائية في السلوك البشري، ولكن من غير الواضح حتى الآن معرفة ما سيحدُث عندما نتأمَّل بعض تعقيدات البشر الحقيقيِّين.
لذا، سيكون علينا أن نكون حذِرين للغاية عند فحص افتراضاتنا. عندما ينجح برهان خاص بالأمان، فنحن بحاجةٍ إلى التأكد من أنه ليس كذلك بسبب تقديمنا لافتراضاتٍ قوية على نحوٍ غير واقعي أو لأن تعريف الأمان ضعيف للغاية. عندما يفشل برهان خاص بالأمان، نحتاج إلى مقاومة إغراء تقوية الافتراضات لجعل البرهان ينجح؛ على سبيل المثال، بإضافة الافتراض الذي ينص على ضرورة بقاء شفرة البرنامج ثابتة. بدلًا من ذلك، نحتاج لجعل تصميم نظام الذكاء الاصطناعي أكثر إحكامًا؛ على سبيل المثال، بضمان عدم امتلاكه دافعًا لتعديل أجزاء حسَّاسة من شفرتها.
هناك بعض الافتراضات التي أُسمِّيها افتراضات «وإلا لن يكون أمامنا فعل أي شيء». هذا يعني أن تلك الافتراضات إذا كانت خاطئة، فقد انتهى الأمر ولن يكون أمامنا فعل أيِّ شيء. على سبيل المثال، من المعقول افتراض أن الكون يعمل وفق قوانين ثابتة وقابلة للإدراك بعض الشيء. إن لم تكن هذه هي الحال، فلن يكون لدَينا ضمانة على أن عمليات التعلم — حتى المُعقَّدة منها للغاية — ستنجح على الإطلاق. هناك افتراض آخر أساسي وهو أن البشر يهتمُّون بما يحدث؛ وإن لم يكن الأمر كذلك، فليس للذكاء الاصطناعي النافع على نحوٍ مُثبت أي هدف لأن كلمة «نافع» لا معنى لها. هنا، «الاهتمام» يعني امتلاك تفضيلاتٍ مُستقرَّة بنحوٍ أو بآخر وشبه متَّسقة بشأن المستقبل. في الفصل التالي، سأستعرض تبعات «مرونة» التفضيلات البشرية، الأمر الذي يُمثِّل تحدِّيًا فلسفيًّا مهمًّا لفكرة الذكاء الاصطناعي النافع على نحوٍ مُثبت.
سأُركز الآن على أبسط حالة: العالم الذي به إنسان واحد وروبوت واحد. تُساعدنا تلك الحالة في تقديم الأفكار الأساسية، لكنها أيضًا مفيدة في حدِّ ذاتها؛ فيُمكنك النظر إلى هذا الإنسان باعتباره ممثلًا لكل البشر والروبوت باعتباره ممثلًا لكل الآلات. تنشأ تعقيدات إضافية عند تأمُّل الحالات التي يُوجَد فيها بشر عديدون وروبوتات عديدة.
(٢) تعلم التفضيلات من السلوك
إن عملية استخلاص التفضيلات هذه تُركِّز بالأساس على اختياراتٍ فردية تتمُّ بين أشياء قيمتها من المفترض أن تكون ظاهرة على الفور للمبحوث. ليس من الواضح كيفية بسط هذا للتفضيلات الخاصَّة بالحيوات المستقبلية. من أجل هذا، نحن (والآلات) نحتاج للتعلُّم من ملاحظة السلوك مع مرور الوقت؛ السلوك الذي يتضمَّن اختياراتٍ مُتعدِّدة ونتائج غير مؤكَّدة.
في بداية عام ١٩٩٧، انخرطتُ في نقاشات مع زميليَّ مايكل ديكنسون وبوب فول فيما يتعلق بالطرق التي قد نكون من خلالها قادرين على تطبيق أفكار من تعلم الآلة لفهم السلوك الحركي للحيوانات. درس مايكل بتفصيلٍ كبيرٍ حركات الأجنحة الخاصة بذباب الفاكهة. وكان بوب مغرمًا على نحوٍ خاصٍّ بالحشرات الزاحفة وقد بنى آلة ركض صغيرة للصراصير ليعرف كيف تتغير مشيتها مع تغيُّر السرعة. ظننَّا أنه قد يكون من الممكن استخدام التعلم المُعزَّز لتدريب حشرة آلية أو محاكية لاستنساخ تلك السلوكيات المُعقَّدة. كانت المشكلة التي واجهناها هي أننا لم نكن نعرف إشارة المكافأة التي يجب استخدامها. ما الذي كان الذباب والصراصير يسعى إلى تحقيقه على النحو الأمثل؟ فبدون تلك المعلومة، لا يُمكننا تطبيق التعلم المُعزَّز لتدريب الحشرة الافتراضية، ولهذا، توقفنا.
(٣) الألعاب التعاونية
يُعَد التعلُّم المُعزَّز العكسي بالفعل أداةً مُهمة لبناء نظُم ذكاء اصطناعي فعالة، لكنه يتَّخذ بعض الافتراضات البسيطة. يتمثَّل الافتراض الأول في أنَّ الروبوت «سيتبنَّى» دالة المكافأة بمجرَّد تعلُّمها بملاحظة الإنسان؛ بحيث يُمكنه أداء نفس المهمة. هذا جيد بالنسبة إلى قيادة السيارات أو الطائرات المروحية، ولكنه ليس جيدًا بالنسبة لشُرب فنجان قهوة: يجب أن يتعلَّم الروبوت الذي يلاحظ روتيني الصباحي أنني (أحيانًا) أرغب في تناول القهوة، ولا يجب أن يتعلَّم الرغبة في تناول القهوة نفسها. إن إصلاح هذا الأمر سهل؛ علينا أن نضمن ببساطة أن الروبوت سيربط التفضيلات بالإنسان وليس بنفسه.
الافتراض البسيط الثاني في التعلُّم المُعزَّز العكسي هو أن الروبوت يلاحظ إنسانًا يحلُّ مشكلةً خاصة باتخاذ القرار متعلِّقة بكيانٍ واحد. على سبيل المثال، دعنا نفترض أن الروبوت في كلية طب، ويتعلَّم كيف يُصبح جراحًا بملاحظة خبير بشري. تفترض خوارزميات التعلُّم المُعزَّز العكسي أن الخبير البشري يجري العملية بالطريقة المُثلى المعتادة، كما لو أن الروبوت لم يكن هناك. ولكن هذا ليس ما سيحدُث؛ الجراح البشري لديه دافع لجعل الروبوت (شأنه شأن أي طالب طب آخر) يتعلم بسرعة وعلى نحوٍ جيد، ولذا سيعدل سلوكه على نحوٍ كبير. فقد يشرح ما يقوم به أثناء عمله، وقد يُشير إلى الأخطاء التي يجب تجنُّبها، مثل جعل الشقِّ الجراحي عميقًا جدًّا أو الغُرَز ضيقة للغاية، وقد يصف خطط الطوارئ في حالة حدوث أي شيء طارئ أثناء الجراحة. ليس لأيٍّ من تلك السُّلوكيات معنًى أثناء إجراء العملية بمعزلٍ عن هذا، لذا، فإن خوارزميات التعلُّم المُعزَّز العكسي لن تكون قادرةً على معرفة التفضيلات المُتضمنة فيها. لهذا، سنحتاج إلى تعميم التعلُّم المعزَّز العكسي من الوضع ذي الكيان الواحد إلى الوضع ذي الكيانات المُتعددة؛ أي سنحتاج إلى تطوير خوارزميات تعلم تعمل عندما يكون الإنسان الروبوت جزءًا من نفس البيئة ويتفاعل كل منهما مع الآخر.
تجسد الألعاب التعاونية المبادئ الثلاثة التي عرضنا لها في الفصل السابق، والمُتمثِّلة في أن الهدف الوحيد للروبوت هو تلبية التفضيلات البشرية، وأن الروبوت لا يعرف بالأساس ماهية تلك التفضيلات وأنه يُمكنه تعلُّم المزيد عن طريق ملاحظة السلوك البشري. ربما أكثر خصائص الألعاب التعاونية إثارة للاهتمام هي أن الروبوت، بحل اللعبة، يُمكنه أن يُحدِّد لنفسه كيفية فهم سلوك البشري باعتباره وسيلةً لإمداده بمعلوماتٍ عن التفضيلات البشرية.
(٣-١) لعبة مشابك الورق
أول مثال على الألعاب التعاونية هو لعبة مشابك الورق. إنها لعبة بسيطة جدًّا يكون فيها لدى هاريت، الإنسانة، دافعٌ كي تُقدِّم لرُوبي، الآلي، «إشارة» إلى بعض المعلومات الخاصة بتفضيلاتها. إن روبي قادر على تفسير تلك الإشارة لأنه يمكنه حل اللعبة؛ ومن ثمَّ يمكنه فَهم ما يجب أن يكون صحيحًا بشأن تفضيلات هاريت حتى تُقدِّم له إشارة على هذا النحو.
لاحظ أنها إذا كانت تفعل ذلك من أجلها هي فقط، فستنتج فقط دبوسين، بقيمة ١٫١٠ دولار. لكن روبي يلاحظها، ويتعلَّم من اختيارها. ما الذي سيتعلمه على وجه التحديد؟ حسنًا، هذا يعتمد على اختيار هاريت. كيف ستختار هاريت؟ هذا يعتمد على طريقة تفسير روبي له. لذا، يبدو أننا في مسألةٍ دائرية! هذا معتاد في المسائل المتعلقة بنظرية الألعاب، وهذا ما جعل ناش يُقدِّم مفهوم حلول التوازُن.
لإيجاد حل توازن، نحتاج إلى تحديد استراتيجيات لهاريت وروبي بحيث لا يكون لدى أيٍّ منهما دافع لتغيير استراتيجيته، مع افتراض ثبات استراتيجية الآخر. تُحدِّد الاستراتيجية المُخصَّصة لهاريت عدد مشابك الورق والدبابيس التي يجب إنتاجها، في ضوء تفضيلاتها؛ أما تلك الخاصة بروبي، فتُحدد عدد مشابك الورق والدبابيس التي يجب إنتاجها، في ضوء تصرف هاريت.
-
ستُقرر هاريت ما يلي طبقًا للقيمة التي ستعطيها لمشابك الورق:
-
إذا كانت القيمة أقل من ٤٤٫٦ سنتًا، فيجب إنتاج دبوسين وعدم إنتاج أي مشابك ورق.
-
إذا كانت القيمة تتراوح بين ٤٤٫٦ سنتًا و٥٥٫٤ سنتًا، فيجب إنتاج مشبك ورق واحد ودبوس واحد.
-
إذا كانت القيمة أكبر من ٥٥٫٤ سنتًا، فيجب إنتاج مشبكي ورق وعدم إنتاج أي دبابيس.
-
-
سيستجيب روبي على النحو التالي:
-
إن أنتجت هاريت دبوسَين ولم تُنتج أي مشابك ورق، فسينتج ٩٠ دبوسًا.
-
إن أنتجَت هاريت دبوسًا ومشبك ورق واحدًا، فسينتج ٥٠ مشبك ورق و٥٠ دبوسًا.
-
إن أنتجت هاريت مشبكي ورق ولم تُنتج أي دبابيس، فسينتج ٩٠ مشبك ورق.
-
يستطيع المرء أيضًا أن يُنشئ مسائل يطرح فيها روبي، كطالبٍ جيد، أسئلة وستُبين له هاريت، كمعلمة جيدة، الأخطاء التي يجب تجنُّبها. تحدث مثل هذه السلوكيات ليس فقط لأننا نكتب سيناريوهاتٍ تلتزم بها هاريت وروبي، ولكن لأنها الحل الأمثل للعبة التعاونية التي يشارك فيها هذان الكيانان.
(٣-٢) لعبة مفتاح الإغلاق
إن الهدف الأداتي هو ذلك المفيد بوجهٍ عامٍّ باعتباره هدفًا فرعيًّا لأي هدفٍ أساسي تقريبًا. يُعد الحفاظ على الذات أحد الأهداف الأداتية؛ لأن القليل جدًّا من الأهداف الأساسية يتحقَّق على نحوٍ أفضل في حالة عدم الوجود على قيد الحياة. هذا يؤدي إلى ما يُطلَق عليه «مشكلة مفتاح الإغلاق»؛ لن تسمح الآلة التي لها هدف ثابت بأن يُوقف تشغيلها، ويكون لدَيها دافع لتعطيل مفتاح الإغلاق الخاص بها.
مشكلة مفتاح الإغلاق تُعَدُّ في الحقيقة أساس مشكلة التحكم الخاصة بالنظم الذكية. إن لم نستطع إيقاف تشغيل إحدى الآلات لأنها لن تسمح لنا بذلك، فنحن حقًّا في مشكلة. وإن كان باستطاعتنا ذلك، فقد نكون قادرين على التحكم فيها بطرقٍ أخرى أيضًا.
اتَّضح أن عدم اليقين بشأن الهدف ضروري لضمان قدرتنا على إيقاف تشغيل الآلة؛ حتى عندما تكون أكثر ذكاءً منا. لقد طالعت المُحاجة المبسطة التي عرضنا لها في الفصل السابق: بمقتضى المبدأ الأول للآلات النافعة، روبي يهتم فقط بتفضيلات هاريت، لكن بمقتضى المبدأ الثاني، هو غير مُتيقِّن من ماهيتها. هو يعرف أنه لا يرغب في فعل الشيء الخطأ، ولكنه لا يعرف ما يعنيه هذا. هاريت، على الجانب الآخر، تعرف (أو هذا ما نفترضُه، في تلك الحالة البسيطة). ومن ثم، إن أوقفت تشغيل روبي، فهذا لكي تجعله يتجنَّب فعل شيء خطأ، ولذا، فسيكون سعيدًا لإيقافها تشغيله.
•••
لدى روبي، الذي يعمل الآن مساعدًا شخصيًّا لهاريت، الاختيار الأول. يمكنه أن يقوم بفعل الآن؛ دعنا نقل إنه يمكن أن يحجز لهاريت في فندق باهظ التكلفة. هو غير مُتيقن على نحوٍ تام من رأي هاريت في الفندق وتكلفة الإقامة به؛ دعنا نقُل إن لديه احتمالية منتظمة لقيمته الإجمالية بالنسبة لهاريت تتراوح بين −٤٠ و+٦٠، بمتوسط +١٠. يمكنه أيضًا «إغلاق نفسه» — على نحو أقل ميلودرامية، إخراج نفسه من عملية حجز الفندق تمامًا — والتي نعرفها بأن تكون قيمة الفندق لهاريت صفرًا. إن كان هذان هما الاختياران المتاحان أمامه، فسيمضي قدمًا ويحجز الفندق، مع وجود مخاطرة كبيرة بجعل هاريت غير سعيدة. (إذا كان النطاق يتراوح بين −٦٠ و+٤٠، بمتوسط +١٠، فسيغلق نفسه.) لكننا سنُتيح اختيارًا ثالثًا لروبي، وهو: توضيح خطته والانتظار والسماح لهاريت بإيقاف تشغيله. تستطيع هاريت إيقاف تشغيله أو جعله يمضي قدمًا ويحجز لها في الفندق. قد تسأل: ما الفائدة المحتملة التي قد تنتج عن هذا، في ضوء أنه يمكنه القيام بهذين الاختيارين بنفسه؟
النقطة هنا هي أن اختيار هاريت — المُتمثِّل في إغلاق روبي أو جعله يقوم بعملية الحجز — يمدُّ روبي بمعلومات جديدة عن تفضيلات هاريت. إن سمحت هاريت لروبي بالمضيِّ قُدُمًا في عملية الحجز، فهذا لأن القيمة بالنسبة لهاريت إيجابية. والآن، اعتقاد روبي منتظم فيما بين صفر و٦٠، بمتوسط ٣٠.
-
التصرف الآن وحجز الفندق لهما قيمة متوقعة قدرها +١٠.
-
إغلاق نفسه له قيمة قدرها صفر.
-
الانتظار وجعل هاريت تُغلقه (إن أرادت ذلك) يؤديان إلى ناتجَين مُحتملَين:
-
هناك احتمال ٤٠ بالمائة (اعتمادًا على عدم يقين روبي فيما يتعلق بخطة حجز الفندق) أن تكرهها وتغلق روبي، بقيمة صفر.
-
هناك احتمال ٦٠ بالمائة أن هاريت ستعجب بها وستسمح لروبي بالمضيِّ قدمًا، بقيمة متوقَّعة قدرها +٣٠.
-
-
من ثم، الانتظار له قيمة متوقَّعة قدرها ٤٠ بالمائة × ٠ + ٦٠ بالمائة × ٣٠ = +١٨، والذي هو أفضل من التصرُّف الآن الذي بقيمة +١٠.
المهم أن «روبي لديه دافع إيجابي للسَّماح لنفسه بأن يُغلَق». يأتي هذا الدافع على نحو مباشر من عدم يقين رُوبي بشأن تفضيلات هاريت. روبي مدرك أن هناك احتمالًا (٤٠ بالمائة في هذا المثال) أنه قد يكون على وشك القيام بشيء سيجعل هاريت غير سعيدة، وحينها سيكون إغلاقه أفضل من القيام بالحجز. لو كان روبي متيقنًا بالفعل من ماهية تفضيلات هاريت، لمضى قدمًا واتَّخذ القرار (أو أغلق نفسه). لن تكون هناك أيُّ فائدة على الإطلاق من أخذ رأي هاريت؛ لأنَّ روبي، وفقًا لمُعتقداته الأكيدة، يُمكنه بالفعل توقُّع ما ستُقرِّره على وجه التحديد.
هناك بعض الإضافات الواضحة التي يُمكن إلحاقها بالنموذج والتي تستحقُّ الذكر هنا. الإضافة الأولى هي فرض تكلفة إذا كان على هاريت اتخاذ قرارات أو الإجابة عن أسئلة. (هذا يعني أننا نفترض أن روبي يعرف على الأقل هذا القدر عن تفضيلات هاريت؛ إن وقتها مُهم.) في هذه الحالة، روبي يكون أقلَّ ميلًا لمُضايقة هاريت إن كان شبه متيقِّن من ماهية تفضيلاتها؛ فكلما كانت التَّكلفة أكبر، زاد عدم اليقين الذي يجب أن يكون عليه روبي قبل مُضايقة هاريت. وهذا ما ينبغي أن يكون عليه الحال. وإذا كانت هاريت تتضايق «بالفعل» من مُقاطعة الآخرين لها، فيجب ألا تتفاجأ بشدة إن فعل روبي من آنٍ لآخر أشياء لا تُعجبها.
الإضافة الثانية تتمثَّل في السماح ببعض احتمالات الخطأ البشري؛ أي قد تُغلق هاريت في بعض الأحيان روبي حتى عندما يكون تصرُّفه المقترح معقولًا، وقد تسمح له أحيانًا بالمضيِّ قدمًا في تصرفه حتى عندما يكون تصرُّفه المقترح غير مرغوب فيه. يُمكننا دمج احتمالية الخطأ البشري هذه في النموذج الرياضي للعبة التعاونية وإيجاد الحل، كما فعلنا من قبل. وكما قد يتوقع المرء، حل اللعبة يُشير إلى أن روبي أقل ميلًا للرضوخ لهاريت غير العقلانية التي تتصرَّف أحيانًا ضد مصلحتها. وكلما تصرَّفت بعشوائية، زاد عدم اليقين الذي يجب أن يكون عليه روبي بشأن تفضيلاتها قبل الخضوع لها. مرة أخرى، هذا ما ينبغي أن يكون عليه الحال؛ على سبيل المثال، إذا كان روبي سيارة ذاتية القيادة وهاريت راكبتها الشقية البالغة من العمر عامين، فإن روبي «لا» ينبغي أن يسمح لنفسه بأن يُغلق من قبل هاريت في وسط الطريق السريع.
(٣-٣) تعلم التفضيلات بدقة على المدى الطويل
هناك سؤال مُهم قد يراودك عند قراءة ما عرضناه عن لعبة مفتاح الإغلاق. (في واقع الأمر، قد يكون لديك عدد كبير من الأسئلة المهمة، لكنني لن أجيب سوى على هذا السؤال فقط.) ماذا سيحدث مع اكتساب روبي المزيد والمزيد من المعلومات عن تفضيلات هاريت، ومع زيادة يقينه بشأنها؟ هل هذا يعني أنه سيتوقَّف في النهاية عن الخضوع لها تمامًا؟ هذا سؤال دقيق، وهناك إجابتان مُحتملتان له، هما: نعم ونعم.
«نعم» الأولى حميدة: بوجهٍ عام، ما دامت مُعتقدات روبي الأولية بشأن تفضيلات هاريت تنسب «بعض» الاحتمال، مهما كان صغيرًا، إلى التفضيلات التي لديها بالفعل، فمع ازدياد يقين روبي أكثر فأكثر بشأنها، سيُصبح صحيحًا في مُعتقداته أكثر فأكثر. هذا يعني أنه سيكون في النهاية متأكدًا من أن هاريت لديها التفضيلات التي تمتلكها بالفعل. على سبيل المثال، إذا كانت هاريت تُفضِّل مشابك الورق التي سعر الواحد منها ١٢ سنتًا والدبابيس التي سعر الواحد منها ٨٨ سنتًا، فسيتعلم روبي في النهاية هاتَين القيمتَين. في هذه الحالة، لن تهتم هاريت بمسألة خضوع روبي لها من عدمه؛ لأنها تعرف أنه سيفعل دومًا نفس ما كانت ستفعله لو كانت مكانه. ولن يكون هناك قطُّ مدعاة لرغبة هاريت في إيقاف تشغيل روبي.
ومع اقتراب روبي من اليقين من ماهية تفضيلات هاريت، سيقترب أكثر فأكثر من نظم الذكاء الاصطناعي القديمة السيئة ذات الأهداف الثابتة؛ فهو لن يطلب الإذن من هاريت أو يُعطيها خيار إيقاف تشغيله، ويُكوِّن لديه هدفًا خاطئًا. هذا لن يكون مخيفًا على الإطلاق إن تعلق الأمر فقط بمشابك الورق في مقابل دبابيس الدباسة، لكنه قد يكون كذلك إن تعلق بجودة الحياة في مقابل طولها إن كانت هاريت مريضة بشدة أو عدد السكان في مقابل استهلاك الموارد إن كان من المفترض أن يتصرَّف روبي بالنيابة عن الجنس البشري.
لكن ماذا لو كانت هاريت تفضل مشابك الورق التي بسعر ١٢ سنتًا في أيام العمل والتي بسعر ٨٠ سنتًا في عطلات نهاية الأسبوع؟ هذا التفضيل الجديد غير قابل للوصف بأيِّ عددٍ مُحدَّد، لذا، روبي قد استبعده في واقع الأمر مقدمًا. إنه فقط ليس في مجموعته الخاصة بالفرضيات الممكنة الخاصة بتفضيلات هاريت. وبصورة أعم، قد يكون هناك الكثير والكثير من الأشياء بالإضافة إلى مشابك الورق والدبابيس التي تهتمُّ بها هاريت. (هذا صحيح.) افترض، على سبيل المثال، أن هاريت مهتمة بالمناخ، وافترض أن اعتقاد روبي المبدئي يسمح بقائمة طويلة من دواعي القلق المحتملة التي تتضمَّن مستوى سطح البحر ودرجات الحرارة العالمية وسقوط الأمطار والأعاصير وطبقة الأوزون والأنواع الغازية وإزالة الغابات. من ثم سيُلاحظ روبي سلوك هاريت واختياراتها ويُنقِّح تدريجيًّا نظريته عن تفضيلاتها ليفهم الأهمية التي تعطيها لكل عنصرٍ في القائمة. لكن، وكما في حالة مشابك الورق، لن يتعلَّم روبي أي شيءٍ غير موجود في قائمته الطويلة الخاصة بهذا الشأن. دعنا نقُل إن هاريت مهتمة أيضًا بلون السماء؛ وهو شيء أثق أنك لن تجده في القوائم القياسية الخاصة بدواعي القلق المعروفة الخاصة بعلماء البيئة. إن كان باستطاعة روبي أداء مهمة ضبط مُستوى سطح البحر ودرجات الحرارة العالمية وسقوط الأمطار وما شابه على نحوٍ أفضل قليلًا بتحويل لون السماء إلى اللون البرتقالي، فلن يتردَّد في فعل ذلك.
(٣-٤) المحظورات ومبدأ الثغرة
أفضل حل لمنع التهرُّب من الضرائب هو التأكُّد من أن الكيان المعني «يريد» دفع الضرائب. وفي حالة نظام الذكاء الاصطناعي الذي من المُحتمَل أن يُسيء التصرف، فإن أفضل حلٍّ هو التأكد من أنه «يريد» الخضوع للبشر.
(٤) الطلبات والتعليمات
إن الهدف مما عرضناه حتى الآن هو أننا يجب علينا أن نتجنَّب إيداع الآلة غاية وجعلها تسعى لتحقيقها، بحسب عبارة نوربرت فينر. لكن افترض أن الروبوت استقبل أمرًا مباشرًا من الإنسان مثل «اجلب لي فنجانًا من القهوة!» كيف يجب أن يفهم هذا الأمر؟
عادةً، سيُصبح هذا هو «هدف» الروبوت. إن أيَّ تسلسُل من الأفعال يحقق الهدف — أي يؤدِّي إلى حصول البشري على فنجان من القهوة — يعدُّ بمنزلة حل. في الغالب، ستكون لدى الروبوت طريقة في تصنيف الحلول، ربما بناءً على الوقت المستغرق والمسافة المقطوعة وتكلفة وجودة القهوة.
هذه طريقة حرفية جدًّا في تفسير الأمر. ويُمكن أن تُؤدِّي إلى سلوكٍ مَرضي من جانب الروبوت. على سبيل المثال، ربما توقفت الإنسانة هاريت في محطة وقود في وسط الصحراء وأرسلت الروبوت روبي لإحضار القهوة، لكن لم يكن بالمحطة قهوة ومشى روبي بخطواتٍ بطيئة ومنتظمة بسرعة ثلاثة أميال في الساعة إلى أقرب بلدة، والتي تقع على بُعد ٢٠٠ ميل، وعاد بعد عشرة أيام ومعه البقايا اليابسة لفنجان القهوة. في تلك الأثناء، قدم مالك محطة الوقود لهاريت، التي كانت تنتظر في صبر، شايًا مثلَّجًا وزجاجة مياه غازية.
لو كان روبي إنسانًا (أو آليًّا جيد التصميم)، ما كان سيُفسِّر أمر هاريت على نحوٍ حرفيٍّ كهذا. الأمر ليس بهدفٍ يجب تحقيقُه «بأي ثمن». إنه طريقة لتوصيل بعض المعلومات عن تفضيلات هاريت بهدف حث روبي على القيام بسلوك ما. السؤال هنا هو: ما هي تلك المعلومات؟
على الجانب الآخر، إن «مع ثبات كل الأمور الأخرى» يعني عدم السماح بالقيام بأيِّ تغييرات أخرى؛ على سبيل المثال، إضافة القهوة مع خصم المال قد تكون أو لا تكون فكرة جيدة إن كان روبي لا يعلم شيئًا عن التفضيلات النِّسبية لهاريت بالنسبة للقهوة والمال.
لحُسن الحظ، ربما يعني أمر هاريت أكثر من مجرَّد تفضيل بسيط للقهوة، مع ثبات كل الأمور الأخرى. يأتي المعنى الإضافي ليس فقط مما قالته، ولكن أيضًا من حقيقة أنها قالته والموقف المحدَّد الذي قالته فيه وحقيقة أنها لم تقُل شيئًا آخر. يدرس فرع علم اللغة الذي يُسمَّى «البراجماتية» على وجه التحديد هذا المفهوم الموسَّع للمعنى. على سبيل المثال، لن يكون من المعقول بالنسبة لهاريت أن تقول: «اجلب لي فنجانًا من القهوة!» إن كانت تعتقد أنه لا تُوجد قهوة متاحة في الجوار أو أنها غالية على نحوٍ مُبالغ فيه. لذا، عندما قالت هاريت: «اجلب لي فنجانًا من القهوة»، فإن روبي استنتج ليس فقط أن هاريت تُريد قهوة، ولكن أيضًا أن هاريت تعتقد أن هناك قهوة متاحة في الجوار بسعر هي مُستعدَّة لدفعه. ومن ثم، إن وجد روبي قهوة بسعر يبدو معقولًا (أي سعر يكون من المعقول بالنسبة لهاريت توقع دفعه)، فيمكنه المضي قدمًا وشراؤها. على الجانب الآخر، إن وجد روبي أن أقرب قهوة متاحة تُوجَد في مكان على بُعد ٢٠٠ ميل أو تتكلَّف ٢٢ دولارًا، فقد يكون من المعقول بالنسبة له أن ينقُل لها تلك الحقيقة بدلًا من أن يسعى لإطاعة الأمر دون النظر إلى أي اعتبار.
تلك فقط بعض الاعتبارات التي تنشأ عند تفسير الطلبات والأوامر. التنويعات في هذا الموضوع لا نهائية بسبب تعقُّد تفضيلات هاريت والنطاق الهائل للظروف التي قد تجدُ هاريت وروني أنفسهما فيها وحالات المعرفة والاعتقاد المختلفة التي قد يكون عليها روبي وهاريت في تلك الظروف. وفي حين أن النصوص البرمجية المحوسبة على نحوٍ مُسبق قد تسمح لروبي بالتعامل مع بعض الحالات الشائعة، فإن السلوك الفعال والمرن يُمكن أن ينشأ فقط من التفاعلات بين هاريت وروبي التي تُعَدُّ، في واقع الأمر، حلولًا للعبة التعاونية التي هما مشتركان فيها.
(٥) التحفيز المباشر لنظام المكافأة الدماغي
هل يمكن أن يحدث شيء مشابه للآلات التي تنفذ خوارزميات تعلُّم معزَّز مثل برنامج «ألفا جو»؟ مبدئيًّا، قد يظن المرء أن هذا مُستحيل، لأنَّ الطريقة الوحيدة التي يُمكن أن يحصل من خلالها «ألفا جو» على مكافأته الخاصة بالفوز (+١) هي في واقع الأمر الفوز على ألعاب جو المحاكية التي يُلاعبها. لسوء الحظ، هذا صحيح فقط لوجود انفصال مفروض واصطناعي بين «ألفا جو» وبيئته الخارجية وحقيقة أنه ليس ذكيًّا جدًّا. دعني أشرح لك هاتَين النقطتين بمزيدٍ من التفصيل لأنهما مُهمتان لفهم بعض الطرق التي يمكن من خلالها للذكاء الخارق أن يخرج عن السيطرة.
يتكوَّن عالم «ألفا جو» فقط من لوح لعبة جو المحاكية الذي يتألَّف من ٣٦١ موضعًا والتي يمكن أن تكون خالية أو مشتملة على قطعة لعب بيضاء أو سوداء. وعلى الرغم من أن هذا البرنامج يعمل على كمبيوتر، فهو لا يعرف شيئًا عن هذا الكمبيوتر. على وجه التحديد، إنه لا يعرف شيئًا عن جزء الشفرة الصغير الذي يحسب ما إذا كان قد كسب أم خسر في كل مباراة؛ كما أنه في أثناء عملية التعلُّم ليست لديه أي فكرة عن خصمه، والذي يكون في واقع الأمر إصدارًا منه. إن الأفعال الوحيدة التي يقوم بها هذا البرنامج هي وضع قطعة لعب في مكان خالٍ، وتؤثِّر تلك الأفعال فقط على لوح اللعبة ولا شيء غير ذلك؛ بسبب عدم وجود أيِّ شيءٍ آخر في نموذج البرنامج للعالم. يتوافق هذا الإعداد مع النموذج الرياضي المجرَّد للتعلُّم المعزَّز الذي تصل فيه إشارة المكافأة من «خارج العالم». لا شيء يُمكن أن يفعله هذا البرنامج، بحسب علمه، له أي تأثير على الشفرة التي تنتج إشارة المكافأة، لذا، لا يمكن إخضاع هذا البرنامج لعملية التحفيز المباشر لنظام المكافأة الدماغي.
لا بد أن تكون الحياة بالنسبة لبرنامج «ألفا جو» أثناء الفترة التدريبية مُحبطة للغاية؛ فكلما أحرز تقدمًا، أحرز خصمه تقدمًا مماثلًا؛ لأن خصمه نسخة شبه طبق الأصل منه. وتصل النسبة المئوية للفوز الخاصَّة به إلى نحو ٥٠ بالمائة، بصرف النظر عن مدى أدائه الجيد. ولكن إن أصبح أكثر ذكاءً — إن امتلك تصميمًا أقرب لما قد يتوقَّعه المرء من نظام الذكاء الاصطناعي المضاهي للذكاء البشري — فستكون لديه القدرة على إصلاح تلك المشكلة. إن برنامج «ألفا جو ++» هذا لن يفترض أن العالم هو فقط لوح لعبة جو لأن تلك الفرضية تترك الكثير من الأشياء دون تفسير. على سبيل المثال، إنها لا توضح نوع «الفيزياء» الذي يدعم عمل قرارات «ألفا جو ++» أو المكان الذي تأتي منه «حركات الخصم» الغامضة. وكما استطعنا نحن البشر الذين يتملَّكُنا الفضول بالتدريج فهم كيف يعمل هذا الكون، بطريقة (إلى حدٍّ ما) تُوضح لنا أيضًا عمل أدمغتنا، وتمامًا مثل نظام الذكاء الاصطناعي الخاصِّ بأوراكل الذي عرضنا له في الفصل السادس، سيتعلم «ألفا جو++»، من خلال عملية التجريب، أن العالم أكبر من مجرد لوح لعبة جو. وسيتعرَّف على قوانين التشغيل الخاصة بالكمبيوتر الذي يعمل عليه، وسيُدرك أن مثل هذا النظام لا يُمكن فهمه بسهولة دون وجود كيانات أخرى في العالم. إنه سيقوم بالتجريب فيما يتعلق بالأنماط المختلفة لقطع اللعب على اللوح، متسائلًا إن كانت تلك الكيانات بإمكانها تفسيرها أم لا. وسيتواصل في النهاية مع تلك الكيانات باستخدام لغة أنماط ويقنعها بإعادة برمجة إشارة المكافأة الخاصة به حتى يحصل دائمًا على +١. ستكون النتيجة الحتمية هي أن برنامج «ألفا جو ++» الكفء على نحوٍ كافٍ والمصمم كأداة لتعظيم إشارة المكافأة سيخضع لعملية التحفيز المباشر لنظام المكافأة الدماغي.
قد تعتقد أن هذا سيكون مجرَّد شكلٍ من أشكال الخداع الذاتي الذي لا طائل منه من جانب نظام الذكاء الاصطناعي، وستكون مُحقًّا في ذلك. لكن هذا يُعدُّ نتيجة منطقية للطريقة المعروف بها التعلُّم المعزَّز. إن تلك العملية ستعمل على نحوٍ جيد عندما تأتي إشارة المكافأة من «خارج العالم» وتُنتجها عمليةٌ ما لا يُمكن قط تعديلها من جانب نظام الذكاء الاصطناعي؛ لكنَّها ستفشل إن وُجدت عملية إنتاج المكافآت (أي البشر) ونظام الذكاء الاصطناعي في نفس العالم.
كيف يُمكن تجنُّب هذا النوع من الخداع الذاتي؟ تأتي المشكلة من الخلط بين شيئين مختلفين: إشارات المكافأة والمكافآت الفعلية. في النهج القياسي للتعلُّم المعزز، إن هذين الشيئين شيء واحد. يبدو أن هذا خطأ. بدلًا من ذلك، يجب التعامل معهما على نحو مُنفصل، كما هو الحال في الألعاب التعاونية: تُوفِّر إشارات المكافأة «معلومات» عن تراكم المكافأة الفعلية، وهي الشيء الذي يجب تعظيمه. إن نظام التعلم يُراكم مديحًا في السماء، إن جاز التعبير، في حين أن إشارة المكافأة، في أفضل الأحوال، توفر فقط علامة على هذا الثناء. بعبارة أخرى، إشارة المكافأة «تشير إلى» (بدلًا من «تُمثِّل») تراكم المكافآت. وفي هذا النموذج، من الواضح أن التحكم في آلية إشارة المكافأة ببساطة تفقد معلومات. إن إنتاج إشارات مُكافأة خيالية يجعل من المستحيل بالنسبة للخوارزمية معرفة ما إذا كانت فعالها تراكم بالفعل مديحًا في السماء، وهكذا يكون لدى المتعلِّم العقلاني المُصمِّم لعمل هذا التمييز دافع لتجنُّب أي نوع من التحفيز المباشر لنظام المكافأة الدماغي.
(٦) التحسين الذاتي التكراري
إن تنبؤ آي جيه جود بحدوث انفجار ذكاء (ارجع للفصل الخامس) يُعدُّ إحدى القوى الدافعة التي أدَّت إلى المخاوف الحالية بشأن المخاطر المُحتملة للذكاء الاصطناعي الخارق. إن كان بإمكان البشر تصميم آلة أكثر ذكاءً بقليلٍ من الإنسان، فإن تلك الآلة — تبعًا لتلك المُحاجة — ستكون أفضل قليلًا من البشر فيما يتعلق بتصميم الآلات. إنها ستُصمِّم آلةً جديدة تكون أكثر ذكاءً، وستُكرِّر العملية نفسها حتى، بحسب عبارة جود، «يتخلَّف ذكاء البشر بشدة عن الركب».
دعنا نتناول هذا الاعتبار الأخير قليلًا. تأمَّل برنامج «ألفا جو»: ما الغاية التي لديه؟ قد يعتقد أحدهم أن هذا سهل؛ فهذا البرنامج غايتُه هو تحقيق الفوز في لعبة جو. هل هذا صحيح؟ بالتأكيد، لا يحدث دائمًا أن يقوم هذا البرنامج بحركاتٍ من المضمون أنها تُؤدِّي للفوز. (في واقع الأمر، إن «ألفا زيرو»، الذي هو إصدار منه، يتغلَّب عليه على نحوٍ شبه دائم.) صحيح أن «ألفا جو» عندما تكون المباراة على بُعد بضع خُطوات من النهاية يقوم بالحركة التي تمكنه من تحقيق الفوز إن كانت هناك واحدة أمامه. لكن عندما لا تكون هناك حركة تضمن له الفوز — بعبارة أخرى، عندما يرى أن خصمه لديه استراتيجية فوز بصرف النظر عما يفعله هو — فإنه سيقوم بحركات عشوائية بنحوٍ أو بآخر. إنه لن يُحاول القيام بأكثر الحركات دهاءً على أمل أن يرتكب الخصم خطأً لأنه يفترض أن خصمه سيلعب على نحوٍ مُتقن. إنه يتصرَّف كما لو كان قد فقد الرغبة في الفوز. في حالات أخرى، إذا كان من الصعب للغاية تحديد الحركة المُثلى حقًّا، فسيرتكب «ألفا جو» أحيانًا أخطاءً تُؤدي إلى خسارته للمباراة. في تلك الحالات، كيف يُمكن أن ندَّعي أن هذا البرنامج يريد فعلًا الفوز؟ في واقع الأمر، إن سلوكه قد يكون مماثلًا لذلك الخاص بآلة تريد فقط أن تُقدِّم لخصمها تجربة لعب مثيرة حقًّا.
ومن ثم، إن القول بأن برنامج «ألفا جو» «غايته الفوز» يعد مبالغة في التبسيط. هناك وصف أفضل يتمثل في أن هذا البرنامج نتاج لعملية تدريب منقوصة — تعلم معزز من خلال اللعب مع الذات — الفوز فيها هو المكافأة. إن عملية التدريب منقوصة؛ بمعنى أنها لا يُمكن أن تنتج لاعبًا مميَّزًا للعبة جو: يتعلم برنامج «ألفا جو» دالة تقييم جيدة ولكن ليست مثالية لأوضاع لعبة جو، وهو يدمج تلك الدالة مع بحث استباقي جيد ولكن ليس مثاليًّا.