الفصل الحادي عشر

كيف توجه المكافآت الأفعال

تعلم الفرق الزمني والتعلم المعزز

قضى العالم إيفان بيتروفيتش بافلوف معظم حياته المهنية يتبع شغفًا واحدًا: الهضم. بدأ عمله الأكاديمي عام ١٨٧٠ بأطروحة حول الأعصاب الموجودة في البنكرياس. وخلال عمله أستاذًا لعلم العقاقير طيلة ١٠ سنوات في سان بطرسبرج، ابتكر طُرقًا لقياس العُصارات المعِدية في الحيوانات أثناء ممارستها لأنشطتها المعتادة؛ لإظهار الكيفية التي تتغير بها إفرازات الأعضاء المختلفة استجابةً للطعام أو الجوع. وبحلول عام ١٩٠٤ حصل على جائزة نوبل «اعترافًا بمجهوده البحثي في فسيولوجيا الهضم الذي أدى إلى تغيير الجوانب الحيوية لموضوع الهضم وتوسيعها».

ومن ثم سيكون من المدهش أن يدخل بافلوف التاريخ، باعتباره أحد أكثر الشخصيات تأثيرًا في علم النفس، على الرغم من كل النجاحات التي حقَّقها في مجال الأمعاء.

كان تحول بافلوف إلى دراسة الدماغ بطريقة ما محضَ مصادَفة. في تجربة مصممة لقياس كيف يسيل لعاب الكلاب استجابة للأطعمة المختلفة، لاحظ أن لعاب الكلاب يسيل قبل أن يصل الطعام إليها، كل ما تطلَّبه الأمر صوت المساعد الذي يجلب الأطباق. لم يكن هذا بالأمر غير العادي على الإطلاق. فكثيرٌ من أعمال بافلوف نظرت إلى كيفية تأثُّر الجهاز الهضمي بالجهاز العصبي، إلا أن هذه كانت تفاعلات أكثر وضوحًا كتأثير رائحة الطعام على إفرازات المعدة؛ تفاعلات يُعتقد أنها تحدث بصورة فطرية داخل جسم الحيوان. سيلان اللعاب لدى سماع خطوات الأقدام ليست استجابة متأصلة في الجينات. لا بد أن تُكتسب بالتعلم.

كان بافلوف عالمًا صارمًا لا يرحم. عندما تسببت عمليات إطلاق النار العلنية المتعلقة بالثورة الروسية في تأخُّر أحد الزملاء عن الاجتماع، قال بافلوف ردًّا على ذلك: «ما الفرق الذي تحدثه الثورة عندما يكون لديك تجارب تجريها في المختبر!» لكن هذه الشدة قد تفسح المجال للعمل الدقيق، وعندما قرَّر متابعة إفراز اللعاب فعل ذلك بدقَّةٍ وبشكلٍ كامل.

قدَّم بافلوف للكلب إشارة محايدة، مثل دقات بندول الإيقاع أو صوت طنانٍ كهربي (وليس صوت جرس، كما كان يُعتقد، فقد اعتمد فقط على المثيرات التي يمكن التحكم فيها بدقة). وقد جعل هذه الإشارة المحايدة متبوعة بالطعام. بعد عمليات قَرْنِ الطعام بالإشارة، رصد مدى سيلان لعاب الكلاب استجابة للإشارة فقط. وفيما يلي الشرح التفصيلي المتَّسق الذي قدمه: «حين تسقط دقات بندول الإيقاع على الأذن يبدأ سيلان اللعاب بعد تسع ثوانٍ، وخلال ٤٥ ثانية، تُفرَز ١١ قطرة».

وبتنويع التفاصيل التي يتضمنها هذا الإجراء، سجَّل بافلوف العديد من ميزات عملية التعلُّم. وقد طرح أسئلة مثل: «ما عدد المرات التي اقترنت فيها الإشارة بالطعام كي يحدث التعلم الموثوق؟» (نحو ٢٠)، «هل التوقيت ما بين الإشارة والطعام يُحدِث فرقًا؟» (نعم، لا بد أن تبدأ الإشارة قبل وصول الطعام، بشرط ألَّا تبدأ قبلها بكثير.) «هل يتعيَّن على الإشارة أن تكون محايدة؟» (لا، يمكن للحيوانات أن تتعلم إسالة لعابها استجابةً للإشارات السلبية بعض الشيء، مثل استخدام مُهيِّج للجلد)، وغيرها.

هذه العملية، أي قَرْنُ المكافأة المرتقبة بشيء غير مرتبط بها مباشرة إلى أن يترابط الاثنان، تُسمَّى الإشراط الكلاسيكي أو الإشراط «البافلوفي» (ولا عجب في ذلك)، وأصبح عنصرًا أساسيًّا في أبحاث علم النفس المبكرة. وصف مراجعو كتاب بافلوف الذي نشره عام ١٩٢٧، الذي يلخص فيه منهجيته والنتائج التي حصل عليها، بأن للكتاب «أهمية حيوية لكل من يدرس العقل والدماغ» كما أنه «رائع من حيث دقة أساليبه والرؤية العلمية الثاقبة الموضحة في نتائجه ذات الطبيعة الواسعة والشاملة».

غذت أعمال بافلوف في النهاية واحدة من أكبر الحركات في عِلم القرن العشرين، ألا وهي السلوكية. وفقًا لحركة السلوكية، يجب ألا يُعرَّف علم النفس بأنه دراسة العقل، بل دراسة السلوك. ومن ثم، يفضِّل علماء السلوك وصف النشاط الخارجي الملحوظ عن أي تنظير بشأن النشاط العقلي الداخلي؛ مثل الأفكار أو المعتقدات أو المشاعر. بالنسبة إليهم، يمكن فهم سلوك البشر والحيوانات على أنه مجموعة واضحة من ردود الأفعال، أي عمليات ربط مخرجات العالم الخارجي بالمخرجات التي تُنتِجها الحيوانات. قدمت التجارب الشرطية، كالتجارب التي أجراها بافلوف، طريقةً واضحة ودقيقة لقياس هذه المدخلات والمخرجات، هذه الطريقة استفادت منها دراسات السلوك التي كانت تجتاح المشهد آنذاك.

وعليه، فإنه بعد نشر هذا الكتاب، تحمَّس العلماء لتقليد أبحاث بافلوف وتطويرها. على سبيل المثال، سمع عالم النفس الأمريكي بي إف سكينر عن بافلوف، من خلال مراجعة كتاب كتبها كاتب الخيال العلمي الشهير إتش جي ويلز. أثارت قراءة هذا المقال اهتمام سكينر بعلم النفس ووضعته على الطريق، ليصبح عَلَمًا رائدًا من أعلام الحركة السلوكية، وليجري عددًا غير محدود من الفحوصات الدقيقة لسلوك الفئران والحمام والبشر.١

عندما يجمع أي مجال من مجالات العلوم بيانات كَمية كافية، فإنه يتجه إلى النَّمْذَجة الرياضية لفهم هذه البيانات. تعمل النماذج على إيجاد الأنماط المستَتِرة في أكوام من الأرقام، فهي تعمل على تجميع الاستنتاجات المتباينة معًا، وتوضح كيف نشأت هذه الاستنتاجات عن عملية موحدة. في العقود التي تلت بافلوف، كميةُ البيانات التي تمخَّضت عنها التجارب السلوكية على التعلُّم جعلتها جاهزة للنمذجة. في هذا الصدد، أوضح عالم النفس الأمريكي البارز وليام إستس، الذي بحث العمليات الحسابية الخاصة بالتعلم عام ١٩٥٠، أن البيانات الشرطية «منظمة وقابلة للتكرار بما يكفي لجعلها أساسًا تُبنى عليه تنبؤاتٌ كميةٌ دقيقةٌ حول السلوك».

وقد أيدت ورقة بحثية أخرى نُشرت في عام ١٩٥١ فكرة أنه «من بين فروع علم النفس، لا توجد سوى فروع قليلة تُضاهي مجال التعلم فيما يتعلق بتنوع البيانات المتاحة اللازمة لبناء نماذج.» ألَّف هذه الورقة البحثية التي تحمل عنوان «نموذج رياضي للتعلم البسيط» كلٌّ من روبرت بوش وفريدريك موستيلر في مختبر العلاقات الاجتماعية بجامعة هارفارد. كان بوش فيزيائيًّا تحوَّل إلى عالمِ نَفس، وموستيلر عالم إحصاء. لقد وضعا معًا، متأثرَين بعمل إستس، صيغةً لتعلم الترابطات بين الإشارات والمكافآت، هذه الصيغة ستكون نقطة الانطلاق لسلسلة من النماذج الدقيقة على نحوٍ متزايد. على مر العقود، أصبح التعلُّم الذي تمثله هذه النماذج معروفًا باسم «التعلُّم المعزز». يُعد التعلم المعزز تفسيرًا لكيفية نشأة السلوك المعقَّد، عندما تكون المكافآت البسيطة والعقوبات البسيطة إشارات التعلم الوحيدة. وهو، في العديد من الجوانب، فنُّ تعلُّم ما يجب فعله دون أن يُطلب ذلك.

في نموذج بوش وموستيلر، كان التركيز مُنصبًّا على مقياس محدد للعلاقة المكتسبة بين الإشارة والمكافأة: احتمال حدوث استجابة. في حالة كلاب بافلوف، هذا الاحتمال هو احتمال سيلان لعاب الكلاب استجابة للجهاز الطنَّان. استخدم بوش وموستيلر معادلة بسيطة لشرح كيفية تغيُّر الاحتمال في كل مرة تُعطى فيها المكافأة أو لا تُعطى بعد الإشارة.

لنقُل إنك بدأت بأي كلب عشوائي غير مُدرَّب (في الحقيقة أثيرت شائعة تفيد بأن بافلوف حصل على الكلاب التي أجرى عليها تجاربه من خلال سرقتها من الشارع). احتمال أن يسيل لعاب الكلب عند سماع صوت الجهاز الطنان يبدأ من الصِّفر؛ إذ لا يكون هناك في البداية سبب للشك في أن صوت الطَّنين مرتبط بالحصول على الطعام. وبعد ذلك تضغط على الجهاز الطنان ثم تعطي الكلب قطعة من اللحم. وَفقًا لنموذج بوش وموستيلر، بعد تلاقي صوت الطنين بالطعام، احتمال أن يسيل لعاب الكلب استجابة لصوت الطنين يزداد. يعتمد المقدار الدقيق الذي يزيد به الاحتمال على بارامتر يُسمَّى مُعدَّل التعلُّم. تتحكم معدلات التعلُّم في سرعة العملية ككُل. إذا كان معدل التعلم مرتفعًا، فقد تكفي عملية قرنٍ واحدة لتعضيد العلاقة بين صوت الجهاز الطنان والطعام في عقل الكلب. لكن بالمعدلات المتوسطة، تظل احتمالات إسالة اللعاب منخفضة بعد عملية القَرن الأولى، ربما تصل إلى نسبة ١٠ بالمائة وترتفع في كل مرة يتبع الجهاز الطنان الطعام.

لكن أيًّا كانت قيمة معدل التعلُّم، في المرة الثانية التي يكون فيها صوت الطنين متبوعًا بالطعام، يزداد احتمال أن يسيل اللعاب، لكن ليس بمقدار الزيادة في المرة الأولى. لذا، إذا تراوح من صفر إلى ١٠ في المائة بعد أول عملية قَرن، فسيزداد بمقدار ٩ في المائة فقط، أي ستصل النسبة إلى ١٩ في المائة بعد عملية القَرن الثانية. ويزداد بنحو ٨ في المائة بعد عملية القرن الثالثة. وهذا يعكس، في نموذج بوش وموستيلر (وتجربة الكلاب)، أن التغيُّر الذي يطرأ على الاحتمال مع كل عملية قرن يعتمد على قيمة الاحتمال نفسه.

بعبارة أخرى، يعتمد التعلُّم على مقدار ما تعرفه بالفعل. يُعد هذا الأمر بديهيًّا عند النظر إليه من زاوية محددة. لا شيء يمكن تعلُّمه من رؤية الشمس تُشرق كل يوم. كلما زاد إيماننا بأن شيئًا ما سيحدث، قلَّ تأثرنا بحدوث الشيء فعليًّا. والأمر نفسه ينطبق على المكافآت المتوقعة. على سبيل المثال، نحن لا نُغيِّر رأينا في مديرنا إذا حصلنا على نفس مكافأة العطلة التي تلقيناها خلال السنوات الخمس الماضية. لا تُعدِّل الكلاب استجابتها لصوت الطنين، إلا إذا كان الطعام المقدم بعد صوت الطنين مُختلفًا عن الطعام الذي تتوقعه الكلاب. تنشأ القدرة على تغيير التوقعات فقط عند مخالفتها.

قد تكون هذه المخالفة للأفضل أو للأسوأ. بالنسبة للكلب، أول قطعة لحم بعد صوت الطنين تُمثِّل مفاجأةً رائعةً لها تأثير كبير على توقعاته. لكن بعد تكرار عمليات القَرن، تتغير التوقعات ويصبح سيلان اللعاب لدى سماع صوت الطنين أمرًا طبيعيًّا وتلقائيًّا. عند هذه النقطة، يكون الشيء الأكثر تأثيرًا هو أن يستمع الكلب إلى الجهاز الطنان دون أن يتلقَّى الطعام. سيؤدي هذا الحرمان إلى انخفاض كبير في احتمال سيلان اللعاب في المستقبل، وهو انخفاض يُعادل مقدار الزيادة الذي حدث عند أول عملية اقتران. يُطلَق على هذا الجانب العكسي للتعلُّم، القائم على المكافأة، الذي يتعلم فيه الحيوان بفصل الإشارة عن المكافأة؛ اسم «الانطفاء». مع كل مرة تُعرض فيها الإشارة من دون المكافأة المحددة، تُكسر عملية الانطفاء الرابط؛ بحيث تؤدي إلى تلاشي رد الفعل المكتسب بالكامل في النهاية. أكد بوش وموستيلر على أن نموذجهما يُمثِّل هذه العملية بدقة أيضًا.

fig24
شكل ١١-١

في الوقت نفسه الذي كان بوش وموستيلر يُحوِّلان المعلومات حول سيلان اللعاب إلى معادلات، كان هناك رجل آخر على الجانب الآخر من البلاد، يبحث إمكانية تطبيق الرياضيات على بعض أصعب المشكلات في قطاعَي الأعمال والصناعة. لن يُدرك أحد الروابط العميقة والمهمة بين هذه الأبحاث لعقود قادمة.

•••

مؤسسة راند هي مؤسسة فكرية أمريكية تأسست عام ١٩٤٨. ونظرًا لكونها فرعًا غير هادف للربح من شركة دوجلاس للسيارات، كان هدفها الرئيسي مدَّ أواصر التعاون بين العلوم والجيش، الذي تمخضت عنه الضرورة الحتمية خلال الحرب العالمية الثانية. يشير اسم المؤسسة، أي راند، اختصارًا في اللغة الإنجليزية إلى مؤسسة البحث والتطوير، وهو ما يعكس تنوع المشروعات البحثية التي تتعهد بها المؤسسة. على مر السنوات، قدَّم الموظفون إسهاماتٍ ملحوظة لمجالات ارتياد الفضاء والاقتصاد والحَوسبة، وحتى العلاقات الأجنبية.

عمل ريتشارد بيلمان اختصاصيًّا في مجال علم الرياضيات البحثي لدى مؤسسة راند منذ عام ١٩٥٢ حتى عام ١٩٦٥. وقفت الحرب العالمية الثانية حائلًا بين بيلمان، الذي كان مفتونًا بمادة الرياضيات منذ سنوات مراهقته، وبين حلمه ليصبح عالم رياضيات. في البداية، لدعم المجهود الحربي، ترك تدريبه بعد التخرج في جامعة جونز هوبكنز، من أجل تدريس الإلكترونيات العسكرية في جامعة ويسكونسن. ثم انتقل فيما بعد إلى جامعة برينستون حيث درَّس في برنامج التدريب التخصُّصي للجيش، كما عمل على دراساته الخاصة. وقد تمكن في النهاية من إتمام رسالة الدكتوراه في جامعة برينستون، إلا أن ذلك لم يحدث إلا بعد أن جُنِّد للعمل في لوس ألاموس، باعتباره عالمَ فيزياء نظرية لمشروع مانهاتن. ومع ذلك اتضح أن هذه التداخلات لم يكن لها تأثيرٌ كبير على فُرَص نجاحه في حياته المهنية. فقد أصبح أستاذًا دائمًا في جامعة ستانفورد بعد ثلاث سنوات فقط من انتهاء الحرب، وعمره ٢٨ عامًا.

كان الانتقال من العالم الأكاديمي للالتحاق بمؤسسة راند في سن ٣٢ عامًا، حسبما وصفه بيلمان، يعني تحوُّلَه من «مفكر تقليدي إلى مفكر حديث يطبِّق نتائج البحث لمواجهة تحديات المجتمع الحالي.» في مؤسسة راند، طبَّق مهاراته الحسابية على مسائل من العالم الواقعي. شملت هذه المسائل تنظيم مواعيد المرضى لتلقي الرعاية الطبية، وتنظيم خطوط الإنتاج، ووضع استراتيجيات استثمار طويلة الأجل، أو تحديد خطة الشراء للمتاجر الكبرى. إلا أن بيلمان لم يضطر إلى الذهاب إلى مستشفًى أو مصنع كي يساعد على حل هذه المشكلات. كل هذه المشكلات، وأكثر من ذلك، مجمَّعةٌ تحت مظلة رياضية واحدة مجردة. وبالنسبة إلى عالم الرياضيات، إمكانية حل أيٍّ من هذه المسائل تعني إمكانية حلِّها جميعًا.

يتمثل القاسم المشترك بين كل هذه المسائل في أنها جميعًا «عمليات اتخاذ قرارات متسلسلة». في عملية اتخاذ القرارات المتسلسلة، ثمة شيء يجب تحسينه بأقصى درجة: المرضى الذين يخضعون للفحص، أو السلع المنتَجة، أو المال المكتسب، أو الطلبات المشحونة. وثمة خطوات مختلفة يمكن اتخاذها لفعل ذلك. والهدف هو تحديد مجموعة الخطوات التي ينبغي اتخاذها. كيف يمكن تحقيق أقصى درجة من التحسين؟ ما أفضل طريقة لتسلُّق الجبل؟

نظرًا لعدم وجود الكثير من الأبحاث التي يمكنه الاستعانة بها في هذا المجال، اتجه بيلمان لاستراتيجية مجرَّبة وصحيحة في الرياضيات: تحويل المعارف الحدسية إلى صيغ محددة ودقيقة.٢ الاستنتاج الرياضي الذي قادته إليه هذه الاستراتيجية يُعرف باسم معادلة بيلمان، والفكرة المباشرة التي تجسدها تتمثَّل في أن أفضل خطة عمل هي تلك التي تكون كل خطواتها أفضل ما يمكن اتخاذُه. على الرغم من أن الفكرة قد تبدو واضحة، عند التعبير عنها بلغة الرياضيات، فإنه حتى العبارات البسيطة قد يكون لها وزنها وتأثيرها.

لمعرفة كيفية استفادة بيلمان من هذه الفكرة البديهية، يتعين علينا فهم كيفية صياغته للمسألة. في البداية، شرع بيلمان في تحديد مدى جودة الخطة، من حيث مقدار المكافأة، سواء أكانت أموالًا أو أدوات أو شحنات، وما إلى ذلك. لنقُل إن لدينا خطة مكونة من خمس خطوات. المكافأة الإجمالية عبارة عن مجموع المكافآت التي تحصل عليها، عند كلٍّ من هذه الخطوات الخمس. لكن، بعد أن تأخذ الخطوة الأولى، يصبح لديك خطة مكونة من أربع خطوات. وعليه، يمكننا القول، بدلًا من ذلك، إن المكافأة الإجمالية الناتجة عن الخطة الأصلية المكوَّنة من خمس خطوات؛ تساوي المكافأة التي تحصل عليها عند اتخاذ الخطوة الأولى زائد المكافأة الإجمالية للخطة المكونة من أربع خطوات. والمكافأة الإجمالية الناتجة عن الخطة المكونة من أربع خطوات تساوي المكافأة الناتجة عن اتخاذ الخطوة الأولى، زائد المكافأة الناتجة عن الخطة المكونة من ثلاث خطوات. وما إلى ذلك.

بتعريف المكافأة الخاصة بإحدى الخطط بدلالة مكافأة خطة أخرى، جعل بيلمان تعريفه عبارة عن استدعاء ذاتي. عملية الاستدعاء الذاتي هي العملية التي تنطوي على نفسها. لنُفكرْ في عملية الترتيب الأبجدي، على سبيل المثال. إذا أردت ترتيب قائمة أسماء أبجديًّا، فستبدأ بترتيب جميع الأسماء وَفقًا للحرف الذي يبدأ به الاسم. وبعد ذلك، سيتعين عليك إجراء عملية الترتيب نفسها مرة أخرى على الأسماء التي تبدأ بالحرف نفسه لترتيب هذه الأسماء وفقًا للحرف الثاني، وما إلى ذلك. وهو ما يجعل عملية الترتيب الأبجدي عملية استدعاء ذاتي.

الاستدعاء الذاتي أو التكرارية عبارة عن حيلة شائعة في الرياضيات وعلم الكمبيوتر، ويرجع ذلك جزئيًّا إلى أن تعريفات الاستدعاء الذاتي مرنة؛ إذ يمكن جعلها طويلة أو قصيرة حسب الحاجة. فمثلًا، يمكن تطبيق صيغة حساب المكافأة الإجمالية لخطةٍ مكونة من خمس خطوات، تمامًا كما يُمكن تطبيقها على خطةٍ مكونةٍ من ٥٠٠ خطوة. الاستدعاء الذاتي أيضًا من الناحية النظرية عبارة عن طريقة بسيطة لإنجاز أمرٍ من المحتمل أن يكون صعبًا. كما هي الحال في لفَّات السُّلم الحلزوني، كل خطوة في تعريف الاستدعاء الذاتي تكون مألوفة، لكنها لا تكون مطابقة للخطوات الأخرى، وكل ما علينا هو أن نتبع هذه الخطوات أو الدرجات الواحدة تلو الأخرى حتى النهاية.

يحتوي إطار بيلمان على فكرتَين إضافيتَين، ساعدتا على جَعْل استراتيجيته فعالةً وصالحة لتطبيقها على المسائل الواقعية. تتمثل الفكرة الأولى في تضمين الحقيقة التي يمكن الاعتماد عليها، والتي تفيد بأن المكافأة التي تحصل عليها في الحال قيمتُها أكبر من المكافأة التي تحصل عليها فيما بعد. فعل ذلك بإدخال «عامل الخصم أو التخفيض» إلى تعريف الاستدعاء الذاتي الذي قدمه. إذن، بينما كانت المكافأة الناتجة عن الخطة المكوَّنة من خمس خطوات في الصيغة الأولية؛ مساويةً للمكافأة الناتجة عن الخطوة الأولى زائد المكافأة الكاملة الناتجة عن الخطة المكونة من أربع خطوات، فإن المعادلة التي تتضمَّن خَصمًا تنص على أن المكافأة تساوي المكافأة الناتجة عن الخطوة الأولى زائد ربما ٨٠ بالمائة من المكافأة الناتجة عن الخطة المكونة من أربع خطوات. التخفيض هو طريقة للمقارنة بين وزن الإشباع الفوري مقابل التأجيل، الأمر أشبَه بتطبيق لمثَل «عصفور في اليد خير من ألف على الشجرة» في الرياضيات.

أما الفكرة الثانية، فكانت أكثر تجريدية وثورية. كانت انتقالًا من التركيز على المكافآت إلى التركيز على القيم.

لفهم هذا التحوُّل، دعونا نتناول مالكةَ مشروع صغير، صغير للغاية. أنجيلا هي موسيقية متجولة في محطات مترو أنفاق نيويورك. تعرف أنجيلا أن بمقدورها العزف على الكمان الكهربائي الخاص بها لمدة ٢٠ دقيقة في محطات مترو معينة، قبل أن تطاردها السلطات، وعندئذٍ لا يمكنها العودة. لكنها تحصل على عطايا مختلفة من المحطات المختلفة. يمكن أن تكون المناطق السياحية مربحة جدًّا، في حين أن محطات الركاب الخاصة بمواطني نيويورك تدرُّ عليها عطايا أقل بكثير. تغادر منزلها في شارع جرين بوينت في بروكلين، وتريد أن ينتهي بها الطريق بالقرب من المكان الذي تقطُن فيه صديقة لها في شارع بليكر. ما المسار الذي يتعين عليها أن تسلكه كي تحصل على أكبر قدر من المال إلى أن تصل إلى وجهتها؟

حتى الآن، لاحظنا أنه بعد البدء من موضع وأخذ خطوة في الخطة، وجدنا أنفسنا في ظروفٍ تشبه إلى حدٍّ كبيرٍ ظروف نقطة البدء، باستثناء أننا بدأنا من موضعٍ مختلفٍ وكانت لدينا خطةٌ مختلفة. في عملية اتخاذ القرارات المتسلسلة، تُسمى المواضع المختلفة التي يمكننا التحرك خلالها الحالات، وغالبًا ما يُشار إلى الخطوات التي تتضمنها الخطة بالأفعال. بالنسبة إلى أنجيلا، الحالات هي محطات المترو المختلفة التي يمكنها الوقوف بها. في كل مرة تقوم فيها أنجيلا بفعلٍ (على سبيل المثال، الانتقال من المحطة أ إلى المحطة ب)، تجد نفسها في حالة جديدة (المحطة ب)، هذه الحالة تمنحها مكافأة (المبلغ الذي حصلت عليه من جراء عزفها)، وتُمدها أيضًا بمجموعة جديدة من الأفعال المحتملة (المحطات الأخرى التي ستذهب إليها). بهذه الطريقة، تحدد الحالات الأفعال المتاحة (على سبيل المثال، لا يمكنك الانتقال مباشرة من شارع جرين بوينت إلى تايمز سكوير) كما تحدد الأفعال الحالات التالية.

هذا التفاعل، الذي تؤثر فيه الأفعال التي يجري القيام بها باعتبارها جزءًا من خطة على الأفعال المتاحة في المستقبل، يُعدُّ من العوامل التي تزيد من صعوبة عمليات اتخاذ القرارات المتسلسلة. ما فعله بيلمان هو أخذُه هذه المجموعة من الحالات والأفعال والمكافآت وقلبها رأسًا على عقِب. وبدلًا من التحدث عن المكافأة المتوقعة من سلسلة من الأفعال، ركز على القيمة التي تتمتع بها أي حالة مُعطاة.

في لغة الحياة اليومية، تُعد القيمة من المفاهيم المجردة الغامضة. فهي تثير أفكارًا حول المال والقيمة، لكنها أيضًا تثير أفكارًا أعمق عن المعنى والمنفعة التي يصعب تحديدها. ومع ذلك، فقد عرَّفت معادلةُ بيلمان القيمةَ على وجه الدقة. باستخدام نفس البنية التكرارية المشار إليها آنفًا، عرَّف بيلمان قيمة الحالة على أنها المكافأة التي تحصل عليها في تلك الحالة، زائد القيمة المخصومة للحالة التالية. ستلاحظ في هذا التعريف عدم وجود أي مفهوم واضحٍ لخطة، إذ تُعرَّف القيمة من خلال القيمة الأخرى فقط.

ومع ذلك، فإن هذه المعادلة تعتمد على المعرفة بالحالة التالية. دون خطة لتوضيح الفعل الذي جرى القيام به، كيف لنا أن نعرف ما ستكون عليه الحالة التالية؟ ومن هنا تجلَّى الحدس الأصلي، أي الفكرة التي تفيد بأن أفضل خطة مكونة من أفضل الأفعال. لحساب القيمة في الحالة التالية، ما عليك إلا افتراض أنه جرى القيام بأفضل فعل ممكن. وأفضل فعل ممكن هو الفعل الذي يُفضي إلى الحالة التي لها أعلى قيمة. عند الخوض في مناقشات متعلقة بالقيمة تتلاشى الخطة نفسها.

إذن، كيف يساعد ذلك أنجيلا؟ بالنظر إلى خريطة محطات المترو والتبرعات المالية التي تتوقع الحصول عليها من كل محطة، يمكننا حساب «دالَّة القيمة». دالة القيمة ببساطة هي القيمة المرتبطة بكل حالة (في هذا السيناريو، مرتبطة بكل محطة). يمكننا حساب ذلك من خلال البدء من نقطة النهاية والعودة إلى الخلف. بمجرد أن تصل أنجيلا شارع بليكر ستذهب مباشرة إلى بيت صديقتها، ولن تعزف أيَّ موسيقى في الطرق، وعليه فإن المكافأة التي ستحصل عليها عند الوصول لوجهتها الأخيرة تساوي صفرًا من الدولارات. نظرًا لعدم وجود محطات أخرى من هذه النقطة، فإن قيمة شارع بليكر تساوي صفرًا. بالرجوع إلى الخلف والنظر إلى الموقف من منظور آخر، يمكن حساب قيمة كلٍّ من يونيون سكوير وشارع ٣٤، من حيث المكافأة المتوقعة هناك وقيمة شارع بليكر. تستمر هذه العملية إلى أن تُحسب قيمة كل محطة.

مع توفر هذه القيم لدى أنجيلا، أصبح بمقدورها التخطيط لرحلتها. بالانطلاق من شارع جرين بوينت، يمكنها أن تستقل القطار المتجه إلى كورت سكوير أو شارع ميتروبوليتان. أيهما تختار؟ بالتفكير في المكافآت المحتملة من الحالتين، يتضح أن شارع متروبوليتان الخيار الأفضل؛ وذلك لأنه يوفر ١٠ دولارات في حين أن كورت سكوير لا يوفر سوى خمسة دولارات. لكن بالنظر إلى دالة القيمة، يكون كورت سكوير الخيار الصحيح. ذلك لأن دالة القيمة تهتمُّ بالحالات التي يمكنك الوصول لها في المستقبل، كما أنه من كورت سكوير يمكن لأنجيلا الحصول على المكافأة الكبرى بالمرور على تايمز سكوير. يمكن لأنجيلا أيضًا الانتقال إلى ساحة كوين بلازا من كورت سكوير، لكن هذا ليس له صلة هنا؛ لأن دالة القيمة تفترض أن أنجيلا ذكية. فهي تفترض أنها ستنتقل من كورت سكوير إلى تايمز سكوير؛ لأن تايمز سكوير هو الخيار الأفضل. بصفة عامة، اتباع دالة القيمة سيقود أنجيلا نحو تايمز سكوير يليه شارع ٣٤، وهو ما سيقودها في النهاية إلى وجهتها في شارع بليكر. بشكل إجمالي، ستكسب ٦٥ دولارًا، وهو أقصى ما يمكن أن يقدمه أي مسار على هذه الخريطة.

fig25
شكل ١١-٢

كان انتقال بيلمان إلى التركيز على دالة القيمة مُهمًّا؛ لأنه أصلح عيبًا في الإطار الأصلي للمسألة. نحن نبدأ بمحاولة حساب المكافأة الإجمالية التي يمكننا الحصول عليها من خطةٍ مُعطاة. لكن عند حل عملية اتخاذ قرارات متسلسلة، لا يكون لدينا خطة. في الواقع، الخطة هي ما نحاول البحث عنه. لكن بمجرد أن نعرف دالة القيمة تكون الخطة بسيطة، وهي اتباع دالة القيمة. وكما يُترك فُتات الخبز في طريق الغابة كي يدُل على الطريق، تخبرك دالة القيمة عن المسار الذي يتعين عليك أخذه. كل ما على الشخص الذي يبحث عن أكبر مكافأة أن يطمع في أن يختار الحالة التالية التي لها أكبر قيمة. يمكن اختيار جميع الأفعال بناءً على هذه القاعدة البسيطة.

تحدث بعض الأشياء الممتعة نتيجة للخصم الذي يكون جزءًا من تعريف القيمة. على سبيل المثال، انظر إلى الخيارات المتاحة لدى أنجيلا من تايمز سكوير. يمكنها إما التوجه إلى شارع ٣٤ والحصول على ١٢ دولارًا، ثم ينتهي بها المطاف في شارع بليكر، أو يمكنها الذهاب إلى شارع ١٤ والحصول على ٨ دولارات، ثم الذهاب إلى كورت سكوير والحصول على ١٢ دولارًا، ثم ينتهي بها المطاف في شارع بليكر. وكلا المسارين سيجعلانها تكسب ٢٠ دولارًا في المجمل. لكن قيمة شارع ٣٤ تساوي ٢٠، في حين أن قيمة شارع ١٤ تساوي ١٧٫٦ (تُحسب على صورة ٨ + ٠٫٨ ×‏ ١٢)، وهو ما يوضح أن شارع ٣٤ خيار أفضل. هذا يوضح كيف يمكن أن يُفضي خصم قيمة المكافآت المستقبلية (تقليل أهميتها) إلى خطط لها خطوات أقل، فإذا كان مقدار المكافأة محدودًا، فسيكون من الأفضل أن نحصل عليها بشكل أسرع بدلًا من استغراق وقت أطول للحصول عليها. الخصم يعني أيضًا تجاهل حتى المكافآت ذات القيمة العالية إذا كانت بعيدة جدًّا. إذا كانت أنجيلا ستجني ٧٥ دولارًا من محطة قطار في نيوجيرسي، فقد لا يؤثر ذلك على اختيارها عند تركها لمنزلها. فتأثير المكافأة على دالة القيمة أشبه بتموُّج نتج عن سقوط حجر في الماء. يكون تأثير المكافأة أقوى في الحالات المجاورة، لكن تضعف قوته كلما ابتعدنا.٣

قد يبدو هذا التعريف الفني للقيمة، القائم على عوامل الخصم والتكرارية والحالات، بعيدًا كل البُعد عن كلمة القيمة التي نستخدمها في لغتنا اليومية. إلا أن هذه الدلالات العامية للكلمة تكون حاضرةً بقُوةٍ في هذه المعادلة. لماذا نُقدِّر النقود؟ نحن لا نُقدِّرها لأن اقتناء عملاتٍ ورقيةٍ أو معدنيةٍ ينطوي على مُتعةٍ في حد ذاته، بل نقدِّرها بسبب المزايا التي يمكننا الحصول عليها في المستقبل باقتناء هذه العملات. ومن ثَم، فإن قيمة النقود تقتصر على ما يمكننا الحصول عليه فيما بعدُ مقابل هذه النقود، وما يمكننا الحصول عليه فيما بعد يدخل في تعريف بيلمان للقيمة.

الجهد البحثي الذي بذله بيلمان لتأطير عمليات اتخاذ القرارات المتسلسلة بهذه الطريقة؛ سمح له أن يصبح «المفكر العصري» الذي أراد أن يكونه عند الانتقال إلى مؤسسة راند. في السنوات التي أعقبت أبحاثه الأولى التي تصف هذا الحل، بدأ عددٌ لا نهائيٌّ من الشركات والكيانات الحكومية بتطبيقه في العالم. وبحلول سبعينيات القرن العشرين، طُبقت أفكار بيلمان على مسائل متنوعة مثل تصميم نظام الصرف الصِّحي، وتنظيم مواعيد الخطوط الجوية، وحتى إدارة الأقسام البحثية في الشركات الكبرى مثل مونسانتو. استُخدِمت هذه التقنية تحت مسمَّى «البرمجة الديناميكية»، وهي عبارةٌ لطيفة صاغها بيلمان، بهدف منع كبار المسئولين العسكريين المُعادين للرياضيات من التدخُّل أو التسبُّب في المتاعب. في هذا الصدد، أوضح بيلمان في سيرته الذاتية أن «فترة خمسينيات القرن العشرين لم تكن سنوات جيدة بالنسبة إلى الأبحاث الرياضية.» وأضاف أن «القوات الجوية التي كان يرأسها بشكلٍ أساسيٍّ آنذاك [تشارلز] ويلسون وظَّفت مؤسسة راند. عندئذٍ، شعرتُ بأنه يتعين عليَّ فعل شيءٍ لوضع درعٍ تخفي حقيقة عملي بالرياضيات داخل مؤسسة راند، عن ويلسون والقوات الجوية … ومن ثم، اعتقدت أن مصطلح البرمجة الديناميكية يُعد اسمًا جيدًا. وهو اسمٌ لا يمكن حتى لعضوٍ في الكونجرس الاعتراضُ عليه. ولهذا استخدمته ليكون مظلةً لأنشطتي».

عند تطبيق الطريقة في أيٍّ من هذه المواقف، كان يتعين على المهندسين إيجاد طريقةٍ لحساب دالة القيمة. في بعض الحالات، كما في حدث في مثال محطات مترو الأنفاق، تكون بنية المسألة بسيطة بما يكفي لتكون العملية الحسابية مباشرة. إلا أن المسائل البسيطة نادرًا ما تكون واقعية. فالعالم الواقعي عبارة عن عددٍ كبيرٍ من الحالات الممكنة، وهذه الحالات يمكن أن تتَّصل ببعضها بطرقٍ مركبة، أو حتى غير مؤكدة، ويمكنها فعل ذلك من خلال العديد من الأفعال المختلفة. بُذِلت جهودٌ عديدة في إيجاد دالة القيمة في هذه المواقف الأكثر صعوبة. ولكن حتى مع الأساليب الذكية، عادةً ما يتطلَّب تطبيق البرمجة الديناميكية قدرات حاسوبية قصوى من أجهزة الكمبيوتر المتاحة آنذاك. كان حساب دالة القيمة يمثل دائمًا عُنُقَ الزجاجة في العملية. ومن دون طريقة لإيجاد دالة القيمة، ستبقى الاحتمالات الكاملة التي يمكن أن تقدمها إسهامات بيلمان بعيدة المنال.

•••

ثمة مفارقة في إرث بافلوف. كان تأثيره الفوري يتمثل في إطلاق مفهوم السلوكية، وهي حركة تَتَفانى بشكلٍ محموم — يضاهي التفاني في العبادات — في إغفال العقل، وتركز فقط على السلوك الذي يمكن قياسه مباشرة. إلا أن النماذج الرياضية التي تمخَّض عنها هذا الإرث وجدت نجاحها في الاتجاه الآخر، أي من خلال التعمُّق داخل العقل، وذلك لأن تجسيد التعلم المعزز في المعادلات كان يتطلب استخدام مصطلحات تمثل مفاهيمَ عقليةً خفِيَّة.

ظهر أحد الامتدادات الشائعة لنموذج بوش وموستيلر بعد ٢٠ عامًا من ظهور النموذج، أي عام ١٩٧٢، وطُوِّر على يد عالِمَي نفسٍ من جامعة ييل؛ وهما: روبرت ريسكورلا وآلان فاجنر. عمم ريسكورلا وفاجنر نموذج بوش وموستيلر ليشمل نطاقًا أوسع من إعدادات التجارب، كما جعلاه قادرًا على تجسيد العديد من النتائج. أول تغيير أجرياه هو تعديل المقياس الذي يحاول النموذج تفسيره.

كان «احتمال حدوث استجابة» لبوش وموستيلر محددًا ومحدودًا جدًّا. بدلًا من ذلك، أراد ريسكورلا وفاجنر تجسيد قيمة أكثر تجريدًا أطلقا عليها اسم «قوة الربط». قوة الربط هذه بين الإشارة والمكافأة عبارةٌ عن شيءٍ موجودٍ في عقل المشارك، وهو ما يجعلها غير قابلةٍ للقياس المباشر، إلا أن التجارب المختلفة يمكنها محاولة قياسها بطرائق مختلفة. قد يتضمَّن ذلك قياس احتمال حدوث استجابة، مثل احتمال أن يسيل اللعاب، كما يتضمن أيضًا قياسات أخرى، مثل مقدار سيلان اللعاب، أو بعض السلوكيات، مثل النُّباح أو الحركة. بهذه الطريقة، أدخل ريسكورلا وفاجنر نموذج بوش وموستيلر في إطار عمل أوسع.

اتسع نموذج ريسكورلا وفاجنر أيضًا ليشمل سِمةً شائعة من سمات تجارب الإشراط؛ ألا وهي «الحجب». يحدث الحجب عند قَرْن إشارةٍ أوليةٍ بمكافَأة، وبعد ذلك تُعطى إشارة ثانية جنبًا إلى جنب مع الإشارة الأولى، ويتمُّ قَرن الاثنتَين بالمكافأة. لذا، على سبيل المثال، بعد أن تعلم الكلب ربط صوت الجهاز الطنَّان بالطعام، سيسلط القائم على التجربة الضوءَ في نفس وقت إصدار صوت الطنين، ثم يعطي للكلب الطعام. في نموذج بوش وموستيلر، كانت الإشارات تعامل على حِدة تمامًا. وعليه، فإنه عند إقران الضوء والطنين بالطعام لعددٍ كافٍ من المرات، لا بد أن يبدأ الكلب في ربط الضوء بالطعام في الوقت الذي يتعلَّم فيه ربطه بجهاز الطنين. بناءً على ذلك، سنتوقَّع أن تعريض الكلب للضوء فقط سيُسيل لعابه. في الواقع، ليس هذا ما حدث، فلعاب الكلاب لم يَسِل استجابةً للضوء فقط. وجود جهاز الطنين حجب إمكانية ارتباط الضوء بالطعام.

وهذا يقدِّم دليلًا آخر على أن الأخطاء تدفع عملية التعلُّم. على وجه التحديد، الأخطاء حول المكافأة المتوقعة. عندما يسمع الحيوان صوت الطنين يعلم أن الطعام قادم. إذن، عندما يصل الطعام، لا يكون هناك خطأ في توقُّع الكلب للمكافأة. وكما رأينا فيما سبق، هذا يعني أن الكلب لا يغيِّر معتقداته بشأن جهاز الطنين. وهو ما يعني أيضًا أنه لا يغيِّر معتقداتِه حول أي شيءٍ آخر. وسواء أكان هناك ضوء في نفس وقت إصدار صوت الطنين أم لا، فلن يكون لهذا صلة بالأمر. لن يكون للضوء تأثيرٌ على الجائزة المتوقعة، أو الجائزة التي حصل عليها، أو الفرق بينهما، الذي يعرِّف خطأ التنبؤ، ودونَ خطأ يبقى كل شيء ساكنًا دون تغيير. ومن ثم، يمكننا القول إن خطأ التوقع هو زيت التشحيم الذي يساعد على تدوير عجلة التعلم بسلاسة.

وبهذا، أجرى ريسكورلا وفاجنر تحديثًا على قوة الربط بين إشارةٍ ومكافأة، هذه القوة لا تعتمد على قوة ارتباط هذه الإشارة بالمكافأة فحسب؛ بل تعتمد على مجموع قوى الربط لكل الإشارات الموجودة. إذا كانت إحدى قوى الربط هذه عالية (لنقُل إذا كان جهاز الطنين موجودًا)، فإن وجود المكافأة لن يغير أيًّا منها (ارتباط المكافأة بالضوء لن يُعرف أبدًا). عملية تجميع المعلومات من إشارات مختلفة من الأمور التي يتعين على الحيوان القيام بها داخل عقله، الأمر الذي يُظهر رفضًا للمنهج السلوكي والتحول إلى العقل.

لكن اللحظة الفارقة في التعلم المعزز جاءت في فترة ثمانينيات القرن العشرين، بفضل أبحاث عالم كمبيوتر كَندي يعقصُ شعره كذيل حِصان يُدعى ريتشارد ساتون، وأندرو بارتو المشرف على رسالة الدكتوراه الخاصة به. درس ساتون كلًّا من علم النفس وعلوم الكمبيوتر، كما قضى بارتو وقتًا طويلًا يقرأ في مؤلفات علم النفس. ثبتت فاعلية هذا التعاون بين الرجلَين؛ فالأبحاث المشتركة بينهما استفادَت من المجالَين وعادت بالنفع عليهما.

أزال ساتون العنصر الملموس الأخير من النموذج؛ المكافأة نفسها. حتى ذلك الحين، تركزت لحظة التعلم حول الوقت الذي تُعطى فيه المكافأة أو تُمنع. إذا شممت رائحة دخان من شمعة مشتعلة، ثم حصلت على قطعةٍ من كعكة عيد الميلاد، فستقوى الرابطة بين الأمرَين. لكن إذا انطفأت في نهاية احتفال ديني لا ترتبط على الأغلب بالكعك؛ فمن ثم تضعف الرابطة بينهما. في كلتا الحالتين، تكون الكعكة في حد ذاتها مُتغيرًا مُهمًّا. فوجود هذا المتغير أو عدمه يُعد أمرًا أساسيًّا. أي شيء يصلح لأن يكون إشارة، لكن لا بد أن تكون المكافأة عنصرًا أساسيًّا كالطعام أو الشراب أو الجنس. لكن بمجرد أن نبدأ بربط الدخان بكعكة عيد الميلاد، قد نلاحظ بعض التنظيمات الأخرى. على سبيل المثال، عادة ما يسبق الغناء رائحة الدخان، وقد يسبق الغناء ارتداء الأشخاص لقبعات سخيفة. لا شيء من هذه الأشياء يصلح لأن يكون مكافأة في حد ذاته (لا سِيَّما الغناء، في معظم الحفلات)، لكن هذه الأشياء تُكوِّن سلسلة يرتبط كل عنصر فيها بدرجة أو بأخرى بالمكافأة الأولية. معرفة هذه المعلومات يمكن أن يكون مفيدًا: فإذا أردنا الحصول على كعك، فقد يساعدنا الانتباه إلى وجود القبعات السخيفة.

لم يكن لدى ريسكورلا وفاجنر أي طريقة لأخذ رابط بين إشارة ومكافأة من موقف وتطبيقه على موقف آخر، فبالنسبة لهما لم تكن هناك آلية لجعل الإشارة المرتبطة بمكافأة معينةٍ هي نفسها المكافأة في مواقف أخرى. لكن ساتون فعل ذلك. في خوارزمية قدمها ساتون تُعرف باسم «تعلم الفرق الزمني»، تُعدَّل توقعاتنا استجابةً لأي مخالفة تحدث لهذه التوقعات. أثناء قطع الردهة التي تفضي إلى مكتبك، على سبيل المثال، تكون توقعاتك بشأن الحصول على مكافأة منخفضةً للغاية. لكن عندما تسمع زملاءك في غرفة المؤتمرات يبدءون في ترديد المقطع الأول من أغنية عيد الميلاد، فإن هذا يخالف توقعاتك. لا بد من تعديل التوقعات؛ فأنت الآن في حالة تلُوح فيها المكافأةُ في الأفق. وهنا يحدث تعلم الفرق الزمني؛ فقد تختار دخول غرفة المؤتمرات وتكمل الأغنية وتشارك في إطفاء الشموع وتتناول الكعك. عند قيامك بهذه الأفعال، لن يحدث مزيدٌ من المخالفات؛ ومن ثَم لن يكون هناك مزيدٌ من التعلُّم. وهكذا، فإن تلقي المكافأة في حد ذاته لا ينتج عنه أي تغيُّرات. الحالة الوحيدة التي حدث فيها التعلم كانت في الردهة، حين كنت على بُعد عدة خطوات من المكافأة.

لكن، ما الذي يُتعلَّم في هذه الحالة بالضبط؟ ما المفهوم العقلي الذي تغيَّر في الرواق؟ الأمر لا يتعلق بربط إشارة بمكافأة، بشكل مباشر على الأقل. بل يتعلق أكثر بإشارة تقودك نحو الطريق إلى المكافأة إذا اتَّبعت الخطوات الصحيحة.

قد يبدو هذا مألوفًا لأن ما يساعدك على تعلُّم الفرق الزمني هو دالةُ القيمة. في كل لحظة زمنية، وفقًا لهذا الإطار، يكون لدينا توقعات — لها علاقة بشكل أساسي بشعورنا بمدى بُعدنا عن المكافأة — تحدد قيمة الحالة التي نكون فيها. وبمرور الزمن أو القيام بأفعالٍ في العالم، قد نجد أنفسنا في حالاتٍ جديدةٍ لها قيم مرتبطة بها. إذا توقَّعنا قيمة هذه الحالات الجديدة، فسيكون كل شيءٍ على ما يُرام. أما إذا كانت قيمة الحالة الحالية مختلفةً عما توقعناه، عندما كنا في الحالة السابقة، فنكون بذلك قد ارتكبنا خطأ. والأخطاء تحث على التعلم. على وجه التحديد، إذا كانت قيمة الحالة الحالية أكبر من، أو أصغر من، توقعاتنا بشأنها عندما كُنا في الحالة السابقة، فإننا نغير قيمة الحالة السابقة. بمعنى أننا نأخذ المفاجأة التي حدثت الآن، ونستخدمها لتغيير توقعنا بشأن الماضي. وبهذه الطريقة، فإننا عندما نجد أنفسنا في هذه الحالة السابقة مرة أخرى، فسنتنبَّأ بالمستقبل بشكل أفضل.

افترض أنك تقود السيارة مُتجهًا إلى مدينة ملاهي. في هذه الحالة، تُقاس قيمة موقعك بمدى بُعدك عن الوجهة المرغوب فيها. بعد أن تغادر بيتك، تتوقَّع أنك ستصل خلال ٤٠ دقيقة. انطلقتَ بالسيارة مباشرةً لمدة خمس دقائق ووصلت إلى الطريق السريع. أصبحت تتوقع الآن أن تصل خلال ٣٥ دقيقة. بعد ١٥ دقيقة من القيادة على الطريق السريع، اتخذت مخرجًا. أصبح زمن الوصول المقدر ٢٠ دقيقةً حاليًّا. لكن بمجرد الخروج من الطريق السريع، والتوجُّه لشارعٍ جانبي اصطدمت بازدحامٍ مُروري. وأنت تجلس في السيارة التي تتحرك بالكاد، علمت أنك لن تصل إلى الملاهي قبل ٣٠ دقيقة أخرى. قفز وقت الوصول المتوقع بمقدار ١٠ دقائق، وهو خطأ فادح.

ما الذي يجب علينا تعلُّمه من هذا الخطأ؟ لو كان لديك رؤيةٌ دقيقةٌ عن العالم الواقعي، لَكنت توقعت أن تقود السيارة لمدة ٣٠ دقيقة أخرى، في اللحظة التي أخذت فيها المخرج. إذن، يخبرك تعلم الفرق الزمني أن عليك تحديثَ قيمة الحالة المرتبطة بهذا المخرج. بمعنى أنك تستخدم المعلومات التي تلقَّيتها عند حالةٍ معينة (أزمة مرورية في الشارع الجانبي) لتحديث أفكارك حول قيمة الحالة السابقة (المخرج). وهذا قد يعني أن المرة التالية التي تقود فيها السيارة لمدينة الملاهي هذه، ستتجنب هذا المخرج وستختار مخرجًا غيره بدلًا من ذلك. ومع ذلك، لن تحتاج إلى الوصول للملاهي متأخرًا ١٠ دقائق بالفعل كي تتعلم من هذا الخطأ؛ إذ يكفي توقع حدوث ذلك من مجرد رؤية المرور.

ما أوضحته خوارزمية ساتون هو أنه من خلال الاستكشاف وحده — طريقة المحاولة والخطأ البسيطة — يمكن للبشر والحيوانات وحتى الذكاء الاصطناعي في النهاية معرفةُ دالَّة القيمة الصحيحة للحالات التي يستكشفونها. كل ما يحتاجه الأمر هو تحديث توقعاتهم عند تغيُّر التوقعات، وهو ما وصفه ساتون بأنه «تعلُّم تخمين من تخمين».

كان تعلم الفرق الزمني، الذي يُعد امتدادًا لدراسة بيلمان حول البرمجة الديناميكية، قادرًا على حل المسائل الواقعية. فقاعدة التعلُّم البسيطة التي تنطوي على تحديث المعرفة لحظةً بلحظة؛ جعلت تعلم الفرق الزمني جذابًا من منظور الحَوسبة؛ فهي لا تتطلب الكثير من الذاكرة التي كانت مطلوبة، لتخزين المجموعة الكاملة من الأفعال التي تسبق المكافأة قبل التعلُّم منها. فقد نجحت أيضًا. تجسَّدت إحدى مظاهر قوتها في «تي دي-جامون»، وهو برنامج كمبيوتر مدرَّب عن طريق تعلم الفروق الفردية للعب الطاولة. ألعاب الطاولة عبارة عن اختبارات مفيدة جدًّا للتعلم المعزز؛ لأن المكافآت تأتي غالبًا في نهاية اللعبة، في صورة مكسب أو خسارة. وعليه فإن استخدام مثل هذه الإشارة التقريبية البعيدة، لتوجيه استراتيجية اللعب منذ الحركة الأولى، يُعد تحديًا. إلا أن هذا التحدي يمكن لتعلُّم الفرق الزمني مواجهتُه. لعِبَ برنامج «تي دي-جامون»، المصمَّم عام ١٩٩٢ على يد العالم جيرالد تيزورو بشركة آي بي إم، مئات الآلاف من الألعاب ضد نفسه، إلى أن وصل في النهاية إلى مستوى لاعب متوسط دون أن يتلقى أي تعليمات من البشر. ونظرًا لأنه تعلم بمعزل عن البشر، فقد طوَّر أيضًا استراتيجيات لم يُجربها البشر (الذين تأثروا بشكلٍ عام بطريقة لعِب بعضهم، وهو ما جعلهم يلتزمون بمجموعةٍ محددةٍ من الحركات). في النهاية، أثرت الحركات غير المألوفة التي قام بها «تي دي-جامون» بالفعل على نظرية لعبة الطاولة وفَهْمها.

في عام ٢٠١٣، حظيَ تطبيق آخر من تطبيقات تعلم الفروق الزمنية باهتمام شديد. هذه المرة طُبِّق على ألعاب الفيديو. قام العلماء في شركة ديب مايند لأبحاث الذكاء الاصطناعي بتصميم برنامج كمبيوتر، يُعلِّم نفسه لعِب العديد من ألعاب الأركيد التابعة لشركة أتاري، التي يعود تاريخها إلى سبعينيات القرن العشرين. حصل هذا اللاعب الاصطناعي على تجربة الأتاري بالكامل. المدخلات الوحيدة للخوارزمية كانت عدد وحدات البكسل على الشاشة، لم تُعطَ أي معلومات خاصة عن مسألة أن بعض وحدات البكسل قد تُمثِّل سُفُنًا فضائية، أو مضارب بينج بونج أو غواصات. تضمَّنت الأفعال التي أُتيحَ للبرنامج القيام بها الأزرار القياسية، مثل لأعلى ولأسفل ولليسار ولليمين، وA وB، وتمثَّلت مكافأة النموذج في النتيجة التي قدمتها اللعبة التي كان البرنامج يلعبها. ونظرًا لأن هذا يُثقل كاهل الخوارزمية بمهمَّة أكثر صعوبة من لعبة الطاولة، التي كانت تتضمن على الأقل مفاهيم القِطَع والمواقع بداخل النموذج، دمج الباحثون تعلُّم الفرق الزمني مع الشبكات العصبية العميقة (وهي طريقة تناولناها في الفصل الثالث).٤ تضمنت إحدى نسخ هذه الشبكة العصبية العميقة ٢٠ ألف خلية عصبية اصطناعية، وبعد أسابيع من التعلم وصلت إلى مستوًى يضاهي الأداء البشري في ٢٩ من أصل ٤٩ لعبة أُجرِي الاختبار عليها. ونظرًا لأن خوارزمية الأتاري هذه تعلمت دون تدخل أو تفاعلٍ بشري أيضًا، فقد أفضت إلى بعض المراوغات الممتعة، بما في ذلك اكتشاف حيلةٍ ذكيةٍ لحَفر ممرٍّ عبر الجدار في لعبة «بريك أوت» التي تُكسَّر فيها الجدران.

في حين أن الألعاب كانت طريقةً براقةً وممتعةً لإظهار قوة هذا المنهج، فإن تطبيقاته لم تقف عند هذا الحد. فبعدما امتلكت شركةُ جوجل شركةَ ديب مايند عام ٢٠١٤، وضعت خوارزميات للتعلم المعزز لمهمة تخفيض استخدام الطاقة، في مراكز البيانات الضخمة الخاصة بها. نتيجة لذلك، انخفضت الطاقة المستخدمة لتبريد المراكز بمقدار ٤٠ في المائة، وهو ما أدى بدوره إلى توفير كبير في التكاليف يصل إلى مئات الملايين على مدار السنوات. بتركيز خوارزميات التعلم المعزز الأُحادي على تحقيق الهدف الموجود في متناول اليد، فإنها تجد حلولًا إبداعية وفعالة للمشكلات الصعبة. وبهذا، يمكن لهذه العقول الغريبة أن تساعد على وضع خطط لم تخطر على بال بشر أبدًا.

تمثل مسارات عملية اتخاذ القرارات المتسلسلة والإشراط البافلوفي انتصارًا للتطور العلمي المتقارب. تبدأ مسارات بيلمان وبافلوف بمشكلات منفصلة وجوهرية، وكل مشكلة تعُجُّ بتفاصيلها الصعبة والمعقدة. كيف يتعين على المستشفى جدوَلة مواعيد الممرضين والأطباء لخدمة أكبر عدد من المرضى؟ ما الذي يجعل لعاب الكلب يسيل عندما يصطدم صوت الجهاز الطنان بأذنه؟ يبدو هذان السؤالان متباعدَين تمامًا. لكن، بالتخفُّف من التفاصيل، بحيث لا يتبقى لدينا سوى هيكل المشكلة، تتجلَّى الطبيعة المشتركة بينهما. يُعد ذلك من الأدوار التي تلعبها الرياضيات: أن تضع الأسئلة غير المتصلة في العالم الواقعي في إطار مفاهيمي واحد، حيث تتجلى أوجهُ الشبه الكامنة.

وعليه، فإن قصة التعلم المعزز تُعد قصة تفاعلٍ ناجح بين عدة تخصُّصات. فهي توضح أن كلًّا من علم النفس والهندسة وعلوم الكمبيوتر يمكنها العمل معًا لإحراز تقدم بشأن المشكلات الصعبة. كما توضح كيف يمكن استخدام الرياضيات، لفهم وتقليد قدرة الحيوانات والبشر على التعلم من الظروف المحيطة. لو انتهت القصة عند هذا الحد، لكانت ستصبح قصةً رائعة كما هي. لكنها لم تنتهِ عنده.

•••

الأوكتوبامين هو جُزيء يوجد في الجهاز العصبي لدى الكثير من الحشرات والرخويات والديدان. وقد سُمي بهذا الاسم (المأخوذ مقطعه الأول من كلمة أخطبوط في اللغة الإنجليزية) نظرًا لاكتشافه أول مرة في الغدد اللعابية للأخطبوط عام ١٩٤٨. في دماغ النحلة، يُطلق الأوكتوبامين عند اقترابها من الرحيق. في بدايات تسعينيات القرن العشرين، كان تيري سيجنوفسكي، الأستاذ في معهد سولك في سان دييجو، كاليفورنيا، واثنان من أعضاء مختبره، وهما ريد مونتاجيو وبيتر دايان، يدرسون الأوكتوبامين. على وجه التحديد، صمموا نموذجًا — محاكاة بالكمبيوتر لسلوك النحلة — يرتكز على الخلية العصبية في دماغ النحلة التي تُطلق الأوكتوبامين. وقد اقترحوا أنه يمكن تفسير اختيارات النحلة بشأن الزهور التي تهبط عليها، باستخدام نموذج ريسكورلا وفاجنر الخاص بالتعلم، ويمكن أن تكون الدائرةُ العصبية التي تتضمن الخلية العصبية الخاصة بالأوكتوبامين الوسيلةَ التي يُطبق من خلالها النموذج. لكن بعدما حل الفريق لغز الأوكتوبامين هذا، سمعوا عن دراسة أخرى أُجرِيت على بُعد ٦ آلاف ميل، بواسطة أستاذ ألماني يُدعى ولفرام شولتز حول مادةٍ كيميائيةٍ شبيهةٍ بالأوكتوبامين تُسمَّى الدوبامين.

ربما تكون على دراية بالدوبامين. فهو يحظى بسُمعة طيبة في الثقافة العامة. أشار عددٌ لا نهائي من المقالات إليه بوصفه «المادة الكيميائية المسئولة عن إمتاع عقولنا والمرتبطة بالمكافأة»، وتحدَّث العديد من المقالات عن أن بعضَ الأنشطة اليومية، كتناول الكَب كيك، تؤدِّي «لإفراز وفرةٍ من مادة الدوبامين المرتبطة بالمكافأة، وتصل هذه المادة إلى منطقة اتخاذ القرارات في الدماغ.» رُوِّج لهذه المادة باعتبارها جُزيءَ السعادة؛ ولا عجب في أن يُروَّج للسلع من خلال ربطها بجزيء المتعة. أطلَق نجوم موسيقى البوب اسم الدوبامين على ألبوماتهم وأغانيهم. وتدَّعي «الأنظمة الغذائية التي ترفع الدوبامين» (دون دليل) أنها توفر أطعمة تعزز من مستوى الدوبامين، وفي الوقت نفسه تحافظ على وزنك. وقد وعدت شركة دوبامين لابز الناشئة في مجال التكنولوجيا بزيادة انغماس المستخدمين في استخدام تطبيقات الهاتف، من خلال إعطائهم جرعاتٍ من هذا الناقل العصبي. وفي الوقت نفسه، اعتُبرت هذه المادة الكيميائية الشهيرة المسكينة مصدر الإدمان والتصرفات غير الملائمة بجميع أشكالهما. نشأت بعض المجموعات الإلكترونية، مثل «مشروع الدوبامين»، بهدف تقديم «حياة أفضل من خلال الوعي بالدوبامين.» كما أن بعض سكان وادي السيليكون قد عزموا على «صيام الدوبامين» كي يلتقطوا أنفاسهم من التحفيز الدائم المستمر.

في حين أن إطلاق الدوبامين يمكن أن يصاحبه مكافآت، فإن القصة لا تنتهي عند هذا الحد. فقد أظهرت دراسة شولتز، على وجه التحديد، حالة تظل فيها الخلايا العصبية المسئولة عن إطلاق الدوبامين، غير نشطةٍ في حالة الحصول على مكافأة.

على وجه التحديد، درَّب شولتز قِردةً على مد أذرعها للأمام للحصول على بعض العصير.٥ وخلال عملية التدريب هذه، سجل نشاط مجموعة الخلايا العصبية المسئولة عن إطلاق الدوبامين المطوية في الجانب السفلي من الدماغ. لاحظ شولتز أنه في نهاية التدريب، عندما علمت القردة أنها ستحصل على العصير بمد أيديها، لم تُظهر هذه الخلايا العصبية أي رد فعل على الإطلاق، تجاه المكافأة التي حصلت عليها القردة.

حين نشر شولتز هذه النتائج، لم يكن لديه تفسير واضح لتصرُّف خلايا الدوبامين بهذه الطريقة، لكن أعضاء سيجنوفسكي فعلوا ذلك. وقد تواصلوا مع شولتز للتعاون، من أجل اختبار الفرضية القائلة بأن خلايا الدوبامين العصبية تحمل شفرةَ أخطاء التنبؤ اللازمة لحدوث تعلم الفرق الزمني. كانت هذه بدايةَ ما أطلَق عليه سيجنوفسكي: «واحدة من أكثر الفترات العلمية إثارة في حياتي».

عمل دايان ومونتاجيو على إعادة تحليل بيانات شولتز باستخدام خوارزميات أخرى. اعتمدا على أبسط تجارب شولتز المكوَّنة من ضوء مشتعل في الموضع المطلوب الوصول إليه، وإذا وصل إليه الحيوان، يحصل على مقدار من العصير. ما أرادا معرفته هو كيفية تغيُّر الخلايا العصبية المسئولة عن إنتاج الدوبامين، عندما يتعلَّم الحيوان هذا الارتباط. كما اهتمَّا بظرفٍ معينٍ بعد التعلم: ما يحدث عندما لا يحصل الحيوان على العصير بعد وصوله إلى الضوء. إذا تعلَّم الحيوان العلاقة التي تربط بين الضوء والعصير، فسيتعلَّم توقُّع هذه العلاقة، وإذا لم يأتِ العصير عقب الوصول إلى الضوء، فسيكون هذا خطأً فادحًا في التنبؤ. هل تعكس الخلايا العصبية المسئولة عن إفراز الدوبامين ذلك؟

تُطلق الخلايا العصبية المسئولة عن إفراز الدوبامين عادةً نحوَ خمس إشاراتٍ عصبيةٍ كهربيةٍ في الثانية، عندما لا يحدث أي شيء إضافي. في بداية عملية التعلُّم، أي بعدما يحصل الحيوان على جرعةٍ مفاجئةٍ من العصير بعد أن يحرِّك ذراعه مباشرة، يقفز معدل إطلاق الإشارات العصبية الكهربية إلى نحو ٢٠ إشارةً في الثانية. لم يحرك الضوء الذي يسبق الحركة أي شيء. لكن بعد عددٍ كافٍ من عمليات القرن، وبمجرد أن يبدأ الحيوان في استيعاب أن الضوء ومد الذراع والعصير جميعها مترابطة، يتغير النمط. تتوقف خلايا الدوبامين العصبية عن الاستجابة للعصير. يتماشى هذا التغيُّر مع فكرة أن هذه الخلايا تنقل معلومات حول وجود خطأ في التنبؤ؛ وذلك لأنه بمجرد أن يتمكن الحيوان من التنبؤ بالحصول على العصير بشكلٍ صحيح، لا يكون هناك مزيد من الأخطاء. وتبدأ الحيوانات في الاستجابة للضوء. لماذا؟ لأن الضوء أصبح مرتبطًا بالمكافأة، لكنها ليست لديها فكرة حاسمة عن توقيت ظهور المكافأة. وعندما تظهر المكافأة بطريقة غير متوقعة تصبح خطأً. على وجه التحديد، تصبح خطأً في القيمة المتوقعة لحالة الحيوان. (والخطأ هنا يُقصد به المفاجأة أو الفرق بين ما يتوقع الحيوان حدوثه وما يحدث بالفعل). يتوقع القرد الذي يجلس على كرسي التجارب، وهو يمارس أنشطته المعتادة، أن تكون اللحظة التالية مماثلة للحظة الحالية إلى حدٍّ ما. إلا أن اشتعال الإضاءة يُعد مخالفة لهذا التوقع. وكما هي الحال عند سماع الكلمات الأولى من أغنية عيد الميلاد في ردهة المكتب، تُعدُّ هذه مفاجأة سارَّةً، لكنها تظل مفاجأة بالرغم من ذلك.

كان الهدف من التحليل الأخير، الذي أُجري أثناء إزالة العصير بعد الوصول، هو معرفة كيفية تجسيد دماغ الحيوان للمفاجآت غير السارة. إذا كان الدوبامين ينقُل معلومات بشأن الأخطاء، فسيتعين عليه توضيح متى تكون الأمور أسوأ من المتوقع. وهذا هو ما تفعله الخلايا العصبية بالضبط في حالة غياب العصير. ينخفض معدل إطلاق الإشارات العصبية الكهربية، في اللحظة التي يُتوَقَّع فيها تقديم العصير تمامًا. على وجه التحديد، سيرتفع معدل إطلاق الخلايا العصبية للإشارات العصبية الكهربية، من ٥ إشاراتٍ إلى ٢٠ إشارةً عصبيةً كهربية استجابةً للضوء، وبعد ذلك بمجرد أن يمد الحيوان ذراعه يعود معدل إطلاق الإشارات العصبية الكهربية إلى ٥ مرة أخرى. لكن، بعد مد الحيوان لذراعه بنحو نصف ثانية، عندما يتَّضح عدم وجود عصير، تتوقف الخلايا العصبية عن إطلاق إشارات تمامًا. حدثت مخالفة للتوقُّع، ودور الخلايا العصبية المسئولة عن إفراز الدوبامين هنا هو نقل هذه المعلومة.

أوضحت هذه الدراسة أن إطلاق خلايا الدوبامين العصبية للإشارات العصبية الكهربية، من شأنه نَقْل معلوماتٍ بشأن الأخطاء، إيجابية أو سلبية، حول القيم المتوقعة اللازمة لحدوث التعلم. ومن ثم، كانت نقطة مهمة تحوَّل فيها الدوبامين بالنسبة لنا من مجرد جُزيء للمتعة والسعادة إلى جزيء تعليمي.

لكن، إذا كان الهدف من نقل معلومات بشأن الخطأ هو التعلُّم من الخطأ، فأين يحدث هذا التعلم؟ يتضح أنه من الصعب نوعًا ما تحديد ذلك؛ نظرًا لأن هذه الخلايا العصبية التي تفرز الدوبامين تفرزه في العديد من أركان الدماغ؛ إذ إن زوائد هذه الخلايا العصبية تصل إلى أجزاءٍ مختلفةٍ من الدماغ، مثل شبكة من أنابيب التوصيل التي تصل المناطق البعيدة والقريبة. لكن الموقع الذي يبدو مُهمًّا جدًّا هو الجسم المخطط. الجسم المخطط عبارة عن مجموعة من الخلايا العصبية، التي تُمثِّل المدخلات الأولية لمجموعةٍ من مناطق الدماغ التي تدخل في توجيه الحركة والأفعال. تُسهم الخلايا العصبية في الجسم المخطط في تكوين السلوك، من خلال رَبْط المدخلات الحسية بالأفعال، أو من خلال رَبْط الأفعال بالأفعال.

وكما رأينا في الفصل الرابع، يُعد التعلم الهيبي طريقة سهلة لتخزين الروابط بين الأفكار في الوصلات العصبية. فبموجب قوانين هيب، إذا أطلَقَت خليةٌ عصبية إشاراتٍ عصبية كهربية بانتظام قبل خلية عصبية أخرى، فستقوى الوصلة من الأولى إلى الثانية. إلا أنه في حالة التعلم المعزز نحتاج إلى أكثر من مجرد معرفة أن الحدثَين وقعا خلال فتراتٍ متقاربة. نحتاج إلى معرفة كيفية ارتباط هذه الأحداث بالمكافأة. على وجه التحديد، نريد فقط تحديث قوة الربط بين الإشارة والفعل (على سبيل المثال، رؤية الضوء ومحاولة الوصول إليه) إذا تبيَّن أن هذا الاقتران مرتبطٌ بمكافأة.

وعليه، فإن الخلايا العصبية في الجسم المخطط لا تتَّبع التعلم الهيبي الأساسي. بل تتبع نمطًا معدَّلًا، يؤدي فيه إطلاق خليةٍ عصبيةٍ للإشارات العصبية الكهربية قبل أخرى، إلى تقوية الوصلة بينهما فقط إذا حدث ذلك في وجود الدوبامين. وعليه، فإن الدوبامين — الذي ينقُل إشارة الخطأ اللازمة لتحديث القيم — يكون مطلوبًا أيضًا، من أجل التغييرات اللازمة لعملية التحديث التي تقع في التشابُك العصبي. بهذه الطريقة، يمكن اعتبار الدوبامين زيتَ التشحيم الذي يساعد على انسيابية التعلم.

أدى وجود لغة تعلم الفرق الزمني اللازمة للحديث عن وظائف الدماغ، إلى تغيير الحديث عن موضوعات إكلينيكية كالإدمان. حاولت نظريةٌ وضَعها عالم الأعصاب ديفيد ريش عام ٢٠٠٤ تفسيرَ الخواص المسببة للإدمان لبعض العقاقير، مثل الأمفيتامين والكوكايين، من حيث تأثيرها على إفراز الدوبامين. وافترض أن هذه العقاقير تسبب إطلاق دوبامين ليس له علاقة بخطأ التوقع الفعلي. على وجه التحديد، بزيادة تحفيز خلايا الدوبامين العصبية، ترسل هذه العقاقير إشارةً خاطئة لبقية الدماغ بأن تجربة العقار دائمًا ما تكون أفضل من المتوقع. ومع هذا، فإن إشارة الخطأ غير الحقيقية هذه توجِّه عملية التعلم؛ فهي تدفع قيمة الحالات المرتبطة باستخدام العقار المخدِّر لأعلى أكثر فأكثر. من المؤكد أن تشويه دالة القيمة بهذه الطريقة له آثار ضارة على السلوك، مثل تلك التي نراها في الإدمان.٦

•••

كان ديفيد مار عالمَ أعصاب بريطانيًّا لديه معرفة بمجال الرياضيات. نُشر كتابه «الرؤية: تجسيد البشر للمعلومات المرئية ومعالجتها» عام ١٩٨٢، أي بعد وفاته بعامَين. في الفصل الأول، عرض المكونات اللازمة التي يتطلَّبها التحليل الناجح للجهاز العصبي. وفقًا لمار، لفَهْم أي جزء من الدماغ، علينا أن نكون قادرين على تفسيره على كل مستوًى من هذه المستويات الثلاثة: الحاسوبي والخوارزمي والتنفيذي. المستوى الحاسوبي يسأل عن الهدف العام من هذا النظام، ما الذي يحاول هذا النظام فِعْله؟ ويسأل المستوى الخوارزمي عن كيف يمكنه تحقيق هذا الهدف، أو من خلال أي خطوات.

يُعد التفسير الذي يشمل كل مستويات مار حُلمًا يسعى إلى تحقيقه الكثير من علماء الأعصاب. تُعد الأنظمة التي تُنفذ التعلم المعزز حالة نادرة تقترب فيها هذه الأنظمة من تحقيق أهداف صعبة. على المستوى الحاسوبي، يكون حل التعلم المعزز بسيطًا: تعظيم المكافأة. وهذا ما اعتبره بيلمان هدفًا لعمليات اتخاذ القرارات المتسلسلة، وما يجب أن تحصل عليه بعد دالة القيمة. لكن كيف نتعلم دالة القيمة؟ هنا يأتي دور تعلم الفرق الزمني. ساعدت أبحاث بوش وموستيلر وريسكورلا وفاجنر وساتون جميعًا، على تحويل أكوام من البيانات التي حصلوا عليها من تجارب الإشراط إلى سلاسل من الرموز التي يمكن أن تصف الخوارزمية اللازمة، للقيام بجزء التعلم من التعلم المعزز. على مستوى التنفيذ، أخذت خلايا الدوبامين العصبية على عاتقها مهمة حساب خطأ التوقع، كما أن الإشارات التي ترسلها إلى مناطق الدماغ الأخرى تتحكَّم في عمليات الربط التي تكوَّنت في هذه المناطق. بهذه الطريقة، تحقق الفهم الشامل للقدرة الأساسية على التعلُّم من المكافآت، من خلال الاقتراب من الموضوع من عدة زوايا مختلفة.

١  يُعرف نوع الإشراط الذي ارتبط بعمل سكينر باسم «الإشراط الاستثابي»، وهو يتضمن القيام بفعل قبل الحصول على مكافأة. الخط الفاصل بين الإشراط الاستثابي والإشراط الكلاسيكي أو البافلوفي يكون أحيانًا حادًّا وقاطعًا، وأحيانًا يكون ضبابيًّا، والمعلومات في هذا الفصل سترتبط بكليهما في بعض الأحيان.
٢  من المثير للاهتمام أن بيلمان كان على علم بالأعمال المنشورة لبوش وموستيلر، ومع ذلك فإن أبحاثه المتعلقة بهذه المسائل كانت مستقلة عن ذلك.
٣  ونظرًا لأن قوة الخصم تتحكم في الموازنة بين الاهتمام بالحاضر مقابل الاهتمام بالمستقبل، يمكن أن يكون لها تأثيراتٌ كبيرةٌ على القيمة؛ ومن ثم على الأفعال المختارة. افترض العلماء أنه يمكن فَهْم اضطرابات، مثل الإدمان ونقص الحركة وتشتت الانتباه، من خلال تخفيض المكافأة غير المناسب. سنتناول المزيد حول الإدمان فيما بعد.
٤  على وجه التحديد، استخدموا شبكة عصبية تلافيفية عميقة كالمستخدمة لتمثيل النظام البصري، كما رأينا في الفصل السادس.
٥  هذا في الواقع مثالٌ على النمط الاستثابي من الإشراط المذكور آنفًا؛ وذلك لأن الحيوانات تُريد مد أذرعها كي تحصل على المكافأة.
٦  يمكن لهذه النظرية تفسير العديد من جوانب الإدمان، إلا أن أحد توقعاتها الكبيرة باء بالفشل. إذا قادت هذه العقاقير إلى خطأ في التوقُّع دون توقف، فإن ظاهرة الحجب، التي وُصِفت فيما سبق، لن تحدث حتمًا عند استخدام العقاقير، ومع ذلك، فقد أوضحت تجربةٌ أُجريَت على الفئران أن الحجب لا يزال يحدث.

جميع الحقوق محفوظة لمؤسسة هنداوي © ٢٠٢٥