الخلايا العصبية المشفرة للقيمة
توجد الخلايا العصبية المشفرة للقيمة في مناطق
ممتدة من الدماغ. هناك أنواع مختلفة من القيمة (مثل
قيمة الشيء، أو قيمة فعل معين، أو قيمة الموقف
الحالي) وتقوم الخلايا العصبية المختلفة بترميزها.
تُغير الخلية العصبية التي تشفر القيمة نشاطَ إطلاق
جهد الفعل الخاص بها وفقًا للقيمة. بعبارة أخرى،
يُمكننا الحصول على معلوماتٍ حول القيمة من خلال
ملاحظة نشاط إطلاق جهد الفعل للخلية. تزيد بعض
الخلايا العصبية التي تُشفر القيمة من معدلات
إطلاقها للإشارات العصبية مع زيادة القيمة، وتقلل
بعضها الآخر من نشاطها مع زيادة القيمة.
1 تستجيب بعض الخلايا العصبية أيضًا
لنطاقٍ مُعين من القيمة.
2 وفي كل هذه الحالات، يوفر نشاط إطلاق
جهد الفعل للخلية العصبية التي تشفر القيمة
معلوماتٍ حول القيمة.
سوف أشرح هنا كيف يجد العلماء الخلايا العصبية
المشفرة للقيمة من خلال مثالٍ مُحدد، وهو خلية
عصبية في شبكة CA1
مُسجَّلة من حُصين جرذ تزيد من نشاط إطلاق جهد
الفعل الخاص بها مع زيادة القيمة. درَّب فريقي
جرذًا عطشانًا على الحصول على الماء كمكافأة من
خلال زيارة موقعَين مستهدفَين (الزاوية العلوية
اليُسرى والزاوية العلوية اليمنى في متاهة معدلة
على شكل حرف T؛
انظر شكل (م٢-١)). وفي كل محاولة، بدءًا من الحاجز
المركزي داخل المتاهة، كان على الجرذ أن يزور أحد
الهدفين ويعود إلى المركز باستخدام الممرِّ الجانبي
(تشير الأسهم الرمادية إلى اتجاهات حركة الجرذ).
وعند كل هدف تُقَدَّم قطرة صغيرة من الماء على أساس
احتمالي. وهكذا شرب الجرذ الماء في بعض المحاولات،
ولكنه لم يستطع في تجارب أخرى. علاوة على ذلك،
تغيرت احتمالات تقديم الماء عند الهدفين بمرور
الوقت دون أي إشارة حسِّية. على سبيل المثال، تغيرت
احتمالات تقديم الماء بالنسبة إلى الهدفَين الأيسر
والأيمن بشكلٍ غير مُتوقَّع من ٢١ و٦٣ في المائة
إلى ٧٢ و١٢ في المائة.
تُستخدَم مهمة البحث عن الغذاء الديناميكية هذه
لمحاكاة عملية اتخاذ القرار في بيئةٍ ديناميكية
وغير موثوقة، حيث يُمثل تتبع القيم الحقيقية بدقة
التحدِّي الأكبر. يتمثل التحدِّي الذي يواجهه الجرذ
في تتبُّع احتمالات تقديم المياه عند الهدفَين.
يمكن تحقيق ذلك من خلال تقدير الاحتمالات بناءً على
تاريخ الاختيارات السابقة ونتائجها. لنفترِض أن
الجرذ اختار كل هدفٍ خمس مرات على مدار عشر
محاولات. ولنفترض أيضًا أن الجرذ شرب الماء في
أربعٍ من الزيارات الخمس للهدف الأيسر وزيارة واحدة
فقط من الزيارات الخمس للهدف الأيمن. ربما يُقَدِّر
الجرذ احتمال تقديم المياه عند الهدف الأيسر (أي
قيمة الهدف الأيسر) ليكون أعلى من قيمة الهدف
الأيمن. ومن ثَمَّ يُمكننا التنبؤ بأن الجرذ على
الأرجح سيختار الهدف الأيسر في المحاولة
التالية.
لنبحث الآن موقفًا آخر. لنفترِض أن الجرذ شرب
الماء في ثلاث زيارات من أصل خمس لكل هدف على مدى
عشر محاولات. ولنفترض أيضًا أن تسلسُل نتائج
الاختيار كان
o-o-o-x-x (حيث
يشير o و
x إلى تقديم
الماء وعدم تقديمه على التوالي) عند الهدف الأيسر،
وx-x-o-o-o عند
الهدف الأيمن. فأي هدف ستعتبره ذا قيمة أعلى؟ ربما
يكون الهدف الأيمن. والسبب في ذلك أننا نعطي ثقلًا
أكبر للتجارب الحديثة مقارنة بالتجارب البعيدة عند
تقييمها. وهذا منطقي؛ لأننا نعيش في عالم دائم
التغيُّر. وربما يرجع السبب في التسلسُلَين إلى أن
القيمة الحقيقية للهدف الأيمن قد زادت في حين
انخفضت قيمة الهدف الأيسر. تعمل نظرية التعلم
المُعَزَّز على صياغة هذه العمليات، وتقييم النتائج
التي يواجهها الفرد مع إيلاء ثقلٍ أكبر للتجارب
الحديثة.
تعمل نظرية التعلم المُعَزَّز كذلك على صياغة
عملية اتخاذ القرار مع الأخذ في الاعتبار المفاضلة
بين الانتفاع والاستكشاف. فكيف توزع اختياراتك
لتعظيم مقدار المكافأة في بيئةٍ متغيرة وغير
مُستقرة؟ عليك بالطبع اختيار الهدف الذي يحمل أعلى
قيمة مقدرة دون الأهداف الأخرى. ولكن عليك أيضًا
اختيار الأهداف الأخرى من حينٍ لآخر؛ لأن القيم قد
تتغير ديناميكيًّا بمرور الوقت. فقد يُصبح هدف كان
منخفض القيمة سابقًا هدفًا عاليَ القيمة فيما بعد.
كذلك قد يتبين أن هدفًا أُتيح حديثًا هو هدف ذا
قيمة عالية للغاية. تسمى هذه المعضلة المعروفة في
التعلم المُعَزَّز مقايضة الانتفاع والاستكشاف. هل
يجب عليك الانتفاع بالهدف ذي القيمة الأعلى أم
استكشاف الخيارات المتاحة لك عن طريق اختيار هدفٍ
منخفض القيمة أو هدف جديد للحصول على
معلومات؟
3
كما أوضحنا في الفصل الخامس، تُستخدَم نظرية
التعلم المُعَزَّز على نطاق واسع لبحث الأساس
العصبي لاتخاذ القرارات القائمة على القيمة.
والواقع أن سلوك الاختيار لدى الجرذ في هذه المهمة
يمكن التنبؤ به بدقة من خلال خوارزمية تعلم
مُعَزَّز بسيطة. باستخدام هذه الخوارزمية (تحديدًا
نموذج التعلم
Q)،
قدَّرنا قيم الأهداف اليسرى واليمنى في كل محاولة
لتتراوح بين صفر وواحد (الاحتمالات المقدرة لتقديم
الماء).
4 وزرعنا أقطابًا كهربائية دقيقة في شبكة
CA1 وسجلنا
أنشطة إطلاق جهد الفعل لخلايا عصبية فردية أثناء
قيام الجرذ بالمهمة (نحو ١٥٠ محاولة). المدهش أننا
وجدنا نسبة كبيرة من خلايا
CA1 العصبية
ارتبط نشاطها ارتباطًا وثيقًا بقيمة الهدف الأيسر
أو الأيمن.
5 بعبارة أخرى، نقل العديد من خلايا
CA1 العصبية
معلومات حول قيمة الهدف الأيسر أو الأيمن.
يوضح شكل (م٢-٢) مثالًا لخلية
CA1 نقلت
معلوماتٍ حول قيمة الهدف الأيسر. جرى تحويل المتاهة
المعدلة على شكل حرف
T إلى رسم
بياني خطِّي بغرض التبسيط. يناظر الطرف الأيسر من
الرسم البياني الحاجز المركزي بينما يناظر الطرف
الأيمن الممرات الجانبية (دُمِجَت الممرات اليمنى
واليسرى في الرسم البياني). يوضح الرسم البياني
العلوي النبضات الفردية (النقاط) لهذه الخلية
العصبية. كما ترى، انطلقت معظم النبضات عندما كان
الفأر في الجزء السفلي من الحاجز المركزي (الطرف
الأيسر من الرسم البياني الخطي). وعلى ذلك تكون هذه
الخلية خلية مكانية حُصينية نموذجية. ولكن إذا
قسَّمنا جميع المحاولات (التي بلغت نحو ١٥٠
إجمالًا) إلى أربع مجموعات وفقًا للقيمة المقدرة
للهدف الأيسر (٠~٠٫٢٥، ٠٫٢٥~٠٫٥،
٠٫٥~٠٫٧٥، و٠٫٧٥~١)، يتضح أن خلية المكان
هذه تصدر المزيد من النبضات مع زيادة قيمة الهدف
الأيسر.
يوضح الرسم البياني السُّفلي معدل إطلاق النبضات
(عدد النبضات مقسومًا على وقت الإشغال) لهذه الخلية
العصبية في المتاهة الخطية. المعدل الأعلى لإطلاق
النبضات لهذه الخلية العصبية في الجزء السفلي من
الممر المركزي، ويزداد مع زيادة قيمة الهدف الأيسر
(يُشار إلى معدل إطلاق النبضات العالي بالتظليل
الداكن). وهكذا، تكون هذه الخلية العصبية
CA1 قد نقلت
كلًّا من المعلومات المكانية والقيمة. إذن فهي خلية
مكان وكذا خلية عصبية مشفرة للقيمة. وكما هو موضح
في هذا المثال، تعتبر الخلية العصبية التي يرتبط
نشاطها بشكلٍ كبير بالقيمة (وفقًا لمعيار إحصائي
قياسي بالطبع) — وبالتالي تنقل معلومات القيمة —
خلية عصبية مُشفرة للقيمة.