أُجري كثير من الدراسات التي تستهدف الحُصين.
فاعتبارًا من أبريل ٢٠٢٢، صارت كلمة
hippocampus
(الحُصين) في ببميد
PubMed (محرك
بحث للمنشورات البيولوجية والطبية) تظهر أكثر من
١٧٠ ألف منشور. وقد ساهمت هذه الدراسات بقدْرٍ كبير
في فهمنا للحُصين. فنحن نعرف الآن الكثير عن تشريحه
وكيميائه الحيوية وفسيولوجيته وتطوُّره ووظيفته
وعلاقته بالأمراض العصبية والعقلية. وقد انتقَيتُ
في الفصول السابقة بعضًا من هذه الدراسات التي
أجدها بالِغة الأهمية لفهم عمليات الدائرة العصبية
التي تُشكل الأساس لوظائف الذاكرة والخيال في
الحُصين. باختصار، لا يدخل الحُصين في تذكُّر
التجارب الماضية فحسب، بل يدخل أيضًا في تخيُّل
الأحداث المستقبلية؛ وتموُّجات الموجات الحادة
وتكرار النشاط العصبي الحُصيني يَحدُثان في الحصين
أثناء حالتي النوم والراحة؛ تمتلك شبكة
CA3، وليس
CA1، تفرعات
عصبية متكررة ضخمة تتيح إحداث استثارةٍ ذاتية
وإطلاقًا مُتسلسلًا للإشارات العصبية؛ وتُولِّد
شبكة CA3 تموُّجات
الموجات الحادة وتمثل شبكة
CA1 إشارات
القيمة. وسنتناول في هذا الفصل نموذج المحاكاة
والاختيار الذي يُعَد توليفةً مركبة من هذه
النتائج.
نموذج المحاكاة والاختيار
الفكرة الأساسية التي يقوم عليها هذا النموذج
بسيطة: تولد شبكة
CA3
تسلسُلات أحداثٍ متنوِّعة بناءً على تفرعات
عصبية متكررة ضخمة أثناء الراحة والنوم
(المحاكاة) وتُعزز شبكة
CA1 على
نحو تفضيليٍّ التسلسُلات العالية القيمة بناءً
على النشاط العصبي المُعتمِد على القيمة
(الاختيار). بهذه الطريقة، ستُعزَّز تسلسلاتُ
النشاط العصبي التي تُمثل الأحداث والأفعال
العالية القيمة على نحوٍ تفضيلي بحيث يُحتمَل
أن يقع عليها الاختيار في المستقبل في ظل ظروفٍ
مماثلة. وسيسمح لنا هذا باتخاذ خياراتٍ أفضل في
المستقبل.
طرحت، بالتعاون مع زملائي، هذا النموذج في
عام ٢٠١٨.
1 وافترضنا من خلاله أن الحُصين
يُحاكي ويُعزز الأحداث والأفعال العالية القيمة
استعدادًا للمُستقبل بدلًا من مجرد تذكُّر ما
حدث في الماضي (طرح كثير من العلماء فكرة دور
الحُصين في التخطيط للمُستقبل؛ انظر ورقتنا
البحثية والمراجع الواردة فيها). افترضنا أيضًا
أن هذه الوظيفة التي يؤدِّيها الحُصين تُنفَّذ
في شبكة
CA3-CA1.
قد يبدو هذا غير فعَّال للوهلة الأولى؛ لأن
الإعداد للاختيارات المُثلى لا يتطلب شبكة
عصبية واحدة فقط، بل شبكتين. غير أن وجود
شبكتين تؤديان المحاكاة
(
CA3)
والاختيار
(
CA1) على نحو
مُنفصل يُتيح توليد وتقييم مجموعةٍ كبيرة من
الأحداث والأفعال، ستكون مُفيدةً للتحضير
مسبقًا لظروفٍ مستقبلية متنوعة. فإذا اعتمدنا
على شبكةٍ واحدة فقط لكلٍّ من المحاكاة
والاختيار، فسيقل تنوُّع الأحداث أو السلوكياتِ
المُحاكاةِ بصورةٍ ملحوظة. لقد شرحنا في ورقتنا
البحثية سبب اعتبارنا الحُصين جهازًا للمحاكاة
والاختيار وكيف يُمكن تنفيذ عملية المُحاكاة
والاختيار في دوائر
CA3-CA1
العصبية. وفيما يلي، سألخِّص الحجج الرئيسة
التي يقوم عليها النموذج.
شبكة CA3
كأداة محاكاة
لماذا نعتبر شبكة
CA3 جهاز
مُحاكاة؟ يلعب الحُصين دورًا في الخيال (انظر
الفصل الأول). كما أنه يولد تسلسلاتِ إطلاق
خلايا المكان التي تتوافق مع مساراتٍ مكانية
غير مطروقة في أثناء الراحة والنوم (انظر الفصل
الثالث). تُشير هذه النتائج إلى أن الحُصين
يولِّد تسلسلات نشاط جديدة. بعبارة أخرى،
يُحاكي تسلسلات أحداثٍ لم تُعَش.
في أي موضع من في الحُصين تتولَّد التسلسلات
التي تتمُّ محاكاتها؟ سيُشير أغلب العلماء إلى
CA3
باعتبارها المصدر؛ لأن خلايا
CA3
العصبية مُتصلة بواسطة تفرعات عصبية متكررة
ضخمة (انظر الشكل
٤-٢).
وعلى النقيض من ذلك، لا تحتوي
CA1 إلا
على تفرعات عصبية متكررة ضعيفة موجهة
طوليًّا.
2 ونظرًا لأن خلايا
CA1
العصبية مُترابطة بقوة، فإن تنشيط بعض خلايا
CA3
العصبية من المُرجَّح أن يُنشط خلايا أخرى
(الاستثارة الذاتية). ويتناسَب انتشار هذا
التنشيط المُتسلسل على نحوٍ جيد مع الإطلاق
المُتسلسل لخلايا المكان الذي يحدث تزامنًا مع
تموُّج موجي حاد أثناء النوم
والراحة (أي
عمليات إعادة التشغيل). وكما ذكرنا في الفصل
الرابع، تبدأ تموُّجات الموجة الحادة في
CA3
وتنتشِر إلى
CA1.
3 وتشير هذه النتائج مجتمعةً إلى أن
شبكة
CA3 هي
مصدر التسلسُلات التي تتم محاكاتها.
كيف إذن تولِّد شبكة
CA3
العصبية تسلسلات نشاطٍ جديدة أثناء تموجات
الموجة الحادة؟ لماذا لا تُكرر ببساطة تسلسلات
الإطلاق التي حدثت أثناء حالاتٍ نشطة سابقة؟
يعتقد العلماء أن شبكة
CA3
تُخزِّن ذكريات الأحداث المختبرة، مثل مسارات
التنقل، من خلال تغيير قوى الربط بين خلايا
CA3
العصبية (انظر الشكل
٤-٣).
غير أن العوامل التالية من شأنها أن تعمل ضد
تكرار نفس تسلسُلات النشاط التي ترصد أثناء
التنقُّل النشِط تحت ظروف الراحة أو النوم.
أولًا: لا يمكن الاعتماد على الاتصال المشبكي
الفردي بين خلايا المخ بسبب احتمال إطلاق
النواقل العصبية. فانتقال رسالة من خليةٍ عصبية
إلى أخرى مجرد احتمال فقط. ثانيًا: من
المُحتمَل أن تختلف حالة المخ اختلافًا جذريًّا
بين التنقُّل النشط وحالات الراحة السلبية. ففي
الجرذان، تسود التذبذُبات الإيقاعية بتردُّد
ثيتا أثناء التنقل النشط، ولكن التذبذبات
البطيئة والموجات الحادة هي السائدة أثناء
الحالات السلبية (انظر الشكل
٣-١). ثالثًا: يكون النشاط
العصبي المُثبط أقل أثناء الحالات السلبية
مقارنةً بالحالات النشطة. ولذلك، يبدو أن شبكة
CA3
العصبية تخضع لسيطرة أقل في الحالات السلبية.
رابعًا: قد تختلف المدخلات الحسِّية الواردة
اختلافًا كبيرًا بين التنقل النشط وحالات
الراحة أو النوم. أخيرًا، تعتبر
CA3 شبكة
مترابطة فيما بينها بواسطة كثيرٍ من المشابك
العصبية الضعيفة على المستوى الفردي، وليس عدد
قليل من المشابك العصبية القوية. ثمة سِمة غير
عادية لشبكة
CA3 وهي
العدد الهائل من التفرعات العصبية المتكررة.
كما استعرضنا في الفصل الرابع، تتلقَّى كل
خليةٍ عصبية استثارية في
CA3
مدخلاتٍ مشبكية من نحو اثني عشر ألف خلية عصبية
استثارية أخرى في شبكة
CA3، والتي
تُشكل نحو ٧٥ في المائة من إجمالي المدخلات
المشبكية التي تتلقَّاها (انظر الشكل
٤-٢). ولكن أظهرت الدراسات
الفسيولوجية أن المشابك العصبية المتفرعة
المتكررة ضعيفة على المستوى الفردي، وهو ما قد
يكون غير مفيد لتوليد تسلسلات نشاط عالية
الدقة.
خلاصة القول، نظرًا لأن شبكة
CA3 هي
شبكة مُترابطة داخليًّا بواسطة العديد من
المشابك العصبية الضعيفة، فإن حالة الشبكة
العصبية
CA3
تختلف اختلافًا كبيرًا بين الحالات النشِطة
والسلبية، وتختلف المدخلات الحسية الواردة
اختلافًا هائلًا بين حالات النشاط والنوم،
ويكون التنظيم المُثبط ضعيفًا أثناء الحالات
السلبية، فسيكون من الصعب تكرار نفس تسلسلات
الإطلاق التي تحدُث في أثناء التنقُّل النشط في
الحالات غير النشطة. وبالتبعية، فإن عمليات
التكرار التي تولدها
CA3 لن
تتكوَّن فقط من تسلسُلات مُختبرة، ولكن أيضًا
من تسلسلات لم تُختَبر. وفي هذا الصدد، قد تكون
العشوائية عنصرًا وظيفيًّا بالِغ الأهمية في
شبكة
CA3.
فستسمح للشبكة بتوليد مجموعةٍ كبيرة من
التسلسُلات غير المُختبرة (الجديدة)، والعمل
كآلة محاكاةٍ بدلًا من آلة ذاكرة عالية
الدقة.
4
شبكة CA1
كأداة اختيارٍ تعتمِد على القيمة
ماذا سيحدث لعمليات تكرار النشاط العصبي التي
تولَّد في شبكة
CA3؟
افترَض بعضُ الباحثين أن عمليات تكرار النشاط
العصبي الحُصيني سوف تُقيَّم في بِنى دماغية،
مثل المُخطط البطني والقشرة الجبهية الحجاجية،
المعروفتَين بأنهما تُعالجان الإشارات
المُرتبطة بالقيمة.
5 وهذا الافتراض يتماشى مع الرأي
السائد منذ زمنٍ بأن الحُصين يعالج بالأساس
المعلومات المكانية والمعرفية وليس المعلومات
المُرتبطة بالقيمة. غير أن النتائج التي
توصَّلنا إليها تُشير إلى أن شبكة
CA1
مُتخصصة في تمثيل القيمة. والنتيجة الطبيعية
المُترتبة على النشاط العصبي القوي المُرتبط
بالقيمة في شبكة
CA1 هي أن
الإشارات العصبية التي تنطلِق من شبكة
CA3 سوف
تُعالَج على نحوٍ مختلف في شبكة
CA1 وفقًا
للقيم المُرتبطة بها. بعبارةٍ أخرى، سوف تقوم
CA1 بتصفية
عمليات إعادة التشغيل التي تُولِّدها شبكة
CA3 وفقًا
للقِيم المُرتبطة بها. على سبيل المثال، قد
تمرر شبكة
CA1
على نحوٍ تفضيلي، عمليات إعادة التشغيل ذات
القيمة العالية، مثل تلك التي تتوافق مع
المسارات المكانية المؤدية إلى موقعٍ مُرتبط
بمكافآت، بينما تقوم بتصفية عمليات إعادة
التشغيل ذات القيمة المُنخفضة، مثل تلك التي
تتوافق مع المسارات المكانية المؤدية إلى موقعٍ
لا يرتبط بمكافآت. بالطبع، لا يُشير مصطلحا
«الاختيار» و«التصفية» هنا بأي حال من الأحوال
إلى عملية كل شيءٍ أو لا شيء. فالاحتمال الأرجح
هنا أن عمليات إعادة التشغيل في شبكة
CA3 ستمرُّ
عبر شبكة
CA1
مع زيادة القِيَم المرتبطة بها. من المفترَض أن
شبكة
CA3
تُولِّد عددًا ضخمًا من عمليات إعادة التشغيل
أثناء حالات الراحة والنوم. ونحن نفترِض أن
CA1 تُعالج
هذه التكرارات التي تولدها
CA3
بالتناسُب مع القيم المرتبطة بها بحيث تُختار
التكرارات ذات القيمة العالية وتُعزَّز على
نحوٍ تفضيلي.
لكي نفهم بالضبط كيف تسير عملية المُحاكاة
والاختيار في الدائرة العصبية
CA3-CA1،
فنحن بحاجةٍ إلى مقارنة كيفية تأثر تكرارات
أنماط النشاط العصبي التي تُولِّدها كل شبكة
CA3
و
CA1
بالقِيم المُرتبطة بها. لقد استكشفت دراسات
قليلة هذه المسألة، ولكن النتائج حتى الآن
تتَّسق مع نموذج المحاكاة والاختيار. على سبيل
المثال، يُعاد تنشيط خلايا المكان في شبكة
CA1 التي
تقع مجالات إطلاقها بالقُرب من موقع مكافأة،
على نحوٍ تفضيلي، أثناء تموُّجات الموجة الحادة
مقارنةً بتلك التي تقع مجالات إطلاقها بعيدًا
عن موقع مكافأة.
6 في المقابل، لا تُظهِر خلايا
المكان في شبكة
CA3 مثل
هذا التنشيط المُعتمِد على المكافأة أثناء
تموجات الموجة الحادة.
7 وحتى الآن لم تُقارن أي دراسات
أخرى بين اعتماد تكرارات أنماط النشاط العصبي
في كل من
CA3
و
CA1 على
المكافأة أو القيمة. ومع ذلك، أظهرت دراسات
عديدة مرارًا أن المكافأة تُسهِّل تكرار أنماط
النشاط العصبي في شبكة
CA1 لدى
الفئران.
8 أما لدى البشر، فيُعزَّز تخيل
الأحداث المستقبلية العرضية بالمكافأة، ويُعاد
تنشيط أنماط نشاط الحُصين لسياقات المكافأة
العالية على نحوٍ تفضيلي أثناء فترة الراحة
التي تعقب التعلم.
9 وتتوافق هذه النتائج على نحوٍ جيد
مع فرضية أن
CA3
تُولِّد إعادات تشغيل للتجارب مستقلة عن
قِيَمها، بينما تعالج
CA1 على
نحوٍ تفضيلي إعادات التشغيل العالية القيمة.
والنتيجة الوظيفية لهذه العملية واضحة. سيعمل
اختيار التسلسلات العالية القيمة على تعزيز
التمثيلات العصبية لتلك التسلسُلات، والتي يمكن
أن توجِّه الاختيارات المُثلى في
المستقبل.
التلفيف المُسنَّن
لقد تناولنا المفاهيم الأساسية لنموذج
المُحاكاة والاختيار. يمكن العثور على المزيد
عن تفاصيله، وخاصة تلك المتعلقة بالتنفيذ
العصبي البيولوجي لعملية المحاكاة والاختيار،
في الورقة البحثية التي نشرتُها مع زملائي في
عام ٢٠١٨.
10 لقد ركَّزنا على شبكتَي
CA3
و
CA1،
وأغفلنا التلفيف المُسنن، وهو مكوِّن آخر من
الدائرة الثلاثية المشبكيَّة الحُصينية. ما
الذي يفعله التلفيف المُسنن في عمل الحُصين؟
وكيف ترتبط وظيفته بعملية المحاكاة والاختيار
المُفترضة لشبكة
CA3-CA1؟
تعتبر نظرية «فصلُ الأنماطِ» في الوقت الحالي
النظريةَ الأشهر في سياق دور التلفيف المُسنن.
وترتبط هذه الفكرة بنظرية ديفيد مار القائلة
بأن شبكة
CA3
تُخزن الذاكرة الترابُطية (الشكل
٤-٣). والفكرة الأساسية لهذه
النظرية أن التلفيف المُسنن يُقسم أنماط
المدخلات المُتشابهة إلى أنماطٍ متمايزة بحيث
يُمكن لشبكة
CA3 تخزين
الكثير من الأنماط (الذكريات) بأقل قدْرٍ من
التدخل.
11 ولكن ليس واضحًا ما إذا كان من
المُمكن تطبيق هذه الفكرة على ذكريات التسلسلات
بدلًا من الأنماط الثابتة.
هناك أسباب أخرى تدعو إلى الشكِّ في أن فصل
الأنماط هو الوظيفة الرئيسة للتلفيف المُسنن.
فقد افترضتُ، بالاشتراك مع زميلي القديم جونج
وون لي، أن الوظيفة الأساسية للتلفيف المُسنن
هي ربط الإشارات الحسِّية المتنوِّعة معًا،
وتشكيل «سياق مكاني» بهذا الإجراء.
12 ويناقش الملحق الأول أيضًا هذه
المسألة بإيجاز. بعبارة مُبسطة، نحن نرى أن
الدائرة الثلاثية المشبكية للحُصين تؤدي ما
نُسميه «محاكاة واختيار الربط». فيسمح لنا
التلفيف المُسنن بالتعرُّف على موقعنا (سياقنا
المكاني) من خلال ربط إشاراتٍ حسِّية متنوعة
معًا، وتُجري شبكتا
CA3
و
CA1 معًا
عملية محاكاةٍ واختيارٍ لتعزيز التسلسلات
العالية القيمة في كلِّ سياقٍ مكاني.
الآثار المُترتبة على النموذج
إن نموذج المحاكاة والاختيار نظرية تنتظر
التحقُّق التجريبي. غير أنه يقدم تفسيرًا
مترابطًا منطقيًّا لنتائج لا يمكن تفسيرها
بسهولةٍ من خلال النظريات التقليدية. على سبيل
المثال، يُفسر النموذج لماذا يدخل الحُصين ليس
فقط في الذاكرة، ولكن أيضًا في الخيال، ولماذا
تكون الذاكرة عرضةً للتلفيق، ولماذا يُمثل
الحُصين القيمة، ولماذا يحتاج الحُصين إلى شبكة
CA1
بالإضافة إلى
CA3،
ولماذا تتشابه خصائص خلايا المكان عبر شبكتي
CA3
وCA1، وذلك
في إطار مُخطط بسيط للمحاكاة والاختيار.
بالإضافة إلى ذلك، يقدم النموذج وجهات نظر
جديدة بشأن العمليات العصبية التي تكمُن وراء
السلوك الموجَّه نحو الهدف وتوطيد
الذاكرة.
-
أولًا: يشرح النموذج عمليتَين
أساسيتَين للتنقل المكاني الموجَّه
نحو الهدف، وهما التمثيلات
المكانية وتمثيلات القيمة،
باستخدام آلية عصبية واحدة. من
المُفترض عمومًا أن التنقُّل
المكاني الموجَّه نحو الهدف مدعوم
بالمعلومات المكانية المُمَثَّلة
في الحُصين ومعلومات القيمة
المُمثلة في مكانٍ آخر في الدماغ.
غير أن كلًّا من المعلومات
المكانية ومعلومات القيمة تُمثَّل
في الحُصين في نموذج المحاكاة
والاختيار؛ ومن ثَمَّ، يمكن تفسير
التنقل المكاني الموجَّه نحو الهدف
من خلال عمليةٍ بسيطة للمحاكاة
والاختيار داخل الحُصين. ولا حاجة
لافتراض وجود نظامَين عصبيَّين
مُنفصلين مُخصَّصين للتنقُّل
المكاني ومعالجة القيمة.
-
ثانيًا: يقدم النموذج منظورًا جديدًا
لتوطيد الذاكرة. لقد تناولنا قضايا
ومناقشات حول توطيد الذاكرة في
الفصل الأول. ولكن يظل هناك غموض
حول أسباب وكيفية توطيد الذكريات
التي تشكَّلت في البداية لتصبح
ذكريات دائمة مع الوقت. يفترض
نموذج المحاكاة والاختيار أن توطيد
الذاكرة هو عملية إيجاد
استراتيجيات مثالية بناءً على
خبراتٍ سابقة وليس عملية تعزيز
للذكريات العرضية. وهذه النظرة
مختلفة جذريًّا عن النظريات
التقليدية لتوطيد الذاكرة.
«داينا»
ثمة تشابُه مُذهل بين توطيد الذاكرة كعملية
اختيار وتعزيز للخيارات القيِّمة للمُستقبل على
نحوٍ نشط، وبين إحدى خوارزميات التعلُّم الآلي
المعروفة. التعلُّم المُعزَّز، كما ذكرنا في
الفصل الخامس، هو فرع من فروع الذكاء الاصطناعي
يهدف إلى إيجاد خُطط عمل مثالية في بيئةٍ
مُتغيرة وغير مُستقرة. يختار الوكيل الإجراءات
بناءً على دوالِّ القيمة، ويقوم بتحديث دوال
القيمة بناءً على نتائج الإجراءات المُتَّخذة.
وتسمح هذه العملية التكرارية للوكيل بتتبُّع
دوال القيمة الحقيقية واتخاذ خيارات
تكيُّفية.
غير أن أحد عيوب هذا النهج القائم على
التجربة والخطأ هو عدم الكفاءة. إن تقريب دوال
القيمة الحقيقية يتطلَّب في كثيرٍ من الأحيان
عددًا هائلًا من المحاولات. وهذا يمثل مشكلة،
خاصة عندما تكون هناك حاجة إلى سلسلةٍ طويلة من
الإجراءات للوصول إلى الهدف النهائي. وسيكون من
الصعب معرفة ما إذا كان اختيار إجراءٍ مُعين
(س) في موقف (ص) ذا قيمة عالية أو قيمة منخفضة
إذا لم يُكشَف عن نتيجة اختيار هذا الإجراء في
هذا الموقف إلا بعد سلسلةٍ طويلة من الإجراءات.
وهذا يُفسر لماذا تُواجِه خوارزميات التعلم
المُعزَّز في العموم صعوبةً في إتقان لعبة
الفيديو «انتقام مونتيزوما»؛ حيث يتعين على
شخصية «بنما جو» أن تمر بالعديد من الخطوات قبل
الوصول إلى الوجهة، أو غرفة الكنز، في هرم
مونتيزوما.
أحد الحلول المقترحة للتغلُّب على هذه
الصعوبة هو إجراء عمليات محاكاة أثناء حالة عدم
الاتصال بالإنترنت لتكملةِ عملية تعلُّم القيمة
عن طريق التجربة والخطأ. تخيل مكنسة كهربائية
روبوتية تحاول إتقان طريقةٍ فعالة لتنظيف غرفة
مليئة بالأثاث. قد يستغرق العثور على أفضل
استراتيجية لتنظيف الغرفة وقتًا طويلًا إذا كان
ترتيب الأثاث مُعقدًا؛ إذ سيكون هناك عدد هائل
من المسارات المُحتملة لتغطية الأرضية بالكامل.
إذا اعتمدت المكنسة الكهربائية الروبوتية فقط
على تجارب التنظيف الفعلية، فقد يستغرق الأمر
شهورًا، أو حتى سنوات، لمعرفة أفضل استراتيجيةٍ
للتعامل مع الغرفة.
إحدى الطرق لحل هذه المشكلة هي تعلم دوال
القيمة من خلال محاكاة المسارات المُحتملة.
وهذه هي الفكرة الأساسية التي تقوم عليها
خوارزمية «داينا» التي طرحها ديفيد ساتون في
عام ١٩٩١.
13 تتعلم الخوارزمية دوال القيمة في
خطوتَين؛ أولًا: أثناء التفاعل مع البيئة
(التعلم بالتجربة والخطأ)، ثم من خلال محاكاة
الإجراءات وتقييم نتائجها (التعلم دون اتصال
بالإنترنت). في مثالنا، تتعلم المكنسة
الكهربائية الروبوتية دوال القيمة لمسارات
مكانية مختلفة من خلال التنظيف الفعلي ثم من
خلال المحاكاة دون حركةٍ فعلية. يمكن أن
يُسرِّع هذا إلى حدٍّ كبير معدل التعلم؛ إذ
يمكن للروبوت تقييم عدد هائل من التجارب دون
إجراء عملية التنظيف فعليًّا.
إن التشابه بين نموذج المحاكاة والاختيار
وخوارزمية داينا ملحوظ. فكلاهما يزيد معدل
تعلُّم القيمة عن طريق المحاكاة بناءً على
تجارب محدودة. قد تستغرق عملية تمثيل دوال
القيمة الدقيقة في بيئةٍ غير مستقرة وقتًا
طويلًا إذا اعتمدنا فقط على التعلُّم بالتجربة
والخطأ. وبطبيعة الحال، يُمكننا في النهاية
تعلم دوال القيمة الدقيقة إذا كانت البيئة
مستقرة. غير أن منافسيك، مثل الحيوانات
المفترسة المُحتملة، ليسوا بالطيبة الكافية
لينتظروك حتى تُمَثِّل دوال القيمة بدقة. إنها
غابة متوحِّشة هناك. علاوة على ذلك، غالبًا ما
تتغيَّر البيئات على نحوٍ ديناميكي. ومع التعلم
البطيء، قد لا تتخذ أبدًا خياراتٍ مثالية في
بيئة ديناميكية؛ لأن البيئة (وبالتبعية دوال
القيمة الحقيقية) قد تتغير قبل أن تُتقنها.
لنفترض أن الأمر يستغرق عامًا كاملًا حتى يُتقن
الروبوت أفضل استراتيجية تنظيف لغرفة ما عن
طريق التجربة والخطأ. لنفترض أيضًا أن سكان
الغرفة وترتيب الأثاث يتغيَّران كل ثلاثة أشهر.
إذا كان الأمر كذلك، فلن يتمكن الروبوت أبدًا
من تنظيف الغرفة بأكبر قدْر من الكفاءة. ويمكن
حلُّ هذه المشكلة باستخدام المحاكاة والاختيار
لتسريع عملية التعلم.