الفصل السادس

مراحل الرؤية

شبكات نيوكوجنيترون والشبكات العصبية الالتفافية

مشروع الرؤية الصيفي هو محاولة للاستفادة من عمالتنا الصيفية بطريقةٍ فعالة، في بناء جزءٍ مهم من النظام البصري. وقع الاختيار على هذه المهمة المحددة جزئيًّا؛ لأنه يمكن تقسيمها إلى مسائل فرعية، وهو ما سيسمح للأفراد بالعمل بشكلٍ فردي، وفي الوقت نفسه سيتيح لهم المشاركة في بناء نظام مركَّب بما يكفي، ليكون علامة مميزة في تطوُّر «التعرُّف على الأنماط».

مذكرة الرؤية رقم ١٠٠ من مجموعة الذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا، عام ١٩٦٦
كان من المقدَّر أن يكون صيف عام ١٩٦٦ هو الصيف الذي تحلُّ فيه مجموعةٌ من الأساتذة في معهد ماساتشوستس للتكنولوجيا، مشكلةَ الرؤية الاصطناعية. كانت «العمالة الصيفية»، التي خطط هؤلاء لاستخدامها بكفاءة لهذا المشروع، عبارة عن مجموعة مكوَّنة من ١٢ طالبًا جامعيًّا أو نحو ذلك. في المذكرة التي تستعرض خطة المشروع، قدَّم الأساتذة العديد من المهارات المحددة التي أرادوها في نظام الكمبيوتر الذي يطوِّره الطلاب. لا بد أن يكون قادرًا على تحديد الملمس والإضاءة في الصورة، وتحديد الأجزاء الموجودة في مقدمة الصورة، وفصلها عن الأجزاء الموجودة في الخلفية، وتحديد أي عناصر موجودة. وَصَف أحد الأساتذة١ الأهداف، بطريقة أكثر تلقائية، على أنها «ربط الكاميرا بالكمبيوتر، وجعل الكمبيوتر يصِف ما يراه».

لم تكتمل أهداف هذا المشروع ذلك الصيف. ولا الصيف الذي يليه. ولا بعد ذلك بعدة سنوات. بعض المشكلات الأساسية التي طُرحت في وصف المشروع الصيفي ظلت مسائل قائمة إلى يومنا هذا. لم تكن الغطرسة الظاهرة في تلك المذكرة مثيرةً للدهشة في ذلك الوقت. فكما ناقشنا في الفصل الثالث، شهدت فترة ستينيات القرن العشرين طفرة في القدرات الحاسوبية، وهي التي أدَّت بالتبعية إلى رفع سقف الآمال الساذجة، حول أَتْمَتَة حتى لأكثر المهام تعقيدًا. لو كان بإمكان أجهزة الكمبيوتر فعلُ أي شيءٍ يُطلب منها الآن، لكان الأمر سيتعلق بمعرفة ما يتعين طلبه فحسب. بتناول شيء بسيط وفوري مثل عملية الرؤية، ما مدى صعوبة فعل هذا؟

الإجابة صعبة للغاية. عملية المعالجة البصرية — من خلال دخول الضوء إلى أعيننا واستيعاب العالم الخارجي الذي يعكسه الضوء — تُعد عملية معقدة للغاية. بعض العبارات الشائعة مثل «أمام عينَيك مباشرة» أو «على مرأى الجميع» تُعد خادعة؛ إذ تزعم أن عملية الرؤية تحدث دونَ مجهود. فهي تطمس التحديات البارزة التي تقف في وجه حتى المدخلات البصرية الأساسية بالنسبة إلى الدماغ. أيُّ تصور لعملية الرؤية على أنها عملية بسيطة هو مجرد وَهْم، تكوَّن لدينا بصعوبةٍ على مدار ملايين السنين من التطور.

تُعد مسألة الرؤية مسألة مشابهة جدًّا للهندسة العكسية. في مؤخرة العين، أي الشبكية، توجد صفيحة مسطحة من الخلايا تُسمى مستقبلات ضوئية. هذه الخلايا حساسة للضوء. كل خلية توضِّح ما إذا كان هناك ضوء يضربها أم لا (وربما تشير إلى الطول الموجي) في كل لحظة من خلال إرسال إشارة في صورة نشاط كهربي. هذا النمط من النشاط المتأرجح ثنائي الأبعاد يمثِّل المعلومات الوحيدة التي يُسمَح للدماغ من خلالها بإعادة بناء العالم ثلاثي الأبعاد أمامه.

بل إن أمرًا ببساطةِ إيجاد كرسي في غرفة هو مسعًى شاقٌّ عمليًّا. يمكن أن تكون الكراسي بأشكال وألوان عديدة. ويمكنها أيضًا أن تكون في الجوار أو بعيدة، وهو ما يجعل انعكاسها على الشبكية أكبر أو أصغر. هل الإضاءة ساطعة في الغرفة أم معتِمة؟ ما الاتجاه الذي يأتي منه الضوء؟ هل يتجه الكرسي نحوك أم بعيدًا عنك؟ كل هذه العوامل تؤثر على الطريقة الدقيقة التي تصطدم بها فوتونات الضوء بالشبكية. لكن تريليونات من أنماط الضوء المختلفة قد تعني الشيء نفسه في النهاية، وهو أن الكرسي هناك. بطريقة ما، يجد النظام البصري طريقة للتعامل مع مسألة ربط العديد من قيم المدخلات بالمخرَج نفسه في أقل من عُشر ثانية.

في الوقت الذي كان طلاب معهد ماساتشوستس للتكنولوجيا يعملون من أجل منح أجهزة الكمبيوتر هِبةَ الإبصار، كان علماء وظائف الأعضاء يستخدمون أدواتهم الخاصة لحل ألغاز عملية الإبصار. بدأ هذا بتسجيل النشاط العصبي من الشبكية، وانتقل إلى الخلايا العصبية في أنحاء الدماغ. ونظرًا إلى أن ما يُقدَّر بنحو ٣٠ في المائة من القشرة الدماغية للرئيسيات يلعب دورًا ما في المعالجة البصرية، لم تكن هذه بالمهمة الصغيرة.٢ في منتصف القرن العشرين، كان العديد من العلماء الذين يقومون بهذه التجارب يستقرون في منطقة بوسطن (العديد منهم في معهد ماساتشوستس للتكنولوجيا أو شَماله مباشرة، في هارفارد) وكانوا يجمعون الكثير من البيانات التي يحتاجون إليها لفَهْمها بطريقة ما أو بأخرى.

ربما يرجع التعاون بين علماء الأعصاب وعلماء الكمبيوتر إلى التقارب المادي بينهما. وربما كان هذا اعترافًا ضمنيًّا بالتحدي الهائل الذي وضعه كل طرف لنفسه. وربما كانت المجتمعات في الأيام الأولى أصغر من أن تنعزل وتخلو إلى نفسها. أيًّا كان السبب وراء ذلك، فقد صاغ علماء الأعصاب وعلماء الكمبيوتر تاريخًا طويلًا من التعاون في محاولاتهم لفهم الأسئلة الأساسية الخاصة بالرؤية. كان لدراسة الرؤية — كيفية إيجاد أنماط في نقاط من الضوء — من الناحية البيولوجية تأثيرٌ كبيرٌ على مجال الذكاء الاصطناعي، والعكس صحيح. إلا أن هذا التناغُم لم يَسِر على وتيرةٍ واحدة؛ فعندما شرع علم الكمبيوتر في الاستعانة بطرقٍ مفيدةٍ لكنها لا تشبه الدماغ، تباعد المجالان. وعندما تعمَّق علماء الأعصاب في التفاصيل الجوهرية للخلايا؛ في المواد الكيميائية والبروتينات التي تنفِّذ الرؤية البيولوجية، اتَّسعت المسافة بينهم وبين علماء الكمبيوتر أكثر. لكن آثار التأثير المتبادل لا يمكن إنكارها، ويمكن رؤيتها بوضوحٍ في أحدث النماذج والتقنيات.

•••

جاءت المحاولات الأولى لأتمتة عملية الرؤية قبل أجهزة الكمبيوتر الحديثة. وعلى الرغم من تنفيذ هذه الأفكار في صورة أدوات ميكانيكية، فإن بعض الأفكار التي شغَّلت هذه الآلات هيأت المجال للظهور اللاحق للرؤية الحاسوبية. تمثَّلت إحدى هذه الأفكار في «المطابقة بالقوالب».

في عشرينيات القرن العشرين، شرع الكيميائي والمهندس الروسي إيمانويل جولدبرج في حل مشكلةٍ كانت تواجه البنوك والمكاتب الأخرى، أثناء البحث في أنظمة الملفات للوثائق الخاصة بها. في ذلك الوقت، كانت المستندات مخزَّنة على ميكروفيلم — شريط فيلمي بمقاس ٣٥ ملم، يحتوي على صُوَر دقيقة لمستندات يمكن عرضها على شاشة أكبر للقراءة — ترتيب المستندات على الشريط الفيلمي لم يكُن له علاقةٌ بمحتواها؛ ومن ثَم فإن العثور على المستند المطلوب — كشيكٍ مُلغًى من عميل بنكٍ معيَّن — انطوى على الكثير من البحث غير المنظم. اتجه جولدبرج إلى شكل خام أو بدائي من «معالجة الصُّوَر» لأتمتة هذه العملية.

بموجب خطة جولدبرج، تعيَّن على الصرَّافين الذين يُدخلون شيكًا جديدًا إلى نظام تخزين الملفات تمييزُه برمزٍ محدد يشير إلى محتوياته. على سبيل المثال، ثلاث نقاط سوداء في صفٍّ كانت تعني أن اسم العميل يبدأ بحرف الألف، وثلاث نقاط على شكل مثلث كانت تعني أن الاسم يبدأ بحرف الباء، وما إلى ذلك. إذن، إذا أراد صرَّافٌ إيجاد آخر شيك سلَّمه السيد بيركشاير، على سبيل المثال، فما عليه إلا إيجاد شيك موسوم بمثلث. وبهذا كان نمط المثلث هو القالب وكان هدف جهاز جولدبرج هو مطابقته.

ماديًّا، أخذت هذه القوالب شكل بطاقات بها ثقوب. لذا، عند البحث عن مستندات السيد بيركشاير، سيأخذ الصرَّاف البطاقة التي تحتوي على ثلاثة ثقوبٍ على شكل مثلث، ويضعها بين شريط الميكروفيلم وضوء المصباح. سيُسحَب كل مستند لمطابقته بالبطاقة، لجعل الضوء يسقط على الثقوب الموجودة على البطاقة، ثم يسقط على الفيلم نفسه. تكتشف خليةٌ ضوئية مثبَّتة خلف الفيلم أيَّ ضوء يمر من خلال الثقوب، وتُرسِل إشاراتٍ إلى بقية الجهاز. بالنسبة إلى معظم المستندات سيمُر بعض الضوء؛ لأن الرموز الموجودة على الفيلم لا تتطابق مع الثقوب الموجودة على البطاقة. لكن، عندما يظهر المستند المطلوب، فإن الضوء الساطع فوق البطاقة سيحجبه نمط النقاط السوداء على الفيلم تمامًا. حجب النقاط السوداء الصغيرة للضوء يعني عدم سقوط أي ضوء على الخلية الضوئية، وهذا يوضح لبقية الجهاز وللصراف أنه عُثِر على المستند المطابق.

تطلَّب منهج جولدبرج أن يعرف الصرَّاف مقدمًا الرمز الذي يبحث عنه بالضبط، ويحصل على البطاقة التي تطابقُه. على الرغم من بدائية أسلوب المطابقة هذا، فإنه أصبح المنهج السائد في جانبٍ كبير من تاريخ الرؤية الاصطناعية. عندما ظهرت أجهزة الكمبيوتر في المشهد، انتقلت القوالب من الصورة المادية إلى الصورة الرقمية.

في الكمبيوتر، تُمثَّل الصورُ على هيئة شبكة من قِيَم البِكسِل. كل قيمة من قيم البكسل عبارة عن عدد يشير إلى كثافة اللون في المنطقة المربعة الصغيرة التي تمثلها القيمة في الصورة.٣ في العالم الرقمي، القالب أيضًا عبارة عن شبكة من الأعداد تحدد النمط المطلوب. لذا فإن القالب الخاص بثلاث نقاط على شكل مثلث قد يكون شبكة مكونة في أغلبها من الأصفار، باستثناء ثلاثة بكسلات بالقيمة واحد موضوعة بدقة. استُبدل دور الضوء الساطع الذي يمر عبر البطاقة القالب في جهاز جولدبرج، وحل محله في الكمبيوتر عملية حسابية، وهي الضرب. إذا ضُربت كل قيمة من قيم البكسل في الصورة في القيمة الموجودة في الموضع نفسه في القالب، فستخبرنا النتيجة بما إذا كانت الصورة مطابِقة للقالب أم لا.
fig14
شكل ٦-١

لِنقُل إننا نبحث عن وجه مبتسم في صورة باللَّونَين الأبيض والأسود (حيث تكون قيمة وحدات البكسل المقابلة للون الأسود واحدًا، وقيمة وحدات البكسل المقابلة للون الأبيض صفرًا). بإعطائنا قالبًا للوجه، يمكننا مقارنته بالصورة من خلال عملية الضرب. إذا كانت الصورة بالفعل تحتوي على الوجه الذي نبحث عنه، فإن القيم التي يتكوَّن منها القالب ستكون مشابهةً جدًّا للقيم الموجودة في الصورة. ومن ثم، ستُضرب الأصفار الموجودة في القالب في الأصفار الموجودة في الصورة، كما ستُضرب القيم المساوية للواحد في القالب في القيم المساوية للواحد في الصورة. وعند جَمْع القيم الناتجة من هذا الضرب، نحصل على عدد وحدات البكسل السوداء التي تتطابق في كلٍّ من القالب والصورة، وهي ستكون في هذه الحالة كثيرة. إذا كانت الصورة المعطاة لنا لوجه عابس بدلًا من ذلك، فإن بعض وحدات البكسل الموجودة عند الفم في الصورة لن تتطابق مع القالب. في هذه الحالة، ستُضرب الأصفار في القيم المساوية للواحد في الصورة والعكس صحيح. ونظرًا لأن حاصل الضرب في مواضع وحدات البكسل هذه سيساوي صفرًا، لن يكون عدد وحدات البكسل السوداء التي تتطابق في كلٍّ من القالب والصورة كبيرًا. بهذه الطريقة، فإن عملية الجمع البسيطة لوحدات البكسل الناتجة عن الضرب تَقيس مدى تطابق الصورة والقالب.

حظِيَت هذه الطريقة باستخدام واسع النطاق في العديد من الصناعات المختلفة. استُخدِمت القوالب لمعرفة عدد الأشخاص الموجودين في حشد، من خلال التعرُّف على الوجوه في صورة. حُددت مواقع المعالم الجغرافية المعروفة في صور الأقمار الاصطناعية من خلال القوالب. يمكن تتبُّع رقم السيارة التي تمر عبر أحد التقاطعات وطرازها أيضًا. من خلال المطابَقة بالقوالب، كل ما يتعيَّن علينا فعله هو تحديد ما نريده، وستخبرنا عملية الضرب بما إذا كان هناك تطابُقٌ أم لا.

•••

تخيَّل ملعبًا — كالذي تُشاهد فيه مباريات كرة القدم — لكن في هذا الملعب، بدلًا من وجود جماهير تصيح، تمتلئ المدرجات بشياطينَ تصيح. لكن ما يهتفون من أجله ليس لاعبين في أرضية الملعب، وإنما صورة. على وجه التحديد، كلٌّ من هذه الشياطين له حَرف مفضَّل من الحروف الأبجدية، وعندما يرى شيئًا يشبه هذا الحرف في أرضية الملعب يهتف. وكلما كان الهتاف أعلى كانت الصورة الموجودة في أرضية الملعب مشابهة للحرف المفضل للشيطان. في المقصورة العليا يوجد شيطان آخر. هذا الشيطان لا ينظر إلى الملعب ولا يهتف بنفسه، لكنه فقط يلاحظ الشياطين الأخرى في المدرَّج. دوره هو تحديد الشيطان الذي يهتف بأعلى صوت، ويقرر أنه لا بد أن الصورة الموجودة في أرضية الملعب هي الحرف المفضل لدى الشيطان.

هكذا وصف أوليفر سيلفريدج عملية المطابقة بالقالب في مؤتمر عُقد عام ١٩٥٨. كان سيلفريدج عالم رياضيات، وعالم كمبيوتر، ومديرًا مساعدًا في مختبرات لينكولن في معهد ماساتشوستس للتكنولوجيا، وهو مركز بحثي يركز على تطبيقات الأمن القومي التكنولوجية. لم ينشر سيلفريدج الكثير من الأوراق البحثية بنفسه. كما أنه لم يستكمل قَطُّ أطروحة الدكتوراه الخاصة به (بدلًا من ذلك، انتهى به الأمر بكتابة العديد من كتب الأطفال، من المفترض أنها تحتوي على عدد أقل من الشياطين). على الرغم من قِلة إنتاجه الأكاديمي، تسللت أفكاره إلى المجتمع البحثي على نحوٍ كبير بفضل دوائر علاقاته. بعد حصول سيلفريدج على درجة البكالوريوس في الرياضيات من معهد ماساتشوستس للتكنولوجيا، وهو لا يزال في التاسعة عشرة من عمره، أشرف عليه في أبحاث الدكتوراه عالم الرياضيات البارز نوربرت وينر وظل على تواصُل معه. واصل سيلفريدج أيضًا الإشراف على مارفن مينسكي، الباحث البارز في مجال الذكاء الاصطناعي الذي تناولناه في الفصل الثالث. عندما كان سيلفريدج طالبَ دراسات عليا، كان صديقًا لوارن ماكولك، وعاش فترةً مع والتر بيتس (ستتذكر عالِمَي الأعصاب هذَين من الفصل الثالث أيضًا). استفاد سيلفريدج من جَعْل أفكاره تختلط بأفكار العلماء البارزين المحيطين به؛ كي تنضُج وتتطور.

لربط تشبيه سيلفريدج الفريد من نوعه بمفهوم المطابقة بالقالب، ما علينا إلا اعتبار كل شيطان يحمل شبكة من الأعداد التي تمثِّل شكل الحرف الذي يفضله. ويضرب الشبكة التي يحملها في الصورة، وتجمع حواصل الضرب (على النحو الموصوف أعلاه) ويهتف بدرجة صوت يحددها المجموع. لم يقدم سيلفريدج تفسيرًا وافيًا لسبب اختياره لهذا الوصف الشيطاني للمعالجة البصرية. تعليقه الوحيد على ذلك جاء على النحو الآتي: «لن نعتذر بشأن الاستخدام المتكرر لمصطلحات تفيد التشخيص والتجسيد. فهذه المصطلحات تساعدنا على وصف أفكارنا».٤
معظم الأفكار التي وردت في العرض التقديمي لسيلفريدج كانت بالفعل حول كيف أن منهج المطابقة بالقالب كان مشُوبًا بالعيوب. فالشياطين — التي كان كلٌّ منها يتحقَّق بشكلٍ فردي مما إذا كان حرفُه المفضل يظهر في الصورة الموجودة في أرضية الملعب أم لا — لم تكن على درجةٍ كبيرةٍ من الكفاءة. أجرى كلٌّ منهم عملياتِه الحسابية المنفصلة تمامًا، إلا أنه لم يكن من الضروري أن يسير الأمر على هذا النحو. العديد من الأشكال التي قد ينظر إليها الشيطان أثناء بحثه عن الحرف المفضَّل لديه؛ قد تستخدمها شياطينُ أخرى. على سبيل المثال، الشيطان الذي يفضل حرف A وذلك الذي يفضل حرف H سيبحثان عن شكل الشرطة الأفقية. إذن، لم لا نقدِّم مجموعةً منفصلةً من الشياطين تطابق قوالبهم وصرخاتهم سماتٍ أساسيةً أكثر للصورة؛ مثل النقاط والشرطات الأفقية والخطوط الرأسية والخطوط المائلة … إلخ. وبذلك ستستمع الشياطين التي تفضل أحرفًا محددة للشياطين في هذه المجموعة، بدلًا من النظر إلى الصور بأنفسهم، ثم تحدد مقدار الهتاف الذي ستُطلقه بناءً على ما إذا كان يُصاح بالأشكال الأساسية المكونة لحرفها المفضَّل أم لا.
من الأسفل للأعلى، حدد سيلفريدج نمطًا جديدًا للملعب يحتوي على ثلاثة أنواع من الشياطين: «الحاسوبية» (تلك التي تنظر للصورة وتهتف بالأشكال الأساسية)، و«المعرفية» (تلك التي تستمع إلى الشياطين الحاسوبية وتهتف بالأحرف)، و«صانع القرار» (وهو الشيطان الذي يستمع إلى الشياطين الإدراكية ويقرر الحرف الموجود). الاسم الذي أعطاه سيلفريدج لهذا النموذج — هذه الشياطين الهاتفة المُكدَّسة — اسم «بنديمونيوم» (عاصمة الجحيم).٥

بصرف النظر عن هذه التسمية الشائنة، فإن أفكار سيلفريدج البديهية حول المعالجة البصرية قدمت نظرة متعمقة. على الرغم من أن المطابقة بالقالب من الناحية المفاهيمية تُعد بسيطة، فإنها عمليًّا صعبة. يزداد عدد القوالب اللازمة مع زيادة عدد العناصر التي تريد أن تكون قادرًا على التعرف عليها. إذا وجبت مقارنة كل صورة بكل مرشح، فهذا يعني الكثير من العمليات الحسابية. علاوة على ذلك، لا بد أن تكون القوالب مطابقة تقريبًا للصورة. لكن نظرًا لأن هناك عددًا ضخمًا من أنماط الضوء التي قد يكوِّنها الجسم الواحد، وتلتقطها شبكية العين أو عدسة الكاميرا، من المستحيل تقريبًا معرفة الشكل الذي لا بد أن يبدو عليه كل بِكسِل عند وجود جسم معين. هذا يجعل تصميم القوالب عمليةً في غاية الصعوبة لأي نمط فيما عدا الأنماط الأبسط.

هذه المشكلات تجعل من طريقة المطابقة بالقالب تمثِّل تحدِّيًا لكلٍّ من الأنظمة البصرية الاصطناعية والدماغ. لكن الأفكار التي عُرضت في نموذج «بنديمونيوم» تُمثِّل منهجًا أوسع نطاقًا من حيث التوزيع، وأكثر مشاركة، والسبب في ذلك هو أن الميزات التي تحددها الشياطين الحاسوبية تشترك مع شياطين الإدراك. هذا المنهج هرمي أيضًا. أي إن نموذج «بنديمونيوم» يُقسِّم مسألة الرؤية إلى مرحلتَين؛ أولًا: النظر إلى الأشياء البسيطة، ثانيًا: النظر إلى الأشياء الأكثر تعقيدًا.

معًا، تجعل هذه الخواصُّ النظام أكثر مرونة بشكل عام. إذا كان النموذج مُعَدًّا للتعرف على النصف الأول من الأحرف الأبجدية، على سبيل المثال، فسيكون في وضع جيد يتيح التعرُّف على البقية. ويرجع ذلك إلى أن الشياطين الحاسوبية الموجودة في المستوى الأدنى ستكون بالفعل على دراية بأنواع الأشكال الأساسية التي تتكون منها الأحرف. الشيطان المعرفي الذي يبحث عن حرف جديد لن يتعيَّن عليه سوى تحديد الطريقة الصحيحة للاستماع إلى الشياطين في المستوى الأدنى. بهذه الطريقة، تعمل السمات الأساسية بوصفها مجموعةً من المفردات — أو أحجار الأساس — التي تُدمج معًا ويُعاد دمجها لاكتشاف أنماط معقدة إضافية. من دون هذه البِنية الهرمية ووجود سمات أساسية مشتركة بين الأحرف في المستوى الأدنى من النموذج، سيتعين على منهج المطابقة بالقوالب إنتاج قالب جديد لكل حرف من البداية.

طرَح تصميم «بنديمونيوم» بعض الأسئلة. على سبيل المثال، كيف يعرف كل شيطان حاسوبي الشكل الأساسي الذي سيهتف به؟ وكيف ستعرف الشياطين المعرفية لمن سيتعيَّن عليها الاستماع؟ اقترح سيلفريدج أن النظام يتعلم إجابات هذه الأسئلة من خلال المحاولة والخطأ. على سبيل المثال، إذا أسفر تعديل الكيفية التي يستمع بها الشيطان المحب للحرف A إلى الشياطين الموجودة أسفله؛ عن تمكينه من التعرُّف على الحرف A، فإنه يُبقي على هذه التغييرات، وبخلاف ذلك لا يفعل، وإنما يجرب شيئًا جديدًا. أو إذا كانت إضافة شيطان حاسوبي ليهتف بنمط أساسي جديد تُحسِّن من أداء النظام بالكامل في التعرُّف على الأحرف، فإن هذا الشيطان الجديد يبقى، وبخلاف ذلك يُستبعد. هذه عملية شاقَّة بالفعل، كما أن نجاحها ليس مضمونًا، لكن عند نجاحها يكون لها التأثير المرغوب فيه، المتمثل في تكوين نظامٍ مخصصٍ — تلقائيًّا — لنوع العناصر التي يتعيَّن عليه التعرُّف عليها. الخطوط والعلامات التي تتكون منها الرموز في الأبجدية اليابانية، على سبيل المثال، تختلف عن تلك التي تتكون منها الأبجدية الإنجليزية. النظام الذي يتعلم سيكتشف الأنماط الأساسية المختلفة لكلٍّ منها. لن تكون هناك حاجة لمعرفة مُسبقة أو متخصصة، كل ما عليك فعله هو أن تدع النموذج يتولى المهمة.

انبهر عالم الكمبيوتر ليونارد أور بأفكار سيلفريدج وزملائه، لدرجة أنه أراد أن ينشر عملهم على نطاقٍ واسع. ففي عام ١٩٦٣ كتب في دورية «سايكولوجيكال بوليتين» لجمهور من علماء النفس حول الخطوات الواسعة التي خطاها علماء الكمبيوتر، والتقدم الذي أحرزوه بشأن نظام الرؤية في الكمبيوتر. في مقالة له بعنوان ««التعرُّف على الأنماط» أجهزة الكمبيوتر باعتبارها نماذج لتصور الأشكال»، أشار إلى أن نماذج العصر وصلت إلى مرحلةٍ يمكنها فيها اقتراح تجارب فسيولوجية ونفسية، حتى إنه حذَّر من أنه «سيكون من المؤسف ألَّا يلعب علماء النفس أي دورٍ في هذا التطور النظري لعلمهم.» هذه المقالة بمثابة دليلٍ مادي على العلاقة المتشابكة الموجودة بين المجالَين على الدوام. إلا أنه لم تكن هناك حاجةٌ دائمًا لمثل هذه المناشدات الصريحة من أجل التعاون. في بعض الأحيان كانت العلاقات الفردية كافيةً بين أشخاصٍ من المجالَين.

كان جيروم ليتفين عالمَ أعصاب وطبيبًا نفسيًّا من شيكاغو، إلينوي. كان أيضًا صديقًا لسيلفريدج؛ بحكم أنه كان يشاركه وبيتس المنزل أثناء شبابه. أراد ليتفين، الذي كان يصف نفسه ﺑ «القذر زائد الوزن»، أن يصبح شاعرًا، لكنه أصبح طبيبًا نزولًا عند رغبة أمه. كان أقصى عمل متمرد أقدم عليه هو ترك ممارسة الطب من حين لآخر؛ من أجل الانخراط في البحث العلمي.

في خمسينيات القرن العشرين، عزم ليتفين — الذي تأثَّر بالعمل الذي أسهم به صديقه وشريكُه في السكن — على البحث عن الخلايا العصبية التي استجابَت للسمات الأساسية — أي الأشياء التي تهتف بها الشياطين الحاسوبية. الحيوان الذي اختار دراسته هو الضفدع. تستخدم الضفادع حاسة الإبصار في الغالب لإصدار استجاباتٍ انعكاسية سريعة للفريسة أو المفترسات، ومن ثم فإن نظامها البصري بسيط نسبيًّا.

داخل الشبكية، ترسل المستقبلات الضوئية الكاشفة للضوء معلوماتها لمجموعة أخرى من الخلايا تُسمى الخلايا العقدية. كل مستقبلٍ ضوئي يتصل بالعديد من الخلايا العقدية، وكل خلية عقدية تحصل على مدخلاتٍ من العديد من المستقبلات الضوئية. لكن بشكل حاسم، كل هذه المدخلات تأتي من منطقة محدودة من الفراغ. هذا يجعل الخلية العقدية الواحدة لا تستجيب إلا للضوء الذي يدخل إلى الشبكية في موضع محدد، وكل خلية لها موضع مفضل خاص بها.

عند هذه المرحلة، لم يُفترض أن تؤدي الخلايا العقدية الكثير من العمليات الحسابية بنفسها. فقد كانت تُعتبر بمثابة مُرحِّل؛ كل ما تفعله هو إرسال المعلومات بشأن نشاط المستقبل الضوئي إلى الدماغ مثل ساعي البريد. كانت مثل هذه الصورة تتناسب مع المعالجة البصرية من منظور المطابقة بالقوالب. فإذا كان دور الدماغ هو مقارنة المعلومات البصرية الواردة من العين بمجموعة من القوالب المخزنة، فلن يرغب في أن تُشوَّه هذه المعلومات بأي طريقةٍ من جانب الخلايا العقدية. أما إذا كانت الخلايا العقدية جزءًا من تسلسل — حيث يلعب كل مستوًى دورًا صغيرًا في التعرف النهائي على العناصر المعقَّدة — فلا بد أن تكون هذه الخلايا متخصصة في تحديد الأنماط البصرية الأولية أو الأساسية. وبدلًا من ترحيل المعلومات كما هي تمامًا، يتعين عليها معالجة هذه المعلومات وإعادة تقديمها.

وجد ليتفين — من خلال تسجيل نشاط هذه الخلايا العقدية، وعرض جميع أنواع الأجسام المتحركة والأنماط على الضفدع — أن نظرية التسلسل الهرمي صحيحة. في الواقع، في ورقة بحثية نُشرت عام ١٩٥٩ تحت عنوان «ما تقوله عين الضفدع لدماغه»، وصف ليتفين والمؤلفون المشاركون في الورقة أربعة أنواع مختلفة من الخلايا العقدية، يستجيب كلٌّ منها لنمطٍ بسيط مختلف. بعضها استجاب للحركات الكبيرة السريعة، وبعضها استجاب عند تحول الضوء إلى ظلام، وبعضها استجاب للأجسام المنحنية التي لها حركة مشوشة وغير منتظمة. فئات الاستجابة هذه أثبتَت أن الخلايا العقدية مصممةٌ خصوصًا للتعرُّف على مختلف الأنماط الأساسية. لم تتَّسق هذه النتائج مع ملاحظات سيلفريدج الخاصة بكواشف السمات الأساسية فحسب؛ بل دعمت الفكرة التي تفيد بأن هذه السمات تختص بنوع محدد من العناصر التي يحتاج النظام إلى التعرُّف عليها. على سبيل المثال، الفئة الأخيرة من الخلايا استجابت بطريقةٍ أفضل، عندما تحرك جسم صغير قاتم بسرعة وعلى نحوٍ متقطع على خلفية ثابتة. بعد وصف ذلك في الورقة البحثية، علَّق ليتفين بالآتي: «هل يمكن للمرء أن يصف بشكلٍ أفضل نظامًا لاكتشاف خطأ يمكن الوصول إليه؟»

كانت أفكار سيلفريدج تثبت أنها صحيحة. ومع النتيجة التي توصل إليها ليتفين في الضفادع، بدأ مجتمع العلماء والباحثين في تصور الجهاز البصري، باعتباره مجموعةً من الشياطين أكثر من تصوُّره على أنه مخزن من البطاقات القوالب.

•••

بالتزامن مع عمل ليتفين تقريبًا، كان هناك طبيبان في مدرسة الطب بجامعة جونز هوبكينز في مدينة بَالْتِيمور يستكشفان نظام الرؤية لدى القطط. النظام البصري لدى القطط أقرب إلى نظامنا البصري، إذا ما قُورن بالنظام البصري للضفادع. فهو مكلَّف بمسائل صعبةٍ تتعلق بتتبُّع الفريسة والتنقُّل في البيئة؛ ومن ثم فهو أكثر تعقيدًا. وعليه، فإن عمل النظام البصري يمتد ليشمل العديد من مناطق الدماغ، والمنطقة التي ركَّز عليها الطبيبان ديفيد هوبل٦ وتورستن فيزل هي القشرة البصرية الأولية. تُمثِّل هذه المنطقة الموجودة في مؤخرة الدماغ واحدة من المراحل المبكرة للمعالجة البصرية في الثدييات؛ فهي تتلقى المدخلات من منطقة أخرى — المهاد — وهي تحصل بدورها على المدخلات من الشبكية نفسها.

عكفت الجهود البحثية السابقة على دراسة الآلية التي تتصرف بها الخلايا العصبية في المهاد والشبكية لدى القطط. هذه الخلايا تميل للاستجابة بشكلٍ أفضل للنقاط البسيطة؛ هذه النقاط البسيطة تكون إما مساحة صغيرة من الضوء محاطة بالظلام، وإما مساحة مظلمة صغيرة محاطة بهالةٍ من الضوء. وكما هي الحال في الضفدع، تحتاج كل خليةٍ عصبيةٍ إلى أن تكون النقطة في موضع محدَّد كي تستجيب.

تمكَّن هوبل وفيزل من الحصول على أداة لإنتاج النقاط في مواضع مختلفة لاستكشاف استجابات الشبكية. إذن، هذه هي الأداة التي استخدماها، حتى وهما يدرسان مناطق الدماغ الأبعد عن الشبكية. تضمنت طريقة عرض النقاط تحريك قطعة صغيرة من الزجاج، أو لوح معدني بأشكالٍ مختلفةٍ على شاشة أمام العين. استخدم هوبل وفيزل هذه الطريقة لعرض شريحةٍ من النقاط تلوَ الأخرى على الهِرِّ الذي تُجرى عليه التجربة؛ بينما كانا يقيسان نشاط الخلية العصبية في القشرة البصرية الأولية. لكن النقاط لم تؤثر على الخلية العصبية، لم تطلق الخلية العصبية أي إشاراتٍ استجابة للشرائح. بعد ذلك، لاحظ القائمان بالتجربة أمرًا غريبًا؛ في بعض الأحيان لا تستجيب الخلايا العصبية للشرائح نفسها، بل لتغييرها. في أثناء إزالة صفيحة ووضع أخرى مكانها، يتحرك ظل حافة الصفيحة المعدنية أو الزجاجية عند تحريكها ويعبر إلى شبكية القط. نتج عن ذلك تكوين خطٍّ متحركٍ حفَّز الخلية العصبية على نحوٍ موثوقٍ في القشرة البصرية الأولية. وبهذا يكون قد تحقق واحدٌ من أبرز الاكتشافات في مجال علم الأعصاب عن طريق الصدفة تقريبًا.

بعد عقود، علَّق هوبل على القدرة على الاكتشاف مصادفةً قائلًا: «في مرحلة مبكرة معينة من تاريخ العلم، كان من الممكن أن يؤدي بعض الإهمال أو عدم الدقة إلى اكتشافات ضخمة.» لكن هذه المرحلة ولَّت سريعًا. وبحلول عام ١٩٦٠، نقل هوبل وفيزل مشروعهما البحثي إلى بوسطن؛ للمساعدة في تأسيس قسم علم الأحياء العصبي في جامعة هارفارد، وانخرطا لسنواتٍ في دراسة استجابات الخلايا العصبية في النظام البصري.

رغبةً من هوبل وفيزل في الاستفاضة في مصادفتهما السعيدة، تعمَّقا في بحث آلية عمل هذه الاستجابة للخطوط المتحركة. إحدى النتائج التي توصلا إليها هي أن كل خليةٍ عصبيةٍ في القشرة البصرية الأوَّلية لها اتجاه مفضل، أو زاوية مفضلة بالإضافة إلى موضع مفضل. لن تستجيب الخلية العصبية لأي خط يظهر في الموضع المفضل لها فحسب. الخلايا العصبية التي تُفضِّل الاتجاه الأفقي تتطلب خطًّا أفقيًّا، والخلايا العصبية التي تفضِّل الاتجاه الرأسي تتطلب خطًّا رأسيًّا، والخلايا العصبية التي تفضِّل الميل بدرجة ٣٠ درجة تتطلب خطًّا مائلًا بزاوية مقدارها ٣٠ درجة، وهكذا. لاستيعاب ما يعنيه ذلك، يمكنك الإمساك بقلم بشكل أفقي أمام وجهك وتحريكه لأعلى ولأسفل. تكون بذلك قد حفَّزت مجموعة من الخلايا العصبية في القشرة البصرية الأولية. إذا أمَلْتَ القلم بطريقة أخرى، فستحفز مجموعة أخرى (وبهذا تكون قد أجريت تحفيزًا للدماغ في المنزل ومجانيًّا!).

بإدراكهما لمسألة الاتجاه، يكون هوبل وفيزل قد اكتشفا العناصر البصرية الأساسية التي تستخدمها أدمغة القطط لتمثيل الصور. للذباب أجهزة كشف عن الحشرات، وللقطط (والثدييات الأخرى) أجهزة كشف عن الخطوط. لم يتوقفا عند ملاحظة هذه الاستجابات فحسب؛ بل ذهبا إلى ما هو أبعد من ذلك بالسؤال عن الآلية التي تصل بها الخلايا العصبية إلى هذه الاستجابات. ورغم كل شيء، الخلايا التي تحصل منها هذه الخلايا على مدخلات — أي الخلايا الموجودة في المهاد — تستجيب للنقاط لا للخطوط. من أين يأتي هذا التفضيل للخطوط؟

كان الحل يتمثل في افتراض أن الخلايا العصبية في القشرة البصرية الأولية تحصل على مجموعة مختارة بعناية من المدخلات من المهاد. فما الخط إلا مجموعة من النقاط المرتَّبة بشكل مناسب. وعليه، لا بد أن تأتيَ مُدخلات الخلية العصبية في القشرة البصرية الأولية من مجموعة من الخلايا العصبية في المهاد، بحيث تمثِّل كل خلية نقطة في صفٍّ من النقاط. بهذه الطريقة، تُطلق الخلية العصبية الموجودة في القشرة البصرية الأولية أكبر قدرٍ من الإشارات الكهربية، عندما تتصل كل هذه النقاط بخط مستقيم. ومثلما تستمع الشياطين المعرفية لصرخات الشياطين الحاسوبية التي تبحث عن أجزاء من أحرفها المفضلة، تستمع الخلايا العصبية في القشرة البصرية الأولية إلى نشاط الخلايا العصبية الموجودة في المهاد التي تكوِّن خطها المفضل.

لاحظ هوبل وفيزل نوعًا آخر من الخلايا العصبية أيضًا؛ وهي الخلايا التي لها اتجاهات مفضلة، لكنها ليست كثيرة التدقيق بشأن الموقع. من المفترض أن تستجيب هذه الخلايا العصبية، إذا ظهر خط في أي مكان في حيز نشاط أكبر بأربع مرات من حيز نشاط الخلايا العصبية الأخرى التي سجَّلاها. كيف تصل هذه الخلايا العصبية إلى هذه الاستجابة؟ مرة أخرى، كانت الإجابة تتمثل في افتراض أن هذه الخلايا حصلت على المدخلات الصحيحة. على وجه الخصوص، الخلية العصبية «المركَّبة» — كما أطلق هوبل وفيزل على هذه الخلايا — تحتاج فقط إلى مدخلات من مجموعة من الخلايا العصبية المنتظمة (أو «البسيطة»). لا بد أن تكون لجميع الخلايا البسيطة الاتجاه المفضل نفسه، لكن يكون هناك اختلاف طفيف بين مواضعها المفضلة. وبهذا ينتقل الاتجاه المفضل إلى الخلية العصبية المركَّبة من مُدخلاتها، لكن يكون حيز نشاط هذه الخلية المركبة أكثر اتساعًا من أي حيز نشاط لأي خلية منفردة من الخلايا البسيطة. هذه المرونة المتعلقة بالموضع المفضل مهمة جدًّا. إذا أردنا معرفة ما إذا كان الحرف A يظهر أمامنا، فإن القليل من الاهتزازات في المواضع الفعلية للخطوط لن يكون مهمًّا حقًّا. الخلايا المركَّبة مصممة لتجاهل هذه الاهتزازات.
اكتشاف الخلايا المركَّبة أسهم في فهم اللغز المتعلق بكيفية إدراك العقل لمجموعة من النقاط الضوئية (مثير بصري). بالإضافة إلى مهمة تحديد السمات التي تتولاها الخلايا البسيطة، تضاف عملية تجميع المدخلات من مجموعة من الخلايا العصبية الموجودة عبر الحيِّز إلى قائمة العمليات الحسابية التي يُجريها النظام البصري. نظير مجهودِهما البحثي لتحليل هذا النظام، حصل هوبل وفيزل على جائزة نوبل عام ١٩٨١. وضع هوبل أهدافهما بوضوح في خطاب فوزهما بالجائزة: «تمثلت فكرتنا بصفة أساسية في التأكيد على أنه كلما انتقلت المعلومات البصرية عبر مناطق مختلفة في الدماغ، أصبحت معالجة المعلومات أكثر تعقيدًا، والتأكيد على إمكانية فهم سلوك الخلية بدلالة مدخلاتها.»٧ على الرغم من كون هذا المنهج بسيطًا، فإنه كان كافيًا للحصول على العديد من الخواص الأساسية لمسار المعالجة البصرية.
fig15
شكل ٦-٢

•••

في الطرف الآخر من العالم — في هيئة الإذاعة اليابانية الواقعة في طوكيو — سمع كونيهيكو فوكوشيما عن الخواص البسيطة للنظام البصري. كان فوكوشيما مهندسًا وجزءًا من قسم البحوث التابع لهيئة الإذاعة اليابانية. ونظرًا لأن هيئة الإذاعة اليابانية كانت شركة بث (وكانت تبث إشارات مرئية ومسموعة إلى أعين وآذان الجمهور)، كانت لديها أيضًا مجموعات من علماء الأعصاب وعلماء النفس ضمن موظفيها، لدراسة كيفية استقبال الدماغ للإشارات الحسية. هذه المجموعات الثلاث — أي علماء النفس، وعلماء وظائف الأعضاء، والمهندسون — كانت تلتقي بانتظام لمشاركة الجهود البحثية الخاصة بكل مجال من المجالات الثلاثة. في أحد الأيام، قرر أحد زملاء فوكوشيما عرض العمل الذي أسهم به هوبل وفيزل.

عندما رأى فوكوشيما هذا الوصف الواضح لأدوار الخلايا العصبية في النظام البصري، شرع في تطبيق الوظائف نفسها الموجودة في النظام البصري في نموذج كمبيوتر. استخدم نموذجه صورًا لأنماط بسيطة بيضاء على خلفية سوداء باعتبارها مدخلات. للاقتراب من آلية عمل المهاد، كُوِّنَت صفيحة من الخلايا العصبية الاصطناعية تستجيب للنقاط البيضاء في الصورة. كانت هذه تُعتبر وسيلةً لتغذية الشبكة بمعلومات الصورة. ومن هنا، كان لا بد من حساب المدخلات إلى الخلايا البسيطة.

لفعل ذلك، استخدم فوكوشيما المنهج المعياري المتمثل في عمل شبكة من الأعداد التي تمثِّل النمط المطلوب تحديده، وهو في حالة الخلية البسيطة عبارة عن خط له اتجاه محدد. بالمصطلحات الهندسية، يُطلَق على شبكة الأعداد اسم «المرشِّح». لمحاكاة التفضيلات المكانية للخلايا البسيطة، طبَّق فوكوشيما هذا المرشِّح بشكلٍ منفصل عند كل موضع في الصورة. على وجه التحديد، جرى حساب نشاط خلية بسيطة واحدة على أنه ناتجُ جمعِ نشاط المهاد في موضع واحد مضروبًا في المرشِّح. وأدى تحريك المرشِّح على الصورة بأكملها إلى تكوين مجموعة من الخلايا البسيطة لها جميعًا الاتجاهُ المفضل نفسه، لكن لها مواضع مفضلة مختلفة. تُسمَّى هذه العملية في الرياضيات «الالتفاف».

بتكوين العديد من المرشحات — كلٌّ يُمثِّل خطًّا له اتجاه مختلف — وتمرير كل مرشِّح على الصورة، كوَّن فوكوشيما مجموعة كاملة من الخلايا البسيطة، لكل خلية منها الاتجاه والموضع المفضلان، كما هي الحال في الدماغ. بالنسبة إلى الخلايا المركبة، أعطاها ببساطة مدخلات قوية من حَفنة من الخلايا البسيطة كانت تمثِّل جميعًا الاتجاه نفسه في مواضع متقاربة. ومن ثم، ستنشط هذه الخلايا إذا ظهر الاتجاه في أيٍّ من هذه المواضع.

هذه النسخة من نموذج فوكوشيما كانت إلى حدٍّ كبير ترجمة مباشرة للنتائج الفسيولوجية، التي توصَّل بها هوبل وفيزل إلى رموزٍ حاسوبيةٍ ورياضية، وبطريقةٍ ما نجح الأمر. كان يمكن للنموذج أداء بعض المهام البصرية، مثل إيجاد الخطوط المنحنية في صورة بالأبيض والأسود، لكنه كان بعيدًا عن النظام البصري الكامل وكان فوكوشيما يعلم هذا. كما روى مؤخرًا في إحدى المقابلات، بعد أن نشر بحثه في نهاية ستينيات القرن العشرين، انتظر فوكوشيما بأناةٍ ليرى ما سيكتشفه هوبل وفيزل بعد ذلك؛ فقد كان يريد معرفة ما تفعله المراحل اللاحقة من المعالجة البصرية؛ كي يتمكن من إضافة ذلك إلى نموذجه.

إلا أن عالِمَي وظائف الأعضاء لم يقدما تلك المعلومات على الإطلاق. فبعد مجهودهما الأوَّلي لفهرسة أنواع الخلايا، استكشف هوبل وفيزل استجابات الخلايا في مناطق بصرية أخرى، لكنهما لم يتمكَّنا من تقديم وصف دقيق كما فعلا في حالة القشرة البصرية الأولية. فقد انتقلا في النهاية إلى دراسة كيف يتطور النظام البصري لدى الحيوانات الصغيرة سنًّا.

نظرًا لعدم وجود وصفة مقدمة من علم الأحياء، تعين على فوكوشيما الارتجال. تمثَّل الحل الذي ابتكره في أخذ البِنية التي كونها — أي بنية الخلايا البسيطة التي تتدفق منها المدخلات إلى الخلايا المركبة — وتكرارها. يؤدي تكديس مزيدٍ من الخلايا البسيطة والمركبة بعضها فوق بعض مرارًا وتكرارًا إلى تسلسُل هَرمي ممتد، يمكن تمرير المعلومات البصرية خلاله. هذا يعني، على وجه التحديد، أن الطبقة الثانية من الخلايا البسيطة في التسلسل تأتي بعد الطبقة الأولية من الخلايا المركبة. هذه الطبقة الثانية من الخلايا البسيطة لن تنتَبِه إلى السمات البسيطة في الصورة؛ بل إلى السمات البسيطة في نشاط الخلايا المركَّبة التي تحصل منها على المدخلات. ستستخدم هذه الخلايا المرشحات والالتفافات، لكنها لن تُطبق إلا على نشاط الخلايا العصبية الموجودة أسفلها. بعد ذلك، سترسل هذه الخلايا البسيطة مدخلات للخلايا المركبة المرتبطة بها، التي تستجيب للسمات نفسها في حيِّز أوسع، وبعد ذلك تبدأ العملية بالكامل من جديد.

تبحث الخلايا البسيطة عن أنماط؛ بينما تتساهل الخلايا المركبة في زحزحة هذه الأنماط عن مواضعها. وهكذا يصبح لدينا خلايا بسيطة، ثم مركبة، ثم بسيطة، ثم مركبة. مرارًا وتكرارًا. يؤدي تكرار هذه الطبقات إلى خلايا تستجيب لجميع أنواع الأنماط. لكي تستجيب خلية بسيطة في الطبقة الثانية للحرف L، على سبيل المثال، كل ما تحتاج إليه فقط هو أن تحصل على مُدخلاته من خلية تستجيب للخطوط في الاتجاه الأفقي عند موضع محدَّد، وخلية تستجيب للخطوط في الاتجاه الرأسي عند موضع فوق الخط الأفقي تمامًا من ناحية اليسار. ومن ثم، يمكن للخلية الموجودة في الطبقة الثالثة الاستجابة بسهولة لمستطيل، من خلال الحصول على مدخلاتٍ من خليَّتَين تستجيبان للحرف L موضوعتَين بطريقة مناسبة. بالصعود لأعلى أكثر وأكثر في الهرم، سنجد أن الخلايا تبدأ في الاستجابة لأنماط أكبر وأكثر تعقيدًا، بما في ذلك الأشكال الكاملة، والأجسام المادية، وحتى المشاهد.

تمثلت المشكلة الوحيدة، في توسيع نطاق نتائج هوبل وفيزل بهذه الطريقة، في أن فوكوشيما لم يكُن يعلم بالفعل الآلية التي يُفترض بها أن تتصل الخلايا في الطبقات المختلفة ببعضها. كان لا بد أن تكتمل المرشحات — أي شبكات الأعداد هذه التي ستحدد كيفية استجابة الخلايا البسيطة في أي طبقة محددة. لكن كيف؟ من أجل ذلك، استلهم فوكوشيما فكرة من نموذج «بنديمونيوم» الذي قدمه سيلفريدج واتجه إلى التعلُّم.

بدلًا من استخدام طريقة المحاولة والخطأ التي اقترحها سيلفريدج، استخدم فوكوشيما طريقة تعلُّم لا تتطلَّب معرفة الإجابات الصحيحة. في هذا النمط من التعلم، يُعرَض على النموذج ببساطة مجموعة من الصور دون إخباره بما يوجد في هذه الصور. يُحسب نشاط كل هذه الخلايا العصبية الاصطناعية استجابةً لكل صورة، وتتغير الروابط بين هذه الصُّور بناءً على مدى نشاطها (قد يُذكرك هذا بطريقة التعلُّم الهيبي الذي ناقشناه في الفصل الرابع). إذا كانت الخلية العصبية نشطة جدًّا استجابة لصورة محددة على سبيل المثال، فإن الروابط بين هذه الخلية العصبية والخلايا العصبية المدخِلة التي كانت نشطة آنذاك ستقوى. نتيجة لذلك، ستستجيب تلك الخلية العصبية بشدة إلى هذه الصورة والصور المماثلة في المستقبل. هذا يجعل بعض الخلايا العصبية سريعة الاستجابة لبعض الأشكال، كما يجعل الخلايا العصبية المختلفة تتخصص في الاستجابة للأنماط المختلفة. ومن ثم، فإن الشبكة يمكنها انتقاء عدد متنوع من الأنماط في الصور المدخَلة.

في النهاية، تضمَّن نموذج فوكوشيما ثلاث طبقات من الخلايا البسيطة والمركَّبة، وجرى تدريبه باستخدام صور كُوِّنت عن طريق الكمبيوتر للأرقام من صفر إلى أربعة. أُطلق على الشبكة اسم «نيوكوجنيترون» ونُشرت النتائج في دورية «بايولوجيكال سيبرنيتيكس» عام ١٩٨٠.

في دراسة هوبل وفيزل البحثية الأصلية، أكدا على أنه ليس من المفترض التعامل مع نظام التصنيف الذي وضعاه والتسميات باعتبارهما إنجيلًا. فالدماغ معقَّد وتقسيم الخلايا العصبية إلى فئتَين فقط قد لا يستوعب بأي حال التنوُّعَ الكامل في الاستجابات والوظائف. لكنهما اختارا المتابعة بهذه الطريقة؛ لأنها طريقة تواصُل أسهل وأكثر فاعلية. ومع ذلك، وجد فوكوشيما النجاح في فعل الشيء نفسه الذي حذَّر منه هوبل وفيزل؛ فقد بسَّط التعقيد الكبير للنظام البصري في الدماغ إلى عمليتَين حسابيتَين بسيطتَين جدًّا. وقد تعامل مع هذه الأوصاف باعتبارها صحيحة، أو صحيحة بما يكفي، حتى إنه بالغ في الوصف وبالغ في تضخيمها بما يتجاوز معناها الأصلي.

يعرف جميع واضعي النظريات والمهندسين أن هذه الممارسة — أي تبسيط النُّظُم المعقدة وتفكيكها لأجزاء أبسط، كإزالة أوراق الشجرة واستخدامها لبناء بيت — تكون ضرورية لإحراز تقدم. أراد فوكوشيما بناء نظام بصري فعال في الكمبيوتر. وقدَّم هوبل وفيزل وصفًا أوليًّا للنظام البصري في الدماغ. أحيانًا يكون الوصف الأولي كافيًا.

•••

في عام ١٩٨٧، كأي عام آخر، أرسل سُكان بافلو، نيويورك عددًا لا نهائيًّا من الفواتير وبطاقات أعياد الميلاد والخطابات عن طريق مكتب البريد المحلي. ما لم يعلمه سكان المدينة، وهم يكتبون الكود البريدي للمستلِم المكوَّن من خمسة أرقامٍ على المظروف، هو أن هذا الجزء المكتوب بخط اليد سيُخلَّد، أي سيُحوَّل إلى النظام الرقمي ويُخزَّن على أجهزة الكمبيوتر في جميع أنحاء الدولة لسنواتٍ قادمة. وسيصبح جزءًا من قاعدة بياناتٍ للباحثين، الذين يحاولون تعليم الكمبيوتر كيفيةَ قراءة الكتابة اليدوية البشرية؛ ومن ثم تحدث ثورةٌ في الرؤية الاصطناعية.

بعض الباحثين العاملين على هذا المشروع كانوا في مختبرات بيل، شركة أبحاث مملوكة لشركة الاتصالات إيه تي آند تي، التي تقع في ضواحي نيوجيرسي. من بين المجموعة التي يغلب عليها علماء الفيزياء، كان هناك عالم كمبيوتر فرنسيٌّ في الثامنة والعشرين من عمره يُدعى يان ليكون. كان ليكون قد قرأ عن فوكوشيما ونموذج «نيوكوجنيترون»، وأدرك كيف أن التكرار البسيط لهيكل هذا النموذج يمكن أن يحل الكثير من المشكلات الصعبة المتعلقة بالرؤية.

لكن ليكون أدرك أيضًا أنه لا بد من تغيير الطريقة التي يتعلم به النموذج تكوين وصلات. على وجه الخصوص، أراد العودة إلى منهج سيلفريدج، وإعطاء النموذج صُوَرًا تقترن بالتسميات الصحيحة التي تدل على الأرقام الموجودة على الصور. لذا، عدَّل بعض التفاصيل الرياضية للنموذج بهدف جعله مناسبًا لنوعٍ مختلف من التعلُّم. في هذا النوع من التعلُّم، إذا أخطأ النظام في تصنيف صورة (على سبيل المثال أطلق على العدد اثنين ستة)، فإن جميع الوصلات في النموذج — شبكات الأرقام هذه التي تحدِّد الأنماط التي يجري البحث عنها — تُحدَّث بطريقة تجعلها أقل عُرضة لتصنيف الصورة تصنيفًا خاطئًا في المستقبل. بهذه الطريقة، يتعلم النموذج الأنماط التي تكون مهمة للتعرُّف على الأرقام. قد يبدو هذا مألوفًا؛ لأن ما استخدمه ليكون هو خوارزمية الانتشار العكسي المشار إليها في الفصل الثالث. إذا فعلت هذا مع عددٍ كافٍ من الصور، فسيصبح النموذج بالكامل جيدًا جدًّا في تصنيف الصور التي تتضمَّن أرقامًا مكتوبةً بخط اليد، حتى الصور التي لم ترَها من قبل.

كشف ليكون وزملاؤه الباحثون عن النتائج المبهرة لنموذجهم، الذي تدرب على آلاف الأرقام في بافلو عام ١٩٨٩. وبهذا خرجت «الشبكة العصبية الالتفافية» — الاسم الذي أُعطِي لهذا النمط من النماذج — إلى النور.

وكما هي الحال في مناهج المطابقة بالقالب التي سبقتها، وجدت الشبكات العصبية الالتفافية تطبيقات لها على أرض الواقع. ففي عام ١٩٩٧ شكلت هذه الشبكات جزءًا أساسيًّا من نظام البرمجيات الذي طورته شركة إيه تي آند تي لأَتْمَتة معالجة الشيكات في البنوك في أنحاء أمريكا. وبحلول عام ٢٠٠٠ كان يُعالج بهذا البرنامج، وفق التقديرات، ما بين ١٠–٢٠ في المائة من الشيكات في أمريكا. في مثالٍ رائعٍ على تحقيق العلم للناتج المرجُوِّ منه، أصبح حلمُ جولدبرج بتزويد البنوك بأنظمةٍ بصريةٍ اصطناعية حقيقةً بعد مرور ٧٠ عامًا على اختراع آلة الميكروفيلم.

تتمثل طريقة تدريب الشبكات العصبية الالتفافية في الاعتماد على قدر كبير من البيانات لتعليم الشبكة، وستعتمد كفاءة النموذج وجودته على مدى كفاءة البيانات التي نُغذِّيه بها. وكما أن اختيار النموذج الصحيح أمر مهم، فإن اختيار البيانات الصحيحة أمر لا يقل عنه أهمية. لهذا السبب، كان من الضروري جدًّا تجميع عينات حقيقية مأخوذة من الواقع لأرقام فعلية مكتوبة بخط أشخاص حقيقيين. كان بإمكان باحثي مختبر بيل أن يحذوا حذوَ فوكوشيما، ويعتمدوا على صورٍ لأرقامٍ جرى تكوينها باستخدام الحاسوب. لكن هذه الصور يمكنها بالكاد تمثيل التنوع والفوارق البسيطة التي يكتب بها الأشخاص الأرقام في عجالة. الخطابات التي جرى تمريرها عبر مكتب بريد بافلو احتوت على نحو ١٠ آلاف مثال تقريبًا، من الخطوط اليدوية البشرية الحقيقية، وهو ما أعطى النموذج ما يحتاج إليه كي يتعلم حقًّا. بمجرد أن رأى علماء الكمبيوتر أهمية البيانات الحقيقية، اندفعوا لجمع المزيد. جُمعت مجموعة بيانات مكونة من ستة أضعاف عدد الأرقام في مجموعة بافلو — سُميت إم نيست (قاعدة بيانات المعهد الوطني للمعايير والتقنية المعدلة) — بعد مجموعة بافلو بفترة قصيرة. من المثير للدهشة أن قاعدة البيانات هذه تظل واحدةً من أكثر قواعد البيانات استخدامًا لاختبار نماذج وخوارزميات جديدة للرؤية الاصطناعية. كُتبت الأرقام لقاعدة بيانات إم نيست على يد طلاب مدرسة ماريلاند الثانوية المكلَّفين بإجراء التعداد السكاني في أمريكا.٨ وعلى الرغم من أن القائمين بمهمة الكتابة قد أُخبِروا عن الهدف الذي ستُستخدم فيه هذه الأرقام، فمن المؤكد أنهم لم يتوقعوا أن يظل خطهم اليدوي مستخدمًا بواسطة علماء الكمبيوتر بعد نحو ٣٠ عامًا.

لم تتوقف اختبارات الشبكات العصبية الالتفافية عند الأرقام فحسب، لكن بالانتقال إلى صور أكثر تعقيدًا واجهت الشبكات مشكلة. في أوائل العقد الأول من القرن الحادي والعشرين، جرى تدريب شبكاتٍ تشبه إلى حدٍّ كبيرٍ شبكات ليكون على مجموعة بيانات مكونة من ٦٠ ألف صورة، لكن هذه المرة لكائناتٍ وأشياء. كانت الصور صغيرة وحُبَيبية — ٣٢ × ٣٢ بِكسِلًا فقط — وقد تكون لطائرات أو سيارات أو طيور أو قطط أو كلاب أو ضفادع أو أحصِنة أو سُفُن أو شاحنات. وعلى الرغم من أن هذه المهمة تبدو بسيطة بالنسبة لنا، فإن هذا يُمثِّل زيادة خطيرة في الصعوبة بالنسبة إلى الشبكات. ظهر الغموض الكامل الذي يُعد جزءًا أساسيًّا في تفسير عالم ثلاثي الأبعاد، من مدخلاتٍ ثنائية الأبعاد في المشهد عند استخدام صورٍ واقعية لكائنات وأشياء واقعية. النماذج نفسها التي يمكنها التعرُّف على الأرقام كانت تحاول جاهدةً فَهْم هذه الصور الأكثر واقعية. فشل النهج الخاص بمحاكاة طريقة معالجة الدماغ للمعلومات البصرية؛ من أجل تحقيق الرؤية الاصطناعية في المعالجة البصرية الأساسية التي يقوم بها الدماغ يوميًّا.

لكن الأمور تبدَّلت عام ٢٠١٢ عندما استخدم أليكس كريجفسكي وإيليا سوتسكيفر وجيفري هنتون من جامعة تورونتو شبكة عصبية التفافية؛ للفوز بمسابقة التعرُّف على الصور الرئيسية المعروفة باسم: تحدِّي إيمدج نت للتعرف البصري الواسع النطاق. تضمَّنت المسابقة تصنيف الصور — عبارة عن صورٍ ضخمةٍ (بحجم ٢٢٤ × ٢٢٤) واقعية، التقطها أشخاصٌ حول العالم وأُخِذت من مواقع لاستضافة الصور، مثل فليكر — إلى ١٠٠٠ فئةٍ من فئات العناصر الممكنة، وتعيين تسمياتٍ توضِّح الفئة التي تنتمي إليها الصورة. في هذا الاختبار المقنع المتعلق بالمهارة البصرية، بلغت دقة الشبكة العصبية الالتفافية ٦٢ في المائة، مُتغلِّبة بذلك على خوارزمية المركز الثاني بنحو ١٠ في المائة.

كيف أدى فريق جامعة تورونتو بشكلٍ جيد؟ هل اكتشفوا عملية حسابية جديدة لازمة للرؤية؟ هل عثروا على تقنية سحرية لمساعدة النموذج على تعلُّم وصلات الشبكة بطريقة أفضل؟ في هذه الحالة، الحقيقة الفعلية أبسط بكثير. الفرق بين هذه الشبكة العصبية الالتفافية والشبكات التي سبقتها يتمثَّل بشكل أساسي في الحجم. تضمنت شبكة فريق جامعة تورونتو ما يزيد عن ٦٥٠ ألف خلية عصبية اصطناعية في المجمل، وهو ما يفوق حجم شبكة ليكون للتعرف على الأرقام بنحو ٨٠ مرة. كانت هذه الشبكة ضخمة في الواقع، لدرجة أنها تطلبت بعض المهارة الهندسية لجعل النموذج يتناسب مع سعة ذاكرة رقائق الكمبيوتر التي كانت تُستخدم لتشغيله. أصبح النموذج كبيرًا بطريقة أخرى أيضًا. كل هذه الخلايا العصبية كانت تعني الحاجة إلى مزيدٍ من البيانات، لتعديل الأوزان بين الوصلات أثناء عملية التدريب. تعلَّم النموذج من ١٫٢ مليون صورة موسومة جمعتها في-في لي أستاذة علوم الكمبيوتر، كجزءٍ من قاعدة بيانات «إيمدج نت».

كان عام ٢٠١٢ نقطة تحوُّلٍ بالنسبة للشبكات العصبية الالتفافية. فلم تكن التحسينات التي أحرزها فريق جامعة تورنتو مجرَّد قفزةٍ كميةٍ فحسب — أي زيادة عدد الخلايا العصبية والصور — بل أدى التحسُّن المذهل للأداء إلى فرقٍ نوعي في المجال أيضًا. بعد أن رأى الباحثون ما يمكنهم فعله، توافدوا على دراسة الشبكات العصبية الالتفافية وتحسينها. توجَّهت جهودهم في الاتجاه نفسه، وهو جعل هذه الشبكات أكبر، ومع هذا فقد اكتشفوا تعديلاتٍ مهمةً لهيكلها وكيفية تعلُّمها أيضًا.

بحلول عام ٢٠١٥، وصلت الشبكة العصبية الالتفافية إلى مستوى الأداء المتوقَّع من الإنسان في مسابقة تصنيف الصور (هذا المستوى قد لا يكون بنسبة ١٠٠٪؛ إذ إن بعض الصور قد تكون مُحيرة). تمثِّل الشبكات العصبية الالتفافية الآن الأساس الذي يُبنى عليه أي برنامج خاص بمعالجة الصور تقريبًا: التعرُّف على الوجوه في مواقع التواصل الاجتماعي، والكشف عن وجود مشاة على الطريق في حالة السيارات ذاتية القيادة، وحتى التشخيص الذاتي للأمراض في صور الأشعة السينية. في مثال رائع على أن العلم يُستخدم لخدمة نفسه، استخدم علماءُ الأعصاب الشبكاتِ العصبيةَ الاصطناعية، للمساعدة في الكشف التلقائي عن مكان الخلايا العصبية في صور نسيج الدماغ. أصبحت الخلايا العصبية الاصطناعية الآن تنظر إلى خلايا عصبيةٍ حقيقية.

يتَّضح أن المهندسين تصرَّفوا بذكاء، حين توجَّهوا إلى الدماغ لاستلهام كيفية بناء نظامٍ بصري. آتى اهتمامُ فوكوشيما بوظائف الخلايا العصبية — وتكثيف هذه الوظائف في صورة عمليات بسيطة — ثمارَه في المستقبل. أما حين كان يخطو خطواتِه الأولى في تطوير هذه النماذج، فلم تكن المصادر الحاسوبية والبيانات التي كان من شأنها إبراز هذه الجهود متوفرة. بعد عقود، اختار الجيل التالي من المهندسين المشروع ودفعوا به نحو خط النهاية. نتيجة لذلك، أصبح بإمكان الخلايا العصبية الالتفافية الحالية أخيرًا تنفيذُ العديد من المهام التي طُلبت منها، عن طريق مشروع معهد ماساتشوستس للتكنولوجيا الصيفي عام ١٩٦٦.

كما ساعد نموذج «بنديمونيوم» الذي قدمه سيلفريدج في إلهام اختصاصيِّي علم الأعصاب المرئي، لم تكن العلاقة بين الشبكات العصبية الالتفافية والدماغ أُحادية الاتجاه. فقد حان الوقت الذي يحصد فيه علماء الأعصاب ثمار الجهد الذي بذله علماء الكمبيوتر؛ لصنع نماذج يمكنها حلُّ المسائل البصرية الحقيقية. وليس السبب في ذلك أن هذه الشبكات العصبية الالتفافية الضخمة المدرَّبة تدريبًا مكثَّفًا، تتَّسم بالمهارة في اكتشاف الأشياء في الصور فحسب؛ وإنما السبب هو أنها تتَّسم بالمهارة في توقُّع كيفية استجابة الدماغ لهذه الصور نفسها أيضًا.

•••

تبدأ المعالجة البصرية في القشرة البصرية الأوَّلية — حيث أجرى هوبل وفيزل تسجيلاتهما — لكن هذه العملية تتضمَّن العديد من المناطق بعد ذلك. تُكوِّن القشرة البصرية الأولية وَصلاتٍ مع (أحسبك خمنت ذلك) القشرة البصرية الثانوية. وبعد القليل من عمليات ترحيل المعلومات البصرية، ينتهي الحال بالمعلومات في القشرة الصُّدغية التي تقع خلف الصُّدغ مباشرةً.

ارتبطت القشرة الصدغية بالتعرف على الأشياء لفترةٍ طويلة. فمنذ أوائل ثلاثينيات القرن العشرين، لاحظ الباحثون أن أيَّ تلَف يحدث في هذه المنطقة من الدماغ يُفضي إلى سلوكٍ غريب. فالمرضى الذين يعانون تَلفًا في القشرة الصدغية لا يُجيدون تحديد الأشياء المهمة التي يتعيَّن عليهم النظر إليها، ويمكن تشتيتُهم بسهولة. كما أنهم لا يُظهرون استجاباتٍ عاطفيةً عاديةً للصور، فربما يمكنهم رؤية صور يجدها معظم الناس مرعبةً وبالكاد قد يرفُّ لهم جَفن. وعندما يرغبون في استكشاف الأشياء، يمكنهم فعل ذلك بوضع الأشياء في أفواههم لا بالنظر إليها.

جاء تحسُّن فهمنا لهذه المنطقة من الدماغ نتاجًا لعقود من الملاحظة الدقيقة للمرضى، أو الحيوانات التي تعاني من آفاتٍ في الدماغ، ولتسجيل نشاط الخلايا العصبية بعد ذلك. أدى ذلك إلى نتيجةٍ مفادُها أن أحد الأجزاء الفرعية في القشرة الصدغية — أي القشرة الصدغية السُّفلى— هو الموضع الرئيسي لفهم الأشياء. الأشخاص الذين يعانون من تلفٍ في منطقة القشرة الصدغية السُّفلى يتمتَّعون بسلوكٍ ورؤيةٍ طبيعيَّين، إلا أن ذلك يصاحبه المشكلة الأكثر تحديدًا المتمثِّلة في تحديد أسماء الأشياء أو التعرُّف عليها، على سبيل المثال، قد لا ينجحون في التعرُّف على وجوه الأصدقاء أو يخلطون بين الأشياء التي تبدو متشابهة.

بناءً على ذلك، تستجيب الخلايا العصبية في هذه المنطقة للأشياء. بعض الخلايا العصبية لها تفضيلات واضحة؛ فقد تستجيب إحداها في حالة وجود ساعة، وقد تستجيب أخرى في حالة وجود منزل، وأخرى في حالة وجود مَوزة، وما إلى ذلك. في المقابل، الخلايا الأخرى يمكن فهمها بصعوبة أكبر. قد تفضِّل أجزاءً من الأشياء، أو تستجيب بطريقةٍ متماثلةٍ لجسمَين لهما بعض السمات المشتركة. بعض الخلايا أيضًا تهتم بالزاوية التي يُرى منها الجسم، فربما تُطلق مزيدًا من الإشارات العصبية الكهربية إذا شوهد الجسم من ناحية اليمين؛ بينما تتغاضى بعض الخلايا وتستجيب للجسم في أي زاويةٍ تقريبًا. بعض الخلايا تهتم بحجم الجسم وموضعه، في حين لا يهتم البعض الآخر. في المجمل، تُعد منطقة القشرة الصدغية السفلية حقيبةً تحتوي على خليطٍ من الخلايا العصبية المستجيبة للأجسام. على الرغم من أنه ليس من السهل دائمًا تفسيرُ هذه الاستجابات الناتجة عن وجود أجسام، فإن مثل هذه الاستجابات تجعل منطقة القشرة الصدغية السفلية تبدو على قِمة هرم المعالجة البصرية، أي المحطة الأخيرة التي يصل إليها قطار النظام البصري السريع.

حاول اختصاصيُّو علم الأعصاب لعقودٍ فَهْم الكيفية التي طوَّرت بها منطقة القشرة الصدغية السفلية هذه الاستجابات. وكثيرًا ما ساروا على خُطى فوكوشيما، وشيَّدوا نماذج تحتوي على مجموعةٍ مُكدَّسةٍ من الخلايا البسيطة والخلايا المركَّبة؛ أملًا في أن تحاكي هذه العملياتُ الحسابية تلك العملياتِ التي تحدث في الدماغ، وتؤدي إلى نشاط الخلايا في منطقة القشرة الصدغية السفلى، وتُتيح إمكانية التنبُّؤ بالنشاط تمامًا. نجح هذا المنهج إلى حدٍّ ما، لكن، كما هي الحال في نموذج نيوكوجنيترون، كانت النماذج صغيرةً، وتعلَّمت وصلاتُها من مجموعةٍ صغيرةٍ من الصور الصغيرة. لتحقيق تقدُّم حقيقي تعيَّن على علماء الأعصاب توسيعُ حجم نماذجهم، تمامًا كما فعل علماء الكمبيوتر.

في عام ٢٠١٤ تمكنت مجموعتان منفصلتان من العلماء — إحداهما يقودها نيكولاس كريجيسكورتي في جامعة كامبريدج، والأخرى يقودها جيمس ديكارلو في معهد ماساتشوستس للتكنولوجيا — من فعل هذا تمامًا. عرضوا صُورًا حقيقية متنوعة لأشياء على المشاركين في البحث (بشر وقرود)، وسجَّلوا نشاط مناطق مختلفة لأنظمتهم البصرية أثناء رؤيتهم للصور. وأيضًا عرضوا الصور نفسها على شبكةٍ عصبيةٍ التفافيةٍ ضخمةٍ مُدرَّبةٍ على تصنيف الصور الحقيقية. ما توصلت إليه المجموعتان هو أن نماذج الكمبيوتر كانت تقترب كثيرًا من الرؤية البيولوجية. أوضحت المجموعتان تحديدًا أنه إذا أردت تخمين الآلية، التي تستجيب بها الخلية العصبية في منطقة القشرة الصدغية السفلية لصورةٍ محددة، فإن أفضل رهانٍ — أفضل من أي طريقةٍ سابقةٍ جرَّبها علماء الأعصاب — تَمثَّل في النظر في الآلية التي استجابت بها الخلايا العصبية الاصطناعية في الشبكة لها. على وجه التحديد، كانت الخلايا العصبية في الطبقة الأخيرة من الشبكة، تتوقَّع نشاط الخلايا العصبية في منطقة القشرة الصدغية السفلية بشكلٍ أفضل. علاوة على ذلك، فإن الخلايا العصبية في الطبقة قبل الأخيرة تتوقَّع، بشكلٍ أفضل، نشاطَ الخلايا العصبية في المنطقة البصرية V4، وهي المنطقة التي تُعطي منطقة القشرة الصدغية السفلى المدخلات. بدا الأمر وكأن الشبكة العصبية الالتفافية تُحاكي التسلسل الهرمي البصري للدماغ.

بإظهار هذا التوافق اللافت بين النموذج والدماغ، شارك هذا البحث في ثورة في دراسة الرؤية البيولوجية. فقد أشارت إلى أن اختصاصيِّي الأعصاب يسيرون بشكلٍ عام على الطريق الصحيح، وهو الطريق الذي بدأه ليتفين وهوبل وفيزل، لكن يتعين عليهم أن يكونوا أكثر جرأة وإقدامًا. إذا كانوا يريدون نموذجًا يمكنه تفسير الكيفية التي يتسنَّى بها للحيوانات رؤية الأشياء، فلا بد أن يكون النموذج نفسه قادرًا على رؤية الأشياء.

إلا أن السَّير في هذا الطريق كان يعني التخلي عن المبادئ، التي يتشبث بها بعض واضعي النظريات، والتي تتمثل في السعي لتحقيق التنميق والبساطة والكفاءة في النماذج. ليس هناك ما هو مُنمَّق أو فعال بشأن ٦٥٠ ألف خلية عصبية، تتصل معًا كالأسلاك بأي طريقة ممكنة كي تعمل. ومقارنة ببعض المعادلات الأكثر تفضيلًا وجمالًا في العلوم، تُعدُّ هذه الشبكات أشبه بوحوشٍ ضخمةٍ فظيعة. لكن في نهاية الأمر، هذه الشبكات تؤدي الغرض، وليس هناك ما يضمن وجود شيءٍ أكثر تنميقًا.

دفعت الجهود البحثية لسيلفريدج علماء الأحياء إلى رؤية النظام البصري باعتباره تسلسلًا هرميًّا، كما أن التجارب التي نتجت عن ذلك غُرست ببذور تصميم الشبكات العصبية الالتفافية. جرى احتضان هذه البذور في مجال علوم الكمبيوتر، وفي النهاية آتى هذا التعاون أُكُلَه على كلا الجانبَين. في العموم، الرغبة في الحصول على أنظمةٍ اصطناعيةٍ يمكنها أداء مهامَّ بصريةٍ فعليةٍ على أرض الواقع؛ دفعت دراسةَ الرؤية البيولوجية في اتجاهاتٍ كان من الممكن ألَّا تطرُقَها بمفردها. دائمًا ما استمتع المهندسون وعلماء الكمبيوتر بوجود نظامٍ بصريٍّ للدماغ يرجعون إليه، ليس كمصدرٍ للإلهام فحسب، بل لإثبات أن هذه المشكلة الصعبة قابلةٌ للحل. هذا التقدير والتأثير المتبادل يجعلان من دراسة الرؤية قصة واحدة متشابكة على نحوٍ فريد.

١  اتَّضح أن هذا الأستاذ هو مارفن مينسكي، والأستاذ الذي كتب المذكِّرة هو سيمور بابيرت، وكلاهما من الأشخاص الأساسيين الذين ورد ذكرهم في الفصل الثالث. كما سترى بالفعل، ثمة أشخاص مشتركون وموضوعات مشتركة بين تاريخ الشبكات العصبية الاصطناعية والرؤية الاصطناعية.
٢  تبدو الرئيسيات فريدة من نوعها في هذا الأمر حقًّا. فأدمغة القوارض، على سبيل المثال، تميل أكثر إلى معالجة الرائحة.
٣  فعليًّا تُحدَّد وحدات البكسل في الصورة الملونة، من خلال ثلاثة أعدادٍ تقابِل درجات كثافة العناصر الحمراء والخضراء والزرقاء. من أجل التبسيط، سنتحدث عن وحدات البكسل باعتبارها عددًا مفردًا، على الرغم من أن هذا لا ينطبق إلا على الصور ذات التدرُّجات الرمادية.
٤  ومع ذلك فإن سيلفريدج خلال رده على تعليق من أحد زملائه حول الأمر قال: «جميعنا نرتكب خطيئة آدم، ونأكل من الشجرة المحرمة، كما أن الحكايات الرمزية الخاصة بالشياطين قديمة جدًّا بالفعل.»
٥  مشتقة من اليونانية، وتعني «كل الشياطين»، وقد قدم جون ميلتون الاسم في «الفردوس المفقود».
٦  كان هوبل بالفعل مُهتمًّا بالرياضيات والفيزياء، وقُبِل في برنامج دكتوراه في الفيزياء بالتزامن مع قبوله في مدرسة الطب. انتظر هوبل، الذي كان ممزقًا بالفعل بين الخيارَين، لآخر يومٍ ممكن كي يحسم أمره ويتخذ القرار.
٧  لكن هوبل وفيزل لم يذكُرا ليتفين أو عمله الرائد في دراسة الضفدع أثناء هذا الخطاب. وقد أشار سيلفريدج إلى أن هذا الإغفال أقل ما يُوصف به أنه «سلوك شائن».
٨  يمكنك تخمين من يتمتع بخط أكثر إتقانًا.

جميع الحقوق محفوظة لمؤسسة هنداوي © ٢٠٢٤