الإحصائيات والفوضى
لا أمتلك بيانات بعدُ، وإنه لخطأٌ عظيمٌ التنظيرُ قبل الحصول على بيانات.
تضع الفوضى تحديات جديدة أمام التقدير الإحصائي، بَيْدَ أن هذه التحديات يجب النظر إليها في سياق التحديات التي كان ولا يزال الإحصائيون يتعاملون معها لقرون. عند تحليل سلسلة زمنية مستقاة من نماذجنا نفسها، ثَمَّةَ الكثير مما يمكن استخلاصه وفهمه من الاستبصار الإحصائي والقواعد الأساسية في الممارسة الإحصائية السليمة. ولكن الفيزيائي لدينا يواجه مشكلة عند مقارنة النماذج الفوضوية مع ملاحظات العالم الواقعي لأنهما شديدتا الاختلاف، وهو ما يدخل دور الإحصائيات في سياقٍ أقل شيوعًا. أوضحت دراسة النظم الفوضوية مدى ما وصل إليه الوضع من غموض، حتى إنه ثَمَّةَ خلاف حول طريقة حساب حالة حالية في أحد النظم في ضوء ملاحظات مشوشة، وهو ما يهدِّد بتوقُّفنا عن وضع توقُّع حتى قبل أن نبدأ. سيُثمر إحراز تقدُّم في هذا المجال نتائج حول موضوعات على قدرٍ كبيرٍ من الاختلاف والتباين يماثل قدرتنا على توقُّع طقس الغد وقدرتنا على التأثير على تغيُّر المناخ خلال خمسين عامًا من الآن.
إحصائيات الحدود وحدود الإحصائيات
خذ على سبيل المثال تقدير إحدى الإحصائيات، لنقل متوسط طول جميع البشر. ربما يكون ثَمَّةَ بعض الخلاف حول تحديد مصطلح يشمل «جميع البشر» (أيكون عدد البشر الموجودين على قيد الحياة في ١ يناير ٢٠٠٠؟ أم البشر على قيد الحياة اليوم؟ أم كل البشر الذين كانوا ولا يزالون على قيد الحياة؟)، على أن هذا يجب ألا يشتت انتباهنا؛ إذ إنه في ظل توافر طولٍ لكلٍّ فرد من أفراد المجموعة يكون لدينا قيمة محددة جيدًا؛ كل ما في الأمر أننا لا نعرف قيمة هذا الطول. يُطلق على متوسط الطول المأخوذ من عينة من البشر متوسط العينة. وسيتفق جميع الإحصائيين على هذه القيمة، حتى إذا كانوا لا يتفقون حول علاقة هذا الرقم بالمتوسط المنشود في المجموعة كاملةً. (حسنًا، سيتفق كل الإحصائيين تقريبًا على ذلك.) ولكن لا ينطبق الأمر نفسه على عينات آساس ليابونوف. لا يتضح إن كان يمكن تحديد عينات الآساس للفوضى بصورة فريدة بأي طريقة حساسة.
يعود هذا الأمر إلى أسباب عديدة؛ أولًا: يتطلب حسابُ إحصائيات الفوضى، مثل الأبعاد الكسرية وآساس ليابونوف، وضعَ حدود للأطوال اللامتناهية الصغر خلال فترات طويلة لانهائيًّا. لا يمكن وضع هذه الحدود بناءً على الملاحظات. ثانيًا: قدَّمت دراسة الفوضى طرقًا جديدة لوضع نماذج تعتمد على بيانات دون تحديد طريقة بناء النماذج على وجه الدقة. وحقيقة أن الإحصائيين المختلفين الذين تتوافر لديهم نفس البيانات قد يتوصَّلون إلى «إحصائيات معتمدة على عينة» مختلفة نوعًا ما تجعل إحصائيات الفوضى مختلفة نسبيًّا عن متوسط العينة.
الفوضى تُغيِّر ما يُعتبر «جيدًا»
تتضمن نماذج كثيرة معلمات «حرة»؛ وهو ما يعني معلمات — على خلاف سرعة الضوء أو نقطة تجمد الماء — لا نعرفها على وجه الدقة. فما هي إذَن أفضل قيمة نمنحها للمعلم في نموذجنا؟ وإذا كان الهدف من استخدام النموذج هو إجراء التوقعات، فلماذا نستخدم قيمة مستقاة من تجربة مختبرية أو من نظريةٍ ما أساسية، إذا كان ثَمَّةَ قيمة معلمات أخرى تقدِّم توقعات أفضل؟ بل لقد أجبرتنا نمذجة النظم الفوضوية على إعادة تقييم، بل إعادة تعريف، «الأفضل».
إذا كان النموذج خطيًّا، إذَن تشير قرون عديدة من التجربة والتنظير إلى أن أفضل المعلمات تتمثل في تلك التي تقترب توقعاتها من قِيَمها المستهدفة. يجب أن نحرص على أَلَّا نبالغ في ضبط نموذجنا إذا كنَّا نرغب في تطبيقه على ملاحظات جديدة، على أي حال هذا موضوع يعرفه الإحصائي لدينا حقَّ المعرفة. ما دام النموذج خطيًّا وكان تشويش الملاحظات نابعًا من منحنى توزيع جرسي، إذَن فسيصبح لدينا هدف جذَّاب بتقليص المسافة بين التوقع والهدف. تُحدَّد المسافة وفق طريقة المربعات الصغرى المعتادة؛ أيْ بناءً على إضافة مربعات الفروق في كل مركبة من الحالة. مع نمو مجموعة البيانات، ستقترب قيم المعلمات التي نحسبها أكثر فأكثر من تلك القيم التي أنتجت البيانات، وذلك بالافتراض بالطبع أن نموذجنا الخطي ولَّد البيانات حقيقةً. فماذا إذا كان النموذج لا خطيًّا؟
تقدير الأبعاد
ربما كان مارك توين سيحب الأشكال الكسرية، لكنه لا شك كان سيكره عمليات تقدير الأبعاد. في عام ١٩٨٣، نشر بيتر جراسبيرجر وإتامار بركاتشيا ورقة بحثية عنوانها: «قياس الغرابة في عناصر الجذب الغريبة»، وهي ورقة يجري الاقتباس منها في الآلاف من الأوراق البحثية العلمية الأخرى. لا تتضمن غالبية الأوراق البحثية إلا عددًا محدودًا من الاقتباسات من الأوراق البحثية الأخرى، وسيصبح أمرًا شائقًا استخدامُ هذه الاقتباسات وبحث كيفية انتشار الأفكار المستقاة من دراسة الفوضى بين العلوم المعرفية، من الفيزياء والرياضيات التطبيقية ومرورًا بكل مجال علمي.
تُقدِّم الورقة البحثية إجراءً بسيطًا جذَّابًا لتقدير عدد المركبات — من خلال سلسلة زمنية — التي تتطلَّبها حالة نموذج جيد لنظام فوضوي. جاء الإجراء متضمنًا كثيرًا من التحذيرات من العقبات، ولكن العديد من التطبيقات — إن لم يكن معظمها — على البيانات الحقيقية يكمن على الأرجح في واحدة أو أكثر من هذه الشراك. الحيوية الرياضية التي تتضمنها الأبعاد هي ما يجعل حسابها بمثابة جائزة. يمكنك اختيار شيء، ومطُّه، وطيُّه، وتكويره في صورة كرة، بل حتى تقطيعه إلى أجزاء متعددة ثم تجميع الأجزاء مرة أخرى معًا بأي طريقة قديمة، ولكنك لن تُغيِّر من بُعده؛ إنها المرونة التي تتطلب في الواقع مجموعات بيانات ضخمة لتحظى بفرصة في الحصول على نتائج ذات معنًى. للأسف، أسفَرَ الإجراء في الورقة البحثية عن نتائج إيجابية زائفة، وكان رائجًا آنذاك القول بأن أبعاد الفوضى قليلة. إنه عبارة عن مزيج غير موفق. كان قد حفَّز الاهتمام بتحديد الديناميكيات ذات الأبعاد القليلة والفوضى نظرية رياضية كانت تشير إلى إمكانية توقُّع الفوضى دون حتى معرفة المعادلات.
نظرية تاكنس والتضمينية
تعيد نظرية تاكنس طرح مسألة التوقُّع من الاستقراء الخارجي في الزمن إلى الاستقراء الداخلي في فضاء الحالة. يقف الإحصائي التقليدي عند نهاية تيار البيانات، محاولًا إجراء توقُّع نحو مستقبل غير معلوم، بينما تضع نظرية تاكنس الفيزيائي لدينا في فضاء حالة تضمين-متأخر محاولًا الاستقراء داخليًّا من بين الملاحظات السابقة. تؤثِّر هذه الاستبصارات على ما هو أكثر من النماذج التي تعتمد على البيانات؛ إذ يمكن أيضًا نمذجة نماذج المحاكاة المعقدة ذات الأبعاد المتعددة التي تتطور بناءً على عنصرِ جذبٍ قليل الأبعاد، من خلال نماذج ذات أبعاد أقل بكثير وتقوم على البيانات. من حيث المبدأ، يمكن دمج المعادلات في هذا الفضاء القليل الأبعاد أيضًا، غير أنه من الناحية العملية نضع نماذجنا كنماذج محاكاة فيزيائية في فضاءات متعددة الأبعاد. يمكننا في بعض الأحيان إثباتُ ظهور الديناميكيات القليلة الأبعاد، بَيْدَ أننا لا نملك أيَّ فكرة عن طريقة وضع معادلات في الفضاءات ذات الأبعاد القليلة ذات الصلة.
ثَمَّةَ أمثلة متعددة على سوء فهم نظرية تاكنس، وأحد هذه الأمثلة هو أنك في حال توافَر لديك عدد من الملاحظات المتزامنة «يجب» استخدام واحدة منها فقط، بينما تسمح نظرية تاكنس باستخدام جميع الملاحظات! مثالٌ ثانٍ على سوء الفهم يتمثَّل في نسيان أن نظرية تاكنس تدلنا فقط على أنه في حال كان لدينا نموذج حتمي قليل الأبعاد، سيجري حفظ الكثير من خواص النموذج في نموذج إعادة بناء-متأخر. يجب أن نأخذ في الاعتبار ألَّا نفترض العكس، ونفترض أن رصد بعض الخواص في نموذج إعادة بناء-متأخر يشير ضمنًا بالضرورة إلى وجود فوضى؛ إذ إننا نادرًا ما نعرف البنية الرياضية الحقيقية للنظام الذي نرصده (إذا ما عرفناها على الإطلاق).
تخبرنا نظرية تاكنس أن «تقريبًا كل» قياس سيفلح، وهي حالة تتقابل فيها «تقريبًا كل» في فضاء دالة الرياضي لدينا مع «ولا واحد من» في المختبرات في العالم الواقعي. يتعارض التقطع الذي يحدث على عدد محدود من وحدات البيانات مع أحد افتراضات النظرية. ثَمَّةَ أيضًا مسألة تشويش الملاحظات في قياساتنا. إلى حدٍّ ما، ليس ذلك سوى نوع من الشكاوى الفنية، وربما يبقى نموذج إعادة البناء المتأخر موجودًا، ويستطيع الإحصائي والفيزيائي لدينا مواجهة تحدِّي وضع نموذج تقريبي في ظل وجود قيود واقعية على تدفُّقات البيانات. ثَمَّةَ مشكلة أخرى أصعب في تجاوُزها؛ أَلَا وهي أن فترة ملاحظاتنا يجب أن تتجاوز زمن التكرار النموذجي. ربما لا تكون الفترة الزمنية المطلوبة أطول فحسب من الفترة الزمنية التي تغطي مجموعة البيانات الحالية، بل ربما تكون أطول من العمر الزمني للنظام نفسه. وهو ما يُعتبر قيدًا أساسيًّا ينطوي على تداعيات فلسفية. كم سيمضي من الوقت قبل أن نتوقَّع رصد يومين تتشابه حالة الطقس فيهما على نحوٍ يجعلنا غيرَ قادرين على التمييز بينهما؟ بعبارةٍ أخرى، يومان كان الفرق بين الحالتين المتناظرتين لمناخ الأرض يقع في نطاق عدم اليقين في الملاحظات؟ حوالي ١٠٣٠ عامًا. لا يكاد يُعتبر هذا قيدًا فنيًّا؛ ففي هذا المقياس الزمني ستتضخم الشمس إلى كيان أحمر عملاق وتُبخِّر الأرض، وربما يكون الكون قد تدمَّر في عملية الانسحاق الشديد. سنَدَع الفيلسوف لدينا يتأمل تداعيات نظرية تتطلب أن تتجاوز فترةُ الملاحظات العمرَ الزمني للنظام.
في النُّظُم الأخرى، مثل سلسلة ألعاب الروليت، ربما يكون الوقت الفاصل بين ملاحظات الحالات المشابهة أقل كثيرًا. وببطء يجري إحلال محاولات بناء نماذج مستقاة من تدفُّقات البيانات محل البحث عن أبعاد مستقاة من تدفقات البيانات تدريجيًّا. كان من المتوقع أن الأمر يتطلب دومًا بيانات أقل لبناء نموذج جيد أكثر مما يتطلبه الحصول على تقدير دقيق للأبعاد، وهو ما يُعتبر إشارة أخرى إلى أنه من الأفضل كثيرًا تركيز الانتباه إلى الديناميكيات أكثر من الإحصاءات التقديرية. على أي حال، دفعَتِ الحماسةُ الناتجة عن بناء هذه النماذج الجديدة القائمة على البيانات الكثيرَ من الفيزيائيين للدخول إلى ما كان إلى حدٍّ كبير مقصورًا على مجال عمل الإحصائيين. بعد مرور ربع قرن، كان أحد آثار نظرية تاكنس الكبرى هو دمج أسلوب الإحصائيين في نمذجة النظم الديناميكية مع أسلوب الفيزيائيين، ولا تزال الأساليب تتطور، وربما سيظهر أسلوب مركَّب حقيقي يجمع بين الأسلوبين.
البيانات البديلة
أثارت صعوبة التعامل مع التقديرات الإحصائية في النظم اللاخطية موجةً من الاختبارات الإحصائية الجديدة المهمة باستخدام «بيانات بديلة». يستخدم العلماء البيانات البديلة في محاولةٍ منهجيةٍ لتقويض نظرياتهم المفضلة وإبطال نتائجهم الأثيرة، بينما لا يؤدِّي كل اختبار يفشل في دحض إحدى النتائج إلى ترسيخها، تُعتبر معرفة أوجه القصور في إحدى النتائج أمرًا جيدًا دومًا.
تهدف اختبارات البيانات البديلة إلى توليد سلاسل زمنية تشبه بيانات الملاحظات، لكنها تُستقَى من نظام ديناميكي معروف، ومناط الأمر هنا هو أن هذا النظام معروف بأنه ليس لديه الخاصية المأمول اكتشافها؛ فهل نستطيع التخلُّص من النتائج التي تبدو واعدة لكنها ليست كذلك في حقيقة الأمر (تُسمَّى نتائج إيجابية زائفة) من خلال تطبيق التحليل نفسه على بيانات الملاحظات، ثم على مجموعات البيانات البديلة الكثيرة؟ نعرف من البداية أن البيانات البديلة قد لا تُسفِر إلا عن نتائج إيجابية زائفة؛ لذا إذا لم يسهل تمييز مجموعة بيانات الملاحظات عن البيانات البديلة، إذَن فسينطوي التحليل على بعض التداعيات العملية. ماذا يعني هذا عمليًّا؟ حسنًا، هَبْ أننا نأمل في «تحديد نمط فوضوي»، ثم اتضح أن أُس ليابونوف التقديري كان يساوي ٠٫٥، هل هذه القيمة أكبر كثيرًا من الصفر؟ إذا كانت كذلك، فسيتوافر لدينا إذَن دليل على أحد اشتراطات الفوضى.
بالطبع، ٠٫٥ أكبر من صفر. السؤال الذي نرغب في الإجابة عنه هو: هل التذبذبات العشوائية في قيم أُس تقديري ستميل على الأرجح إلى أن تبلغ قيمة كبيرة مثل ٠٫٥ في نظامٍ: (أ) ولَّد سلاسل زمانية متشابهة في شكلها، و(ب) لم تكن قيمة أُس ليابونوف الحقيقية الخاصة به أكبر من صفر؟ نستطيع أن نولِّد سلسلة زمنية بديلة، ونقدِّر قيمة الأُس استقاءً من هذه السلسلة البديلة. في حقيقة الأمر، يمكننا توليد ١٠٠٠ سلسلة زمنية بديلة مختلفة، فنحصل على ١٠٠٠ قيمة أسية مختلفة. ربما نطمئن حينئذٍ إلى نتيجتنا إذا كانت معظم القِيَم الألف المستقاة من السلاسل البديلة أقل كثيرًا من قيمة ٠٫٥، لكن إذا كان تحليل البيانات البديلة يفضي عادةً إلى قيم آساس أكبر من ٠٫٥، إذَن فسيصعب الادعاء بأن تحليل البيانات الحقيقية يقدِّم برهانًا على أن قيمة أُس ليابونوف أكبر من صفر.
الإحصاء التطبيقي
يمكننا في وقت الضرورة أن نستخدم الأشياء في غير موضعها. قد تقدِّم الأدوات الإحصائية المصمَّمة لتحليل النظم الفوضوية طريقةً جديدة ومفيدة لدراسة الملاحظات المستقاة من نُظُمٍ غير فوضوية؛ ففقط لأن البيانات لا تُستقَى من نظام فوضوي لا يعني أن تحليلًا إحصائيًّا مثل ذلك لا يتضمن معلومات قيِّمة. ربما يندرج تحليل الكثير من السلاسل الزمنية، خاصةً في العلوم الطبية والبيئية والاجتماعية، تحت هذا التصنيف وقد يقدِّم معلومات مفيدة؛ معلومات لا تتوافر من خلال التحليل الإحصائي التقليدي. تَحُول الممارسةُ الإحصائية السليمة دون فقدان معالم الطريق من جرَّاء التفكير غير الواقعي الذي يأمل في نتائج معينة، ويمكن أن يثبت الاستبصار الناتج قيمته عند التطبيق، بصرف النظر عمَّا إذا كان هذا الاستبصار يرسِّخ الخصائص الفوضوية في تدفقات البيانات أم لا.
استيعاب البيانات هو المصطلح الذي يشير إلى عملية تحويل مجموعة من الملاحظات المشوشة إلى مجموعة من حالات النموذج الأولية. في إطار سيناريو النموذج المثالي، ثَمَّةَ حالة حقيقية يمكن حساب قيمتها التقريبية، وفي ظل نموذج التشويش ثَمَّةَ مجموعة مثالية — على الرغم من توافرها فقط لشيطان القرن الحادي والعشرين — نستطيع أن نحسب قيمتها التقريبية، ولكن في جميع مهام التوقع الحقيقية، نحاول أن نتوقَّع النظم الطبيعية الحقيقية باستخدام نظم رياضية أو نماذج محاكاة حاسوبية. لا يمكن أبدًا إثبات صحة نظرية النموذج المثالي، ودائمًا ما تكون خاطئة. فما الغاية من وراء استيعاب البيانات في هذه الحالة؟ في هذه الحالة، لا يقتصر الأمر على الحصول على «الرقم الخاطئ» عند تقدير حالة نموذجنا الذي يماثل الواقع، بل في عدم وجود «رقم صحيح» يجب تحديده. يبدو أن عدم ملاءمة النماذج يتجاوز بالتوقُّعات الاحتمالية ما وراء تصوراتنا. تؤدي محاولات توقُّع النظم الفوضوية باستخدام نماذج غير كاملة إلى طرق جديدة في استكشاف كيفية استغلال تنوُّع السلوكيات التي تبديها نماذجنا غير الكاملة. يتطلب تحقيقُ تقدُّمٍ ألَّا نُميِّع التفرقة بين نماذجنا الرياضية، ونماذج المحاكاة الحاسوبية والعالم الواقعي الذي يقدِّم إلينا الملاحظات الواقعية. ننتقل في الفصل التالي إلى التوقُّع.