الفصل الرابع

التجارِب المعيبة

حتى الآن، تناولنا التجرِبة الإكلينيكية ببساطةٍ مُتناهية باعتبارها فكرةً مُسلَّمًا بها، وكأنه لا توجد أي تعقيداتٍ بشأنها؛ فما عليك سوى أن تجلب عددًا من المرضى وتُقسِّمهم إلى نصفين، وتُعطيَ علاجًا ما لإحدى المجموعتين، وعلاجًا آخر للمجموعة الأخرى، وبعد ذلك بفترةٍ تبحث عما إذا كان ثَمَّةَ أي فارقٍ في النتائج بين المجموعتين.

ولكن الآن، نحن على وشك أن نرى الطُّرق المختلفة الكثيرة التي يُمكن من خلالها أن تكون التجارِب مَعيبة، فيما يختص بتصميمها وتحليلها، بحيث تُضخِّم من الفوائد وتُهوِّن من الأضرار. وبعض هذه المراوغات والتشويهات تُعَد انتهاكاتٍ واضحة؛ فالغش، على سبيل المثال، هو تضليل لا يمكن التسامح فيه، ولكن بعضها — كما سنرى لاحقًا — يُعَد مَناطق رمادية. فيمكن أن تكون هناك حالات من التحايل في المواقف الصعبة لتوفير المال أو الحصول على نتيجةٍ أسرع، ويمكننا أن نحكم فقط على كل تجرِبةٍ على أساس وقائعها الفعلية. ولكن من الواضح — حسبما أعتقد — أن ما يحدث في كثيرٍ من الحالات هو محاولات لاختصار الوقت والجهد والمال لدوافع فاسدة.

ويجب أيضًا أن نتذكَّر أن الكثير من التجارِب المعيبة (بما فيها بعض مما سنناقشه في الصفحات التالية) قد أجراه أكاديميون مُستقلون. في الواقع وإجمالًا، وكما تحرص شركات الأدوية على التأكيد، فإنه كلما قُورن بين الطرق البحثية للتجارب التي ترعاها جهات مُستقلة في مُقابل التي ترعاها شركات الأدوية، عادةً ما نجد أن الأولى تكون أفضل. وقد يكون هذا حقيقيًّا، ولكنه يكاد يكون بِلا مدلولٍ حقيقي، لسببٍ بسيط، هو أن الأكاديميين المستقلين لاعبون صغار في هذا المضمار؛ فتِسعون بالمائة من التجارِب الإكلينيكية المنشورة ترعاها شركات الأدوية؛ ولذلك، فهي تهيمن على هذا المجال بالكامل، وتضبط إيقاعه وتضع قواعده.

وأخيرًا، وقبل أن ندلف إلى لُبِّ الموضوع، إليك التنبيهَ التالي: إن بعضًا مما سيأتي ذكره معقدٌ في تفاصيله، ويتطلب مزيدًا من الجهد العقلي لاستيعابه؛ لذلك، أضفت في الأمثلة المعقَّدة مُلخصًا مختصرًا لها في البداية، ثم عرضت بعد ذلك القصة بكاملها. فإذا وجدت أيًّا منها صعب الفهم، يمكنك تجاهل التفاصيل والاكتفاء بالملخصات؛ فأنا لن يُزعجني هذا، وستجد أن الفصل الأخير من هذا الكتاب عن التسويق المراوغ مليء بالأهوال التي يجب ألا تفوتك قراءتها.

والآن، إلى عرضٍ للتجارب المَعيبة.

(١) الغش الصريح

الغش شيء حقير. وفي بقية هذا الفصل سترى حِيلًا ماكرة، وحالاتٍ من الإفلات بدهاء، وسلوكياتٍ خاطئةً بارعة تقع عند الحافة بين القَبول واللاقَبول. إلا أن الغش هو أكثر ما يُصيبني بخيبة الأمل؛ إذ لا براعة فيه ولا مهارة، ولا شيء من المراوغة المنهجية، ولا قابلية مقبولة للإنكار، ولا جدال في أنه تلاعب واضح بالبيانات. فما على الشخص سوى فبركة النتائج، وإذا لم تُعجبه، فإنه يحذفها ويتجاهلها، ثم يبدأ مجدَّدًا.

من ثَمَّ، فإن من حسن الحظ — بالنسبة إليَّ وإلى المرضى — أن الغش أيضًا شيء نادر نسبيًّا، وذلك على حد علم الجميع. وأفضل تقديرٍ حاليٍّ لمعدل انتشاره تجده في مراجعةٍ منهجية أُجريت في عام ٢٠٠٩، جمعت معًا نتائج بيانات استقصائية من إحدى وعشرين دراسة، سألت باحثين من جميع مجالات العلم عن الممارسات العملية المعيبة. ومما لا غرابة فيه أن أولئك الناس أَعطَوا إجاباتٍ مختلفةً للأسئلة عن الغش، تبعًا لطريقة سؤالهم عنه؛ فقد اعترف اثنان بالمائة بأنهم فبركوا أو زيَّفوا أو عدَّلوا بياناتٍ على الأقل مرة واحدة، ولكن هذه النسبة ارتفعت إلى ١٤ بالمائة حينما سُئلوا عن سلوك زملائهم. واعترف ثلثهم بارتكابهم ممارساتٍ بحثيةً مشبوهة أخرى، وارتفعت النسبة إلى ٧٠ بالمائة حينما سُئلوا عن زملائهم.

يُمكننا تفسير جزء على الأقل من هذا البون الشاسع بين أرقام «الأنا» وأرقام «الآخرين» من خلال حقيقة أنك شخص واحد، ولكنك تعرف الكثيرين من الناس، ولكن نظرًا لأن تلك مسائل حساسة، فربما من الأسلم أن تفترض أن جميع النسب أقل من الحقيقة. ومن العدل أيضًا أن تقول إن علومًا، مثل الطب، أو علم النفس، تَسهُل فيها الفبركة؛ لأن الكثير جدًّا من العوامل يمكن أن تتفاوت بين الدراسات، بما يعني أن من النادر أن تتكرَّر نتائجها بنحوٍ تام؛ ونتيجةً لهذا لن يشك أحد إذا تضاربت نتائجك البحثية مع نتائج شخصٍ آخر. وفي أي حقلٍ من العلم حيث تكون نتائج التجارِب أكثرَ مباشرةً ﺑ «نعم» أو «لا»، فإن الفشل في تكرار النتائج يمكن أن يجعل الغشاش ينكشف بسرعةٍ أكبر كثيرًا.

إلا أن جميع المجالات عرضة للعرض الانتقائي لنتائج الأبحاث التي تُجرى فيها، وقد تلاعب بعض العلماء المشاهير جدًّا بنتائج أبحاثهم بهذه الكيفية؛ فقد فاز العالِم الفيزيائي الأمريكي روبرت ميليكان بجائزة نوبل في عام ١٩٢٣ بعد إظهاره من خلال تجرِبة قطرة الزيت الخاصة به أن الكهرباء تتكوَّن من وحداتٍ مفردة هي الإلكترونات. وكان ميليكان في منتصف حياته العملية (وهي ذروة فترات الإقدام على الغش)، ولم يكن معروفًا نسبيًّا. وكتب في بحثه المشهور المنشور في دورية «فيزيكال ريفيو» يقول: «إنها ليست مجموعةً منتقاة من القطرات، ولكنَّها تُمثِّل جميع القطرات التي اختُبرت على مدى ستين يومًا متتالية.» وكان هذا الادِّعاء غير صحيح بالمرة؛ ففي ذلك البحث كان ثَمَّةَ ثمانٍ وخمسون قطرة صغيرة، ولكن عدد ما سجله في دفاتر الملاحظات الخاصة به كان ١٧٥، مع كتابة عبارات في هوامشها، مثل: «انشر هذه النتيجة الجميلة» و«الاتفاق ضعيف ولن ينفع هذا.» وقد ثار جدل في الأدبيات العلمية على مدى سنواتٍ كثيرة عمَّا إذا كان هذا يُشكِّل نوعًا من الغش، ولأي مدًى، وكان ميليكان محظوظًا في أن نتائجه أمكن تكرارها. ولكن على أي حال، فإن عرضه الانتقائي للنتائج «وشرحه المضلل لها» يقعان على سلسلةٍ مُتصلة لجميع صنوف النشاط البحثي التي يُمكن أن تبدوَ بريئةً تمامًا، لمن لم يتفحصها عن كثب. فماذا يجب أن يفعل الباحث بالقيم الشاذة الموجودة على رسمٍ بياني ما، والذي يبدو منتظمًا على نحوٍ تام فيما عدا ذلك؟ أو إذا أسقط شيئًا على الأرض؟ أو إذا حدث خطأ في حساب النتائج؟ ولهذا السبب، للكثير من التجارِب قواعدُ واضحة فيما يتعلق باستبعاد البيانات.

ثم هناك الفبركة الصريحة. على سبيل المثال، كان الدكتور سكوت روبن اختصاصيَّ تخديرٍ أمريكيًّا يدرس كيفية إدارة الألم، وكان قد نشر خلال العَقد السابق ما لا يقل عن عشرين تجرِبةً إكلينيكية، ولم يكن قد أجراها أصلًا على الإطلاق.1 وحتى في بعض الحالات، لم يزعم الحصول على موافقةٍ على أن يُجريَ دراساتٍ على المرضى في المنشأة التي يعمل بها، وقدم ببساطةٍ نتائج التجارِب التي اختُلقت أصلًا من لا شيء. ويجب أن نتذكر دائمًا أن البيانات في مجال الطب ليست شيئًا تجريديًّا أو أكاديميًّا؛ فلقد ادَّعى روبن أنه توصَّل إلى أن العقاقير غير الأفيونية بنفس فاعلية العقاقير الأفيونية في معالجة الألم بعد العمليات الجراحية. وهذا بثَّ السعادة في قلوب الجميع؛ فالعقاقير الأفيونية بصفةٍ عامة تُسبِّب الإدمان، ولها المزيد من الآثار الجانبية. ولقد تغيرت الممارسة في أماكنَ كثيرة، وصار هذا الحقل الآن تسوده الفوضى؛ فمن بين جميع أركان الطب حيث يمكنك أن ترتكب الغش، وتغير القرارات التي يتخذها الأطباء والمرضى معًا، يُعَد الألم مجالًا جوهريًّا بحق.
هناك طرق متعددة يُمكن من خلالها الكشف عن عمليات الغش، ومن المفترض أن يكون من بينها المراقبة اليقظة المستمرة من جانب المؤسسات الطبية والأكاديمية، ولكن هذه المراقبة لا تحدث بأي درجةٍ كافية. وغالبًا ما يتم هذا الكشف بالصُّدفة أو بنحوٍ كَيْدي أو انتقامي أو نتيجةً لشكوكٍ محلية؛ فعلى سبيل المثال، كان مالكولم بيرس جرَّاحًا بريطانيًّا في مجال التوليد، ونشر في إحدى الدوريات تقرير حالة زعم فيه أنه أعاد زرع جنينٍ داخل رحم أمه كان قد تكوَّن من حملٍ خارج الرحم؛ مما نتج عنه ولادة ناجحة لطفلٍ سليم. تنبَّهَ لهذا الأمر اختصاصيُّ تخدير وفنيُّ عمليات جراحية في المستشفى نفسه الذي كان يعمل به بيرس، وكانا يعتقدان أن هذا أمر غير مُرجَّح، وأنهما كانا سيسمعان بأمرٍ مهم كهذا لو أنه حدث فعلًا، فراجعا السِّجلات ولم يجدا أي سجلاتٍ ذات صلةٍ قريبة ولا بعيدة بهذا الحدث المزعوم؛ ومن ذلك الحين افتَضَح أمرُه.2 ومما يَلفت النظر أنه في العدد نفسه من الدورية نفسها، نشر بيرس بحثًا آخر عن تجرِبةٍ لعلاج الإجهاض المتكرر في مائتَي امرأةٍ يعانين من متلازمة تكيُّس المبايض. ولكن هذه التجرِبة لم تحدُث مطلقًا، ولم يكتفِ بيرس بما اختلقه عن المريضات والنتائج، بل اختلق حتى اسمًا خياليًّا لشركة الأدوية الراعية للتجرِبة، وهي شركة وهمية ليس لها وجود. ولكن في عصر محرك البحث جوجل، لم يكن لكذبةٍ كهذه أن تدوم طويلًا.

وهناك طرق أخرى لكشف الغش. إن العقل البشري — على سبيل المثال — مُولِّد سيئ إلى حد ما للأرقام العشوائية، وحالات الغش البسيطة غالبًا ما يكتشفها الإحصائيون الشرعيون بمتابعة تكرار الرقم الأخير؛ فإذا كنت تكتب أرقامًا في عمودٍ بنحوٍ عشوائي، فقد يكون لديك تفضيل طفيف غير واعٍ لرقمٍ معين ولْيكنْ سبعة. ولكي تتجنَّب هذا، فربما تستخدم مُولِّدًا للأعداد العشوائية، ولكنك هنا ستقع في المشكلة الغريبة الخاصة بالتماثل الفاضح في أرقامك العشوائية. على سبيل المثال، شارَك العالم الفيزيائي الألماني يان هندريك شون في إعداد دراسةٍ واحدة تقريبًا كل أسبوع في عام ٢٠٠١، ولكن نتائجه كانت بالغة الدقة بدرجةٍ غير عادية. وفيما بعد، لاحظ شخص ما أن هناك دراستين من تلك الدراسات لهما القدر نفسه من «التشويش» الذي أُلحق بنتيجةٍ أولية مثالية، وتبيَّن أن الكثير من هذه الأرقام قد وُلِّد عن طريق الكمبيوتر، باستخدام المعادلات نفسها التي من المفترض أنها كانت تفحصها، مع وجود تفاوت عشوائي يُفترَض أنه واقعي تم إدخاله في النموذج.

توجد أمور كثيرة يجب أن نفعلها حتى نستطيع الكشف عن الغش الصريح، ومن بينها إجراء استقصاءات أفضل أو مراقبة روتينية أفضل، وتواصُل أفضل من جانب محرري الدوريات العلمية للإبلاغ عن شكوكهم بشأن الأبحاث التي يرفضونها، وحماية أفضل لمن يُبلِّغون عن حالات الغش، والفحص المفاجئ العشوائي للبيانات الأساسية من جانب الدوريات، وغير ذلك. يتحدث الناس عن تلك الإجراءات، ولكن نادرًا ما يتبعونها؛ لأن المسئولية عن هذه المشكلة متشعِّبة وغير واضحة.

إذن، فالغش يحدث فعلًا، وهو ليس نوعًا من البراعة والذكاء، وإنما هو عمل إجرامي لا يقترفه سوى الأشرار. ولكن إسهامه الإجمالي في أخطاء الأبحاث الطبية يُعَد هامشيًّا إذا قورن بالتشويهات المنهجية الروتينية اليومية التي تتصف بالبراعة، كما تتصف، أكثر من أي شيءٍ آخر، بإمكان إنكارها بنحوٍ مقبول، والتي يمتلئ بها هذا الكتاب. ورغم هذه الحقيقة، فإن الغش الصريح يكاد يكون المصدر الوحيد للتشويه الذي يحظى بتغطيةٍ إعلامية منتظمة، ويرجع هذا ببساطةٍ إلى أنه سهل الإدراك. وهذا سببٌ كافٍ لي لكي أدعه الآن لأنتقل إلى لُبِّ موضوعنا في هذا الفصل.

(٢) اختبار العلاج على مرضى «مثاليين» بصورة غريبة

كما رأينا سلفًا، فإن المرضى المشاركين في التجارِب كثيرًا ما يكونون مختلفين تمامًا عن المرضى الواقعيين الذين يفحصهم الأطباء في ممارستهم الإكلينيكية اليومية. ونظرًا لأن أولئك المرضى «المثاليين» يكونون أكثر قابليةً للتحسُّن، فإن الاستعانة بهم تَنتج عنها المبالغة في إظهار فوائد العقاقير، وتُساعد في إظهار العقاقير الجديدة الغالية على أن لها مردوديةً أعلى مما هي عليه في الحقيقة.

أمَّا في العالم الواقعي، فإن المرضى غالبًا ما تكون حالاتهم معقَّدة؛ فقد يكونون مصابين بالكثير من المشكلات الطبية المختلفة، أو يتناولون العديد من الأدوية المختلفة التي تتداخل جميعًا فيما بينها بطرقٍ لا يمكن التنبؤ بها، أو ربما يشربون المزيد من الكحوليات كل أسبوعٍ أكثر من المعتاد، أو يعانون شيئًا من مشكلةٍ طفيفة في الكُلى. هذه هي حال المرضى الحقيقيين، ولكنَّ أغلب التجارِب التي نعتمد عليها في اتخاذ قراراتٍ واقعية تُجرَّب عقاقيرها على مرضى «مثاليين» بصورةٍ غريبة لا يُمثِّلون المرضى في الواقع؛ فهم في الغالب يكونون من الشباب، الذين يعانون على نحوٍ مثالي من المشكلة ذات الصلة وليست لديهم مشكلات صحية كثيرة أخرى … إلخ.3
فهل نتائج التجارِب التي أُجريت على أولئك المشاركين غير العاديين تنطبق حقًّا على المرضى العاديين؟ إننا نعرف على أي حال أن المجموعات المختلفة من المرضى تستجيب للعقاقير بطرقٍ مختلفة؛ فعلى سبيل المثال، قد تتسبَّب التجارِب التي تُجرى على مجموعاتٍ مثالية في تضخيم فوائد العلاجات، أو إظهار فوائد وهمية لها. وفي بعض الأحيان، إذا كُنَّا عاثري الحظِّ جدًّا، يمكن حتى أن تختل تمامًا الموازنة بين الضرر والفائدة إذا تنقَّلنا بين مجموعاتٍ مختلفة؛ فالعقاقير المضادة لاضطراب ضربات القلب، على سبيل المثال، تبيَّن أنها فعَّالة في إطالة عمر المرضى الذين يعانون من اضطرابٍ حاد في ضربات القلب، ولكنها أيضًا تُوصف على نطاقٍ واسع للمرضى بعد إصابتهم بنوباتٍ قلبية عندما يكون لديهم اضطراب طفيف فقط في ضربات القلب. ومما يثير الفزع أننا حينما جرَّبنا أخيرًا هذه العقاقير على تلك المجموعة الثانية وجدنا أنها زادت احتمال تعرُّضهم للوفاة.4

كثيرًا ما يتجاهل الأطباء والأكاديميون هذه المشكلة، ولكن حينما نبدأ في تحديد الفروق بين مرضى التجارِب والمرضى الواقعيين، فإن نطاق المشكلة يتضح بشدة.

أُجريت دراسة في عام ٢٠٠٧ تناولتْ ١٧٩ مريضًا بالربو، يمثلون مرضى الربو ضمن المجموع العام للسكان، وبحثتْ كم منهم كان مؤهلًا للمشاركة في مجموعةٍ من التجارِب الخاصة بعلاجات الربو.5 وكانت النتيجة هي نسبة ٦ بالمائة في المتوسط، ولم تكن تلك تجاربَ قديمةً رُفض مشاركتهم فيها، وإنما كانت التجارِب التي تُشكِّل الأساس للإرشادات الدولية لعلاج الربو في عيادات الأطباء الممارسين والمستشفيات. وهي إرشادات تُستخدم حول العالم، إلا أن هذه الدراسة أظهرت أنها بُنيت على تجارب استَبعدت تقريبًا جميع المرضى الواقعيين الذين يفترض أنها موجهة لهم بالأساس.
ودراسة أخرى تناولتْ ستمائة مريض يُعالَجون من مرض الاكتئاب في إحدى العيادات الخارجية، ووجدت أنه في المتوسط كان يمكن اختيار ثلثهم فقط للمشاركة في تسعٍ وثلاثين تجرِبةً نُشرت حديثًا عن علاجات الاكتئاب.6 وكثيرًا ما يتحدَّث الناس عن صعوباتٍ في استقدام المرضى للاشتراك في الأبحاث، ولكن إحدى الدراسات أظهرت أن ١٨٦ مريضًا بالاكتئاب استفسروا عن المشاركة في تجربتين مختلفتين على العقاقير المضادة للاكتئاب، وأن أكثر من سبعةٍ من كل ثمانية مرضى منهم استُبعدوا وحُرموا من الاشتراك فيهما.7
ولكي نرى كيف يبدو هذا الأمر في الواقع، يمكننا أن نتتبَّع مجموعةً من المرضى لديهم مشكلة طبية معينة. في عام ٢٠١١، تتبَّع بعض الباحثين في فنلندا جميع المرضى الذين أُصيبوا بكسرٍ في عظم الوَرِك، وبحثوا عمَّا إذا كان يمكن اختيارهم للمشاركة في التجارِب التي أُجريت على عقاقير البيسفوسفونات التي يشيع استخدامها في منع الإصابة بالكسور.8 وبدءوا ﺑ ٧٤١١ مريضًا، ولكن استُبعد ٢١٣٤ مريضًا منهم مباشرةً بحُجة أنهم رجال، بينما أُجريت جميع التجارِب على النساء؛ فهل هناك فروق في كيفية استجابة النساء والرجال للعقاقير؟ نعم، أحيانًا. ومن بين اﻟ ٥٢٧٧ مريضة الباقيات، استُبعدت ٣٥٩٦ بحجة أنهنَّ لا ينتمين إلى السنِّ المطلوبة؛ إذ يُشترط أن تتراوح أعمار المريضات المشاركات في التجارِب بين خمسٍ وستين وتسعٍ وسبعين سنة. ثم أخيرًا، استُبعدت ٦٠٩ مريضات لأنهن غير مُصاباتٍ بهشاشة العظام؛ وبهذا يتبقى فقط ١٠٧٢ مريضة؛ ومن ثَمَّ فإن البيانات المستمَدة من التجارِب التي أُجريت على تلك العقاقير الواقية من الكسور تنطبق تحديدًا على واحدٍ فقط من كل سبعة مرضى من المصابين بكسر. قد تكون تلك العقاقير مفيدة وفعَّالة كذلك للأشخاص المستبعَدين من التجارِب، ولكن هذا الأمر يرجع لتقديرك الشخصي، وحتى لو كانت مفيدة، فإن حجم الفائدة قد يختلف بين الأشخاص المختلفين.

وهذه المشكلة تتجاوز مسألة تقييم فاعلية العقاقير؛ فهي كذلك تُشوِّه تقديراتنا لمردوديتها (وإننا ونحن نعيش عصرًا تتصاعد فيه تكاليف الرعاية الصحية، يجب أن نقلق بشأن القيمة). وإليك مثالًا من العقاقير المثبِّطة لإنزيم كوكس-٢ الجديدة المسكنة للألم؛ فهي تُباع على أساس أن ما قد ينجم عنها من نزفٍ بالجهاز الهضمي يكون أقل مقارنةً بالعقاقير المسكنة للألم الأقدم والأرخص ثمنًا، مثل عقَّار الإيبوبروفين الشائع الاستخدام.

يبدو أن تلك العقاقير الجديدة تُقلل احتمال حدوث النزف، وهو أمر جيد لأن هذا النزف يمكن أن يكون بالغ الخطورة. وفي الواقع، إنها قللت ذلك الاحتمال بحوالي النصف في تجارب أُجريت — بطبيعة الحال — على مرضى مثاليين، كانت لديهم قابلية عالية جدًّا للإصابة بنزفٍ في الجهاز الهضمي. وهذا الأمر بدا منطقيًّا تمامًا لمن أجرَوا التجارِب؛ لأنك إذا شئت أن تُظهر أن عقَّارًا ما يُقلل احتمال الإصابة بنزف، فسيكون من الأسهل والأرخص كثيرًا أن تُظهر ذلك في عينةٍ من الناس كثيرة الإصابة بالنزف في المقام الأول (لأنك إن لم تفعل هذا، وكانت الحالة التي تقصدها بعقَّارك نادرة بالفعل، فسيلزمك أن تستعين بعددٍ هائل من المرضى في تجربتك).

ولكن ستظهر لك مشكلة مُهمة إذا استخدمت تلك الأرقام الخاصة بحدوث تغييرٍ في معدل الإصابة بالنزف لدى مرضى مثاليين بصورةٍ غريبة لحساب تكلفة منع النزف في العالم الواقعي. وقد قدَّر المعهد الوطني للصحة والتميُّز الإكلينيكي هذه التكلفة بمقدار ٢٠ ألف دولار عن كل حالةٍ من حالات منع النزف، ولكن الرقم الحقيقي في الواقع يتجاوز ١٠٠ ألف دولار.9 ويُمكننا بسهولةٍ كبيرة أن نُدرك كيف وصل المعهد إلى هذا التقدير الخطأ، وذلك بإجراء الحسابات على أساس بعض الأرقام البسيطة المقرَّبة، وإن كان من حسن الحظ أن تلك الأرقام تُماثل تقريبًا الأرقام الحقيقية (بالمناسبة، يجب هنا أن نستخدم الدولار الأمريكي؛ لأن التحليل الذي كشف عن هذه المشكلة كان منشورًا في دورية أكاديمية أمريكية).

كان لمرضى التجارِب قابلية عالية للنزف؛ فعلى مدى عام، أُصيبَ به خمسون مريضًا من بين ألف، وقلَّ هذا الرقم إلى خمسةٍ وعشرين عندما تناولوا أحد العقاقير المثبِّطة لإنزيم كوكس-٢؛ لأن ذلك العقَّار يُقلل قابلية النزف إلى النصف. وأيٌّ من تلك العقاقير يتكلف ٥٠٠ دولار إضافية سنويًّا عن كل مريض؛ ومن ثَمَّ، فإن اﻟ ٥٠٠ ألف دولار المنفَقة على ألف مريضٍ تُحقِّق خفضًا لقابلية النزف بمقدار ٢٥ حالة، وإذا قسمت ٥٠٠ ألف دولار على ٢٥، فستجد أن منع النزف يكلف ٢٠ ألف دولار عن كل حالة.

ولكن إذا تأمَّلت حالة المرضى الواقعيين الذين يتناولون تلك العقاقير الجديدة من واقع قاعدة بيانات سِجلات الأطباء الممارسين، يمكنك أن تدرك أن لديهم قابليةً أقل بكثيرٍ للإصابة بالنزف؛ فعلى مدى عام، أُصيبَ به عشرة من بين ألف مريض. وانخفض هذا الرقم إلى خمسة عندما تناولوا أحد العقاقير الجديدة لأنها تُقلل قابلية النزف إلى النصف؛ ومن ثَمَّ لا يزال يُدفع ٥٠٠ ألف دولار عن الألف مريض تكلفةً لهذا العقَّار على مدى عام، ولكنَّه يُحقِّق خفضًا لقابلية النزف بمقدار خمس حالات، وإذا قسمت ٥٠٠ ألف دولار على ٥، فستجد أن منع النزف هنا يكلف ١٠٠ ألف دولار عن كل حالة. وهذا المبلغ بالطبع يزيد كثيرًا عن اﻟ ٢٠ ألف دولار السابق ذكرها.

تسمَّى هذه المشكلة المتعلقة بكون مرضى التجارِب لا يُمثِّلون المرضى الواقعيين «الصدق الخارجي» أو «القابلية للتعميم» (هذا إذا أردت أن تعرف المزيد عنها من أي مصدرٍ آخر). وهي مشكلة يُمكن أن تجعل التجرِبة غير ذات صلةٍ بالمرة للمرضى الحقيقيين، إلا أنها تحدث بنحوٍ روتيني تمامًا في الأبحاث، التي تُجرى بميزانيات مضغوطة، لضغط الجداول الزمنية والحصول على نتائج سريعة، وذلك من قِبل أُناس لا يأبهون إذا كانت نتائجهم غير ذات صلةٍ للمسائل الإكلينيكية الواقعية. إنها حقًّا فضيحة صامتة وكئيبة، لا تجدها تتصدَّر عناوين الأخبار المثيرة بالصحف ولا تتعلق بعقَّارٍ قاتل في حد ذاته، وإنما تتسبَّب في تشويهٍ بطيء وغير ضروري لقاعدة الأدلة في الطب تقريبًا بالكامل.

(٣) اختبار العقَّار مقابل شيء تافه

كثيرًا ما يُقارَن العقَّار بشيءٍ غير جيِّد تمامًا؛ فكثيرًا ما تفضل الشركات اختبار عقاقيرها مقابل حبوب سُكرية وهمية لا تحتوي على أي دواء؛ إذ إن هذا يخفض سقف تقييم فاعليتها. ولكن من الشائع كذلك أن تجد تجارب يُقارَن فيها عقَّار جديد بعقَّار منافس يُعرَف عنه أنه بلا فائدة، أو بعقَّار منافس جيد ولكن عندما يُعطى بجرعةٍ منخفضة جدًّا أو مرتفعة جدًّا.

من الأشياء التي يمكن أن تزيد احتمال جعْل علاجك الجديد يبدو جيدًا اختبارُه في مقابل شيءٍ لا يعمل بصورةٍ جيدة، وهو شيء قد يبدو سخيفًا، أو حتى قاسيًا؛ ومن ثَمَّ، من حسن حظنا أنْ جمَع باحث يُدعى دانيال سيفر معًا مجموعة كبيرة من التجارِب استخدمت جرعاتٍ غير عادية خصوصًا لإيضاح هذه المشكلة.10 قارنت إحدى هذه التجارِب، على سبيل المثال، عقَّار الباروكستين في مقابل عقَّار الأميتريبتيلين. يُعَد الأول أحد العقاقير المضادة للاكتئاب الحديثة، وهو خالٍ إلى حدٍّ كبير من الآثار الجانبية، مثل الميل إلى النُّعاس. وأمَّا العقَّار الآخر، فهو عقَّار قديم جدًّا ومعروف بأنه يجعل الناس يشعرون بالنُّعاس؛ ومن ثَمَّ، في الممارسة الإكلينيكية الواقعية، من الأفضل غالبًا أن ننصح المرضى بأن يتناولوه بالليل فقط؛ لأن الميل إلى النعاس لا يهم كثيرًا إذا كان المرء على وشك النوم. ولكن في هذه التجرِبة أُعطيَ هذا العقَّار مرتين يوميًّا، صباحًا ومساءً، فذكر المرضى أنهم عانَوا كثيرًا من الميل إلى النوم بالنهار بسبب العقَّار؛ مما جعل العقَّار الآخر يبدو أفضل كثيرًا.

وبنحوٍ بديل، قارنت بعض التجارِب الدواءَ الجديدَ الغاليَ الثمن في مقابل دواءٍ أقدم منه أُعطيَ بجرعةٍ عالية غير عادية؛ مما يجعله يُسبِّب آثارًا جانبية أسوأ بالمقارنة. ويُقدم عالِم الأدوية المضادة للذهان مثالًا توضيحيًّا مثيرًا للانتباه على هذا، وهو يمتد عبر عصورٍ عديدة من البحث.

يُعَد انفصام الشخصية (أو الشيزوفرينيا)، شأنه شأن السرطان، مرضًا ليست علاجاته مثالية، وينبغي للطبيب في الغالب أن يزن فوائد استخدام تلك العلاجات في مقابل عيوبها؛ فيكون لكل مريضٍ هدف يختلف عن أهداف المرضى الآخرين؛ فالبعض يُفضِّلون أن يتحمَّلوا القابلية الزائدة لحدوث الانتكاسة بسبب رغبتهم القوية جدًّا في تجنُّب الآثار الجانبية للعلاج أيًّا كان الثمن، وقد يختارون تَلقِّيَ جرعةٍ أقل من الدواء، بينما قد يرى آخرون أن الانتكاسات الخطيرة تُدمِّر حياتهم وتكلفهم خسارة أُسرهم أو وظائفهم أو أصدقائهم؛ ومن ثَمَّ يختارون أن يتحمَّلوا بعض الآثار الجانبية في مقابل الفوائد التي يحصدونها من الدواء.

إنه لَقرار صعب في الغالب لأنَّ الآثار الجانبية تكثر عند استخدام العقاقير الخاصة بهذا المرض، ولا سيَّما الاضطرابات الحركية (التي تُشبه قليلًا أعراض مرض الشلل الرعاش) وزيادة الوزن؛ ومن ثَمَّ كان هدف ابتكار العقاقير في هذا المجال هو التوصُّل إلى علاجٍ لمواجهة الأعراض المَرضيَّة، لكن دون أن تُسبِّب آثارًا جانبية. ومنذ عَقدين من الزمان حدث تقدُّم كبير في هذا المجال؛ إذ استُحدثت مجموعة جديدة من العقاقير وطُرحت في الأسواق، وهي «العقاقير غير النمطية» التي وعدت بتحقيق هذا. وأُجريت سلسلة من التجارِب لمقارنة هذه العقاقير الجديدة بالعقاقير القديمة.

ووجد سيفر ست تجارب تقارن الجيل الجديد من العقاقير المضادة للذهان بعقَّار من الطراز العتيق الذي عفا عليه الزمن، يُسمَّى الهالوبيريدول، والمعروف بتسبُّبه في آثارٍ جانبية خطيرة، مع إعطائه بجرعة ٢٠ مجم يوميًّا. وهذه ليست جرعةً عالية جدًّا بدرجةٍ جنونية؛ أي أنها لن تضرك بشدةٍ على الفور، كما أنها لا تقع تمامًا خارج نطاق الجرعة القصوى المسموح بها من قِبل «الدليل الوطني البريطاني»، وهو المرجع القياسي لوصف العقاقير. ولكنها على أي حال جرعة غير عادية تفوق الجرعة المعتادة، فلا مفرَّ إذن من أن يُصاب المرضى الذين يتلقَّونها بالكثير من الآثار الجانبية.

ومما يُثير الاهتمام أنه بعد هذا بعَقدٍ كامل كرَّر التاريخ نفسه؛ إذ كان عقَّار الريسبيريدون واحدًا من أوائل هذا الجيل الجديد من العقاقير المضادة للذهان؛ ومن ثَمَّ انتهت فترة براءة الاختراع الخاصة به في البداية، ولم يلبث أن صار رخيصًا جدًّا مثل الجيل الأقدم من العقاقير؛ ونتيجة لهذا، أرادت شركات أدوية كثيرة أن تُظهِر أن عقاقيرها الغالية المنتمية إلى الجيل الجديد للعقاقير المضادة للذهان أفضل من عقَّار الريسبيريدون، الذي صار الآن فجأةً رخيصًا وقديم الطراز؛ ومن ثَمَّ أُجريت تجارب لمقارنة العقاقير الجديدة بهذا العقَّار بجرعة ٨ مجم. ومجدَّدًا أقول إنها ليست جرعة عالية بما يفوق الخيال، ولكنها لا تزال عاليةً إلى حدٍّ ما، والمرضى الذين يتناولون هذه الجرعة يكونون أكثر عرضةً للمعاناة من الآثار الجانبية؛ مما يجعل العقاقير المنافسة تبدو أكثر جاذبية.

وإنها — مجدَّدًا — فضيحة صامتة ومبهمة. ولا يعني هذا أن أيًّا من تلك العقاقير بعينها قاتل ومدمر بنحوٍ صريح بحيث يتصدر عناوين الأخبار المثيرة بالصحف، وإنَّما يعني بالتأكيد أن الأدلة، في المجمل، تتعرَّض للتشويه.

(٤) التجارِب الشديدة القِصر

غالبًا ما تكون التجارِب قصيرة، كما ذكرنا آنفًا، لأن الشركات ترغب في الحصول على النتائج في أسرع وقتٍ ممكن، حتى تجعل عقاقيرها تبدو في صورةٍ جيدة، بينما لا تزال في حوزتها خلال فترة براءة الاختراع. وهذا الأمر يثير مشكلاتٍ عدة، بما فيها تلك التي استعرضناها بالفعل من قبل، وتحديدًا استخدام «نتائج إكلينيكية بديلة» مثل التغيرات في اختبارات الدم، بدلًا من «نتائج إكلينيكية واقعية» مثل التغيرات في معدلات حدوث النوبات القلبية، التي تستغرق وقتًا أطول حتى تظهر. ولكن التجارِب القصيرة يمكن أيضًا أن تُشوِّه فوائد العقَّار، ويحدث هذا ببساطةٍ بسبب قصرها الشديد، وذلك إذا كانت الآثار القصيرة الأمد تختلف عن الآثار الطويلة الأمد.

فعلى سبيل المثال، تأمَّل معي عملية جراحية تُجرى لاستئصال ورمٍ سرطاني، كانت لها مخاطر فورية قصيرة الأمد — إذ يَحتمِل أن يموت المريض على سرير غرفة العمليات أو بسبب إصابته بعدوى في الأسبوع التالي — ولكنَّك تأمل أن تتعادل هذه المخاطر القصيرة الأمد مع فوائد طويلة الأمد. فإذا أجريت تجرِبة لمقارنة المرضى الذين أُجريت لهم تلك العملية بالمرضى الذين لم تُجرَ لهم، مع الاكتفاء بقياس النتائج على مدى أسبوع، فربما تجد أن الذين أُجريت لهم الجراحة يموتون قبل الذين لم تُجرَ لهم؛ وذلك لأن الأمر يستغرق شهورًا أو سنواتٍ حتى يموت المرضى بسبب الورم السرطاني الذي تستأصله؛ ومن ثَمَّ تستغرق فوائد تلك الجراحة شهورًا، وربما سنواتٍ حتى تظهر، بينما تحدث المخاطر — أي العدد الضئيل من المرضى الذين يموتون على سرير العمليات — بنحوٍ فوري.

وتظهر المشكلة نفسها فيما يتعلق بتجارب العقاقير؛ فقد تكون ثَمَّة فائدة فورية مفاجئة قصيرة الأمد من عقَّار مُخفِّض للوزن، على سبيل المثال، ثم تبدأ تلك الفائدة في التضاؤل بمرور الوقت حتى تختفيَ تمامًا. أو قد تكون ثَمَّةَ فوائد قصيرة الأمد وآثار جانبية طويلة الأمد لا تظهر إلا في التجارِب الأكثر طولًا. وكمثالٍ لهذا أذكر عقَّار إنقاص الوزن الفينفين، الذي اتضح أنه ينقص الوزن في التجارِب الإيجابية القصيرة الأمد، ولكن حينما لوحظ المرضى الذين يتناولونه على مدى فتراتٍ أطول، تبيَّن أنهم أُصيبوا أيضًا باضطراباتٍ في صمامات القلب.11 وكذلك عقاقير البنزوديازيبين مثل الفاليوم تفيد كثيرًا في تخفيف القلق والتوتر على المدى القصير، ولكن إذا أُجريت تجرِبة عليها تستغرق ستة أسابيع فقط، فإنها ستُظهر أن لها فوائد جَمَّة، ولكن على مدى الشهور والسنين التالية، تبدأ فوائدها في التضاؤل، ويقع المرضى فريسةً للإدمان. وهذه الآثار السيئة الطويلة الأمد لا تبدو إلا في التجارِب الأطول أمدًا.

ومع ذلك، فليست التجارِب الأطول أمدًا أفضل دائمًا وتلقائيًّا؛ فالأمر يتعلق بالمسألة الإكلينيكية التي تحاول مواجهتها، أو ربما تحاول تجنُّبها؛ ففيما يتعلق بعقَّار غالي الثمن يُعالج السرطان مثل الهِرسبتين، على سبيل المثال، قد يهمك أن تعرف ما إذا كان إعطاؤه لفتراتٍ قصيرة له فاعلية إعطائه نفسها لفتراتٍ طويلة؛ وذلك لتجنُّب شراء كَميات كبيرة من هذا العقَّار الباهظ الثمن بلا ضرورة (وكذلك لتجنُّب تعريض المرضى لفترةٍ أطول من الآثار الجانبية). ولأجل هذا قد تحتاج لإجراء تجارب قصيرة، أو على الأقل تجارب تُثبت وجود نتائج طيبة للعقَّار على مدى فترةٍ طويلة، لكن بعد تناوله لفترةٍ قصيرة. وقد طلبت شركة روش الحصول على تراخيص للعلاج بعقَّار الهرسبتين لمدة اثني عشر شهرًا، مع تقديمها لبياناتٍ من واقع تجارب استمرت اثني عشر شهرًا. بينما أُجريت في فنلندا تجرِبة لمدة علاجية تستمر تسعة أسابيع فقط، ووجدت أن للعقَّار فائدةً كبيرة، وفي نيوزيلندا، قررت الهيئة المناظرة للمعهد الوطني للصحة والتميُّز الإكلينيكي أن تُصدِّق على العلاج بالعقَّار لمدة تسعة أسابيع. ولكن شركة روش استخفَّت بهذه الدراسة القصيرة، وتعاقدت على إجراء تجارب جديدة على العلاج بالعقَّار لمدة «عامين». وكما يُمكن أن تتخيل، إذا أردنا أن نكتشف ما إذا كان العلاج بهذا العقَّار لمدة تسعة أسابيع له فاعلية العلاج به نفسها لمدة اثني عشر شهرًا، يلزمنا أن نُجريَ بعض التجارِب للمقارنة بين هذين النظامين من العلاج، ولكن غالبًا ما يُشكِّل تمويل تلك التجارِب تحديًا لا يُستهان به.

(٥) التجارِب التي تتوقف قبل أوانها

إذا أوقفتَ إحدى التجارِب مبكرًا، أو حتى متأخرًا لأنك كنت خلالها تُلقي نظرةً على نتائجها وهي تحدث، فإنك تزيد بهذا فرص الحصول على نتيجةٍ مُرضية؛ ذلك لأنك بهذا تستغل التفاوت العشوائي الذي يوجد ضمن البيانات. وهذه صورة معقدة من الطريقة البسيطة التي يمكن أن تسلكها لتزيد فرص فوزك في لعبة قذف العملة المعدِنية باستخدام الاستراتيجية التالية: «اللعنة! حسنًا، اقذفها ثلاث مرات … اللعنة! دعنا نَزِدْها لخمسٍ … اللعنة! حسنًا، دعنا نَزِدْها لسبعٍ …»

الآن، ومجدَّدًا، نعود في هذا الكتاب إلى المبدأ نفسه: إذا أعطيت نفسك فرصًا مُتعددة للحصول على نتيجةٍ إيجابية، ولكنك تستخدم اختباراتٍ إحصائيةً تفترض أنك حصلت على فرصةٍ واحدة فقط، فإنك بهذا تزيد في الحقيقة فرص حصولك على نتيجةٍ إيجابية زائفة ومضللة. وهذه هي المشكلة التي تصادفنا مع الأشخاص الذين يُخفون النتائج السلبية، ولكنها تنسحب أيضًا على الطريقة التي بمقتضاها يُحلل بعض الناس الدراسات، حتى وإن لم تُخفَ نتائجها.

فعلى سبيل المثال، إذا قذفت العملة لعددٍ كبير من المرات، فسرعان ما ستحصل على أربعة وجوه بنحوٍ متتابع. وهذا لا يُماثل أن تقول: «سوف أقذف العملة للحصول على أربعة وجوه متتابعة الآن.» ثم تفعل هذا. وإننا نعرف أن الإطار الزمني الذي تضربه حول بعض البيانات يمكن أن يسمح لك بالتقاط حزمةٍ من النتائج التي تسرُّ قلبك، ولكننا نعرف أن هذا يُمكن أن يكون مصدرًا للأخطاء.

على سبيل المثال، أُجريت تجرِبة لدراسة أمان عقَّار جديد مُسكن للألم يُسمَّى السيليكوكسيب في علاج التهاب المفاصل على المدى الطويل في مُقابل عقَّارَين قديمين على مدى فترةٍ تبلغ ستة أشهُر. وأظهر العقَّار الجديد ميزة أن مُضاعفاته أقل فيما يخص الجهاز الهضمي؛ لذا أقبل الكثير من الأطباء على وصفه للمرضى، ولكن تبيَّن بعد ذلك بعامٍ أن المسعى الأصلي للتجرِبة كان متابعة العلاج بالعقَّار لأكثر من عام. ولكن لم يظهر للعقَّار أي فائدةٍ إضافية طوال تلك المدة الطويلة، وفقط عندما أُظهرت نتائج العلاج به على مدى ستة أشهُر فقط وعُرضت في البحث المنشور عنه، بدأ يلمع وينتشر.

يجب أن نتوقف هنا لبرهة، لكي ندرك أنه يُمكن أحيانًا أن يُسمح للمرء على نحوٍ مشروع أن يوقف التجرِبة مبكرًا؛ على سبيل المثال، إذا كان ثَمَّةَ فارق هائل ومُذهل فيما يتعلق بفائدة العقَّارَين محل المقارنة، وتحديدًا إذا كان الفارق كبيرًا وواضحًا وبارزًا جدًّا، لدرجة أنك حتى عندما تأخذ في اعتبارك الآثار الجانبية، فلن يجرؤ طبيب عاقل على الاستمرار في وصف العقَّار السيئ ولن يصفه أحد مجدَّدًا.

ولكن عليك هنا أن تتوخَّى الحذر الشديد؛ فقد صدرت بعض النتائج الخاطئة الفظيعة من قِبل أُناسٍ تبنَّوا هذا المفهوم دون تحفُّظ؛ فعلى سبيل المثال، توقفتْ مبكرًا تجرِبة أُجريت على إعطاء عقَّار البيسوبرولول للمرضى أثناء إجراء جراحةٍ بالأوعية الدموية حينما أُصيب مريضان كانا يتناولان العقَّار بمشكلةٍ كبيرة في القلب، بينما أُصيب بهذه المشكلة ثمانية عشر مريضًا كانوا يتناولون عقَّارًا وهميًّا. وبدا أن هذا العقَّار كان منقذًا مهمًّا للحياة، وتغيرت توصيات العلاج. ولكن حينما بدأ يظهر أن هذه التجرِبة ربما تكون قد بالغت في ذكر فوائده، أُجريت تجربتان أخريان أكبر حجمًا، ووجدتا أنه بالفعل لم يُحقِّق أي فائدة.12 وكانت النتيجة الأصلية غير صحيحة، والتي تسبَّبت في إيقاف الباحثين للتجرِبة مبكرًا بعد حدوثٍ عرَضي لعددٍ كبير من حالات الوفاة.

وهنا يجب أن يكون واضِحًا أن لجنة الأخلاقيات الطبية التي تُشرف على تجرِبةٍ ما، ربما تطلب بنفسها أحيانًا أن تُوقف التجرِبة مبكرًا، وأن إلقاء نظرةٍ على النتائج أثناء إجراء التجرِبة وقبل اكتمالها قد يُثير تساؤلاتٍ أخلاقيةً مُزعجة بالفعل. فإذا بدا أنك وجدت أدلةً على حدوث ضررٍ ما من جرَّاء أحد العلاجين المُقارَن بينهما قبل نهاية فترة الدراسة (أو نقول بالمثل، من الناحية الأخلاقية، إن علاجًا ما أفضل بكثيرٍ من الآخر)، فهل يتعيَّن عليك الاستمرار في تعريض المرضى في تجربتك لما يمكن أن يُشكِّل ضررًا واضحًا لهم لمجرد اهتمامك بمعرفة ما إذا كان ما حصلتَ عليه من نتيجةٍ مجرد مصادفة؟ أو هل يتعين عليك أن تُنهيَ الأمر وتُوقف التجرِبة مما قد يسمح لتلك النتيجة العرَضية بأن تُلوِّث الكتابات والأبحاث الطبية؛ مما يُشوِّه المعلومات الخاصة بالقرارات العلاجية لعددٍ أكبر من المرضى في المستقبل؟ وهذا أمر يُثير القلق بصفةٍ خاصة حينما تضع في اعتبارك أنه بعد الإيقاف المبكر لتجرِبةٍ ما، غالبًا ما يتعين إجراء تجرِبةٍ أخرى أكبر على أي حال؛ مما يُعرِّض المزيد من المرضى للخطر، وذلك لمجرد أن تكتشف ما إذا كانت نتيجة تجربتك سليمةً أم لا.

وثَمَّةَ طريقة للحد من الضرر الذي يُمكن أن ينشأ عن الإيقاف المبكر لأي تجرِبة، وذلك بوضع «قواعد للإيقاف» تُحدد قبل بدء التجرِبة، وتُحسب بعنايةٍ بحيث لا يَحتمِل تجاوزها بفعل التفاوت العرَضي الذي تتوقع أن تراه بمرور الوقت في أي تجرِبة. وهي قواعد مفيدة لأنها تَحدُّ من تدخُّل عنصر الحكم البشري الذي يمكن أن يُسبِّب حالاتٍ من التحيُّز المنهجي.

ولكن، أيًّا كان ما نفعله بشأن الإيقاف المبكر للتجارب في عالم الطب، فإنه من المرجح أن يُفسد البيانات. وقد أُجريت مراجعة في عام ٢٠١٠ تناولت حوالي مائة من التجارِب التي أُوقفت على نحوٍ مبكر، وأربعمائة من التجارِب المناظرة، التي استمرَّت في مسارها حتى نهايتها؛ فأظهرت التجارِب الأولى فوائد أكبر للعلاجات التي كانت تختبرها وبالغت في إثبات فاعليتها بمقدار الربع تقريبًا.13 كما وجدت مراجعة حديثة أخرى أن عدد التجارِب التي توقفت مبكرًا قد تضاعف مرتين منذ عام ١٩٩٠،14 وهو أمر على الأرجح ليس جيدًا؛ فعلى أقل تقديرٍ يجب أن ننظر إلى النتائج المتمخضة عن التجارِب التي تتوقف مبكرًا بقدرٍ كبير من الشك والارتياب، ولا سيَّما أن هذه المراجعات المنهجية نفسها تُظهر أن تلك التجارِب غالبًا ما لا يُعلِن من يُجرُونها على نحوٍ مفصل عن أسباب إيقافهم لها.

وكل ذلك في النهاية يصير أكثر إثارةً للقلق حينما تبحث في أي التجارِب أوقفت مبكرًا، ومن الذين أجرَوْها، ولأي غرضٍ استُخدمت.

في عام ٢٠٠٨، جمع أربعة من الأكاديميين الإيطاليين كل التجارِب العشوائية التي أُجريت على علاجات السرطان التي نُشرت نتائجها في الأعوام الأحد عشر السابقة، والتي أُوقفت مبكرًا نظرًا لفائدتها.15 وتبيَّن أن أكثر من نصفها نُشر في الأعوام الثلاثة السابقة؛ مما يوحي مجددًا بأن هذه القضية قد ازدادت انتشارًا؛ فالسرطان هو حقل من حقول الطب، ويتسم بأنه سريع الحركة وجاذب بشدةٍ للأنظار، والوقت فيه من ذهب، ويمكن أن تجنيَ العقاقير الجديدة فيه أرباحًا طائلةً بسرعة. وقد استُخدم ست وثمانون بالمائة من التجارِب التي توقفت مبكرًا في دعم طلباتٍ لطرح عقاقير جديدة في سوق الأدوية.

(٦) التجارِب التي تتوقف بعد الأوان

من الخطأ الظنُّ بأن أيًّا من هذه القضايا تُظهر انتهاكاتٍ لقواعدَ بسيطةٍ يجب اتباعها بلا تفكير؛ إذ يُمكن إيقاف تجرِبةٍ ما مبكرًا جدًّا على نحوٍ أحمق، ولكن من الممكن إيقافها أيضًا مبكرًا لأسبابٍ منطقية. وبالمثل، يُمكن أن يحدث العكس؛ فأحيانًا يمكن إطالة أمد تجرِبةٍ ما لأسبابٍ سليمة تمامًا، ولكن أحيانًا يمكن أن تتسبَّب إطالة أمد التجرِبة — أو إضافة النتائج المترتبة على فترة متابعة بعدها — في تخفيف حدة النتائج المهمة، وجعْلها أصعب في إدراكها.

وأضرب هنا مثالًا بعقَّارٍ يُسمَّى السالميترول، وهو عقَّار استنشاقي يُستخدَم في علاج الربو والانتفاخ الرئوي. إن قصة هذا العقَّار16 — إذا استطعت تتبُّع تفاصيلها التقنية حتى النهاية — مفزعة جدًّا؛ لذا، وكما هي الحال دائمًا، تذكَّر أن هذا الكتاب ليس للمساعدة الذاتية، ولا يحتوي على نصائح مطلقًا تقول إن هذا العقَّار أو ذاك جيد أو سيئ بصفةٍ عامة، بل إننا ننظر هنا في الطرق البحثية المَعيبة التي تطل برءوسها في التجارِب الخاصة بمختلِف أنواع العقاقير.

هذا العقَّار دواء «مُوسِّع للشُّعب الهوائية»؛ مما يعني أنه يعمل على فتح القنوات التنفسية في رئتيك؛ مما يسهل عليك التنفس. ولكن في عام ١٩٩٦ بدأت تظهر تقارير متقطعة تشير إلى أنه يتسبَّب فيما يُسمَّى «التشنج الشُّعبي المتناقض»، حيث يحدث عكس المطلوب تمامًا؛ مما يجعل المرضى تسوء حالاتهم بالفعل. وكثيرًا ما يميل المنتقدون الهواة لأنْ يُغفلوا تلك الروايات الشخصية باعتبارها «غير علمية»، ولكن هذا خطأ؛ فصحيح أن أدلتها أضعف من أدلة التجارِب، ولكنها ليست خالية من القيمة، وكثيرًا ما تكون أول علامةٍ على وجود مشكلةٍ ما (أو حتى على وجود منفعةٍ غير متوقَّعة).

وقررت الشركة المنتجة للعقَّار جلاكسو سميث كلاين بحكمةٍ أن تتأكد من مدى صحة تلك التقارير المبكرة بإجراء تجرِبةٍ عشوائية، وذلك لمقارنة المرضى الذين يتعاطَون العقَّار في مقابل المرضى الذين يستخدمون عقاقير وهمية لا تحتوي على أي دواءٍ فعَّال. وحُددت بعنايةٍ على نحو سابق النتيجة الإكلينيكية الأساسية الواجب قياسها، وهي «الوفيات التنفسية والأحداث المهدِّدة للحياة». وتضمَّنت النتائج الإكلينيكية الثانوية أمورًا مثل الوفيات المتعلقة بالربو (والتي تُعَد مجموعةً فرعية من جميع الوفيات التنفسية)، والوفيات لأي سبب، و«الوفيات المتعلقة بالربو أو الأحداث المهدِّدة للحياة».

وكان من المفترض أن يشارك في هذه التجرِبة ٦٠ ألف شخص، وأن يُتابَع هؤلاء بنحوٍ مكثف على مدى ثمانية وعشرين أسبوعًا، مع فحص الباحثين لحالاتهم كل أربعة أسابيع لاكتشاف ما قد يتم من تقدُّم أو ينشأ من مشكلات. وعلى مدى ستة أشهُر بعد انتهاء فترة الثمانية والعشرين أسبوعًا هذه، طُلب من متابعي تلك الحالات أن يُبلغوا عن أي آثارٍ سلبية خطيرة اكتشفوها، ولكنهم لم يكونوا أصلًا يبحثون عنها بجدية.

وما حدث بعد ذلك كان قصةً مُفجِعة رواها بالتفصيل في بحث بدورية «ذا لانست» بعدها بسنواتٍ كلٌّ من بيتر لوري وسيدني وولف، اعتمادًا على مستندات هيئة الغذاء والدواء الأمريكية؛ ففي سبتمبر ٢٠٠٢، اجتمع الطاقم المشرف على التجرِبة، وفحصوا حالات اﻟ ٢٦ ألف مريض الذين استمرُّوا قيد التجرِبة حتى ذلك الحين. وبالحكم على التجرِبة من واقع نتائجها الإكلينيكية الرئيسية، وهي «الوفيات التنفسية والأحداث المهدِّدة للحياة»، تبيَّن أن العقَّار أسوأ من العقَّار الوهمي، رغم أن الفارق بينهما لم يكن ذا دلالةٍ كبيرة من الناحية الإحصائية. وقد صَدَق الشيء نفسه على «الوفيات المتعلقة بالربو». وخيَّر الطاقمُ المشرف على التجرِبة إدارةَ الشركة بين إشراك ١٠ آلاف مريض آخرين للتأكد من هذا الأمر المثير للقلق، وإنهاء التجرِبة «مع نشر النتائج بأسرع وقتٍ ممكن». فاختارت الشركة الخيار الثاني، وقدَّمت هذا التحليل المؤقت في أحد المؤتمرات (قائلةً عنه إنه ليس «نهائيًّا»). فشعرت هيئة الغذاء والدواء الأمريكية بالقلق وأدخلت تغييرًا على النشرة الدوائية للعقَّار مفاده أنه يتسبَّب في «زيادة بسيطة ولكن جوهرية في الوفيات المتعلقة بالربو».

وهنا وقع ما يثير الاهتمام؛ إذ أرسلت الشركة ملف الإحصائيات المتعلقة بالتجرِبة إلى الهيئة، ولكن الأرقام التي أرسلتها لم تكن محسوبةً باستخدام الطريقة المحددة ضمن البروتوكول الموضوع قبل بداية الدراسة، والذي نصَّ على أن الأرقام الناتجة عن هذه الآثار السلبية يجب أن تأتيَ من فترة الثمانية والعشرين أسبوعًا التي استغرقتْها التجرِبة، حيث خضعت تلك الآثار لمتابعةٍ دقيقة. ولكن الشركة، بدلًا من هذا، أرسلت الأرقام الخاصة بفترة الاثني عشر شهرًا بكاملها، وهي متضمِّنة فترة الثمانية والعشرين أسبوعًا التي رُوقبت فيها الآثار السلبية بدقة، وكذلك فترة الأشهر الستة التي تلت نهاية التجرِبة، حينما لم تخضع تلك الآثار لمراقبة جدية؛ ومن ثَمَّ، قلَّ احتمال اكتشافها. وهذا يعني أن المعدل المرتفع من الآثار السلبية في فترة الثمانية والعشرين أسبوعًا من التجرِبة قد قل بفعل الفترة الأخرى، وأن المشكلة قد صارت أقلَّ أهمية.

وإذا نظرت إلى الجدول التالي المأخوذ من دورية «ذا لانست»، يمكنك أن تلاحظ الفارق الذي أحدثه ذلك. لا تقلق إذا لم تفهم كل شيء، ولكن فيما يلي جزئية سهلة الفهم وأخرى صعبة الفهم يجب أن تدركهما حتى تتكوَّن لديك خلفية جيدة عن الأمر. يصف «الخطر النِّسبي» مقدار قابليتك للإصابة بحدثٍ ما (مثل الموت) إذا كنت ضمن المجموعة التي تتعاطى عقَّار السالميترول، مقارنةً بمجموعة العقَّار الوهمي؛ ومن ثَمَّ، فإن الخطر النِّسبي الذي يساوي ١٫٣١ معناه أن لديك قابليةً أكثر بنسبة ٣١ بالمائة للإصابة بذلك الحدث (الموت، مثلًا).

أما عن المقصود بالذي يوجد بين قوسين بعد ذلك، وهو «فترة ثقة ٩٥ بالمائة»، فسنوضحه فيما يلي؛ فبينما يُعَد الرقم الخاص بالخطر النِّسبي «التقدير النقطي» للفارق في الخطر الذي تتعرَّض له المجموعتان (مجموعة العقَّار ومجموعة العقَّار الوهمي)، يخبرنا رقم فترة الثقة هذا عن مقدار الثقة الذي يمكن أن يكون لدينا فيما يخص هذه النتيجة. وسوف يرغب الإحصائيون في قتلي لو بالغت في تبسيط هذه المسألة، ولكن أقول بوجهٍ عام إنك إن أجريت هذه التجرِبة نفسها في مرضى ينتمون إلى المجتمع السكاني نفسه لمائة مرة، فسوف تحصل على نتائجَ مختلفةٍ قليلًا في كل مرة، وهذا يرجع ببساطةٍ لتأثير المصادفة. ولكن في خمسٍ وتسعين مرةً من كل مائة مرة سيقع الخطر النسبي في مكانٍ ما بين طرفَي فترة ثقة قدرها ٩٥ بالمائة. ولو كانت لديك طريقة أفضل لشرح هذا الأمر بطريقةٍ موجزة كهذه، فأرسلها إليَّ.

لم تخبر الشركةُ هيئةَ الغذاء والدواء عن نوعية النتائج التي قدَّمتْها إليها. في الحقيقة، لم تعرف الهيئة أنها بيانات الاثني عشر شهرًا إلا في عام ٢٠٠٤ عندما سألت الشركة تحديدًا عن ذلك. وحينها لم تُعبِّر الهيئة عن دهشتها، وإن كانت قد عبَّرت عن موقفها بعبارةٍ رتيبة قالت فيها: «افترضت الإدارة أن البيانات مثَّلت [فقط] فترة الثمانية والعشرين أسبوعًا؛ إذ إن تلك هي الفترة التي تهمُّنا من الناحية الإكلينيكية.» وطلبت بيانات الثمانية والعشرين أسبوعًا، وقالت إنها ستبني جميع معلوماتها الخاصة بالنشرة الدوائية للعقَّار على هذا الأساس. وتلك البيانات، كما يمكن أن تلاحظ، كانت ترسم صورةً أشد إثارةً للقلق عن العقَّار.

fig9
شكل ٤-١

واستغرق الأمر سنتين منذ نهاية التجرِبة حتى نُشرت هذه النتائج في بحثٍ أكاديمي يقرؤه الأطباء. وبالمثل، استغرق الأمر وقتًا طويلًا حتى بدأت النشرة الدوائية لهذا العقَّار تشرح نتائج تلك الدراسة.

ثَمَّةَ درسان مهمَّان يمكن تعلُّمهما من تلك القصة، كما أشار كلٌّ من لوري وَوولف؛ أولًا، كان باستطاعة إحدى الشركات أن تُبطئ من وصول أخبار النتيجة السلبية للتجرِبة إلى الإكلينيكيين والمرضى، حتى برغم أن ذلك العلاج كان واسع الانتشار والاستخدام، لفترةٍ طويلة من الزمن. وهذا أمر قد رأيناه من قبل. ثانيًا، إننا ما كنا لنعرف أي شيءٍ عن هذا الأمر لو لم تكن أنشطة اللجان الاستشارية لهيئة الغذاء والدواء الأمريكية متاحة، ولو بصفةٍ جزئية على الأقل، للفحص العام لأنَّ وجود «أعيُن كثيرة» فاحصة غالبًا ما يكون لازمًا لرصد العيوب المخفيَّة في البيانات. وهذا مجدَّدًا أمر قد رأيناه من قبل.

وردَّت الشركة في دورية «ذا لانست» قائلةً إن بيانات الاثني عشر شهرًا كانت البياناتِ الوحيدةَ التي حُللت من قِبل الطاقم المشرف على التجرِبة الذي كان مستقلًّا عن الشركة (فقد أجرت التجرِبة إحدى مؤسسات الأبحاث الإكلينيكية).17 وقالت إنها أعلنت عن المخاطر بصفةٍ عاجلة، وأرسلت خطاباتٍ إلى الأطباء الذين كانوا قد وصفوا العقَّار في يناير ٢٠٠٣ حينما أوقفت التجرِبة رسميًّا، كما ظهر إخطار مماثل في موقعَي الشركة وهيئة الغذاء والدواء على الإنترنت ينصُّ على وجود مشكلةٍ ما في العقَّار.

(٧) التجارِب الصغيرة جدًّا

لا بأس بأن تكون التجرِبة صغيرة، إذا كان عقَّارك مُنقِذًا للأرواح في حالاتٍ تُعَد قاتلة بالأساس. ولكن يلزمك إجراء تجرِبةٍ كبيرة حتى تكتشف الفروق الصغيرة بين نوعين من العلاج، كما يلزمك إجراء تجرِبةٍ كبيرة جدًّا حتى تكون على ثقةٍ من أن علاجين متساويان في الفاعلية.

وإذا كان هناك أمر يظن كل امرئ أنه يعرفه عن البحث العلمي، فهو أن وجود عددٍ كبير من المشاركين في الدراسة يعني أنها جيدة. وهذا صحيح، ولكنه ليس العامل الوحيد؛ فإن فائدة وجود المزيد من المشاركين هي أنها تُقلل التفاوت العشوائي فيما بينهم؛ فعلى سبيل المثال، إذا أُجريت تجرِبة شديدة الصِّغر على عقَّارٍ رائع يُحسِّن من معدل التركيز، مع وجود عشرة أشخاص في كل مجموعة، فإن مجرد وجود شخصٍ واحد منهم فقط كان ساهرًا في إحدى الحفلات الكبيرة في الليلة السابقة على تجربتك يمكن أن يُؤدِّيَ إلى إلحاق الضرر بنتائجك. ولكن لو كان لديك الكثير من المشاركين، فإن هذا النوع من المشكلات المزعجة تقلُّ حِدته.

ورغم ذلك، يجدر بنا أن نتذكر أنه أحيانًا ما تكون الدراسة الصغيرة كافية؛ إذ يعتمد حجم العينة المطلوب في التجرِبة على عددٍ من العوامل؛ فمثلًا، إذا كان هناك مرض يموت كل من يُصاب به في غضون يومٍ واحد، ولديك عقَّار تزعم أنه سيعالج هذا المرض فورًا، فلن تحتاج أبدًا لوجود مشاركين كثيرين لتُظهر أن عقَّارك فعَّال. ولكن لو كان الفارق الذي تُحاول اكتشافه بين مجموعتَي العلاج طفيفًا جدًّا، فستحتاج لوجود المزيد من المشاركين لكي تستطيع الكشف عن هذا الفارق الدقيق في مقابل الخلفية الطبيعية للتفاوت اليومي غير القابل للتوقُّع في المستوى الصِّحي لجميع الأفراد المشاركين في دراستك.

وأحيانًا ما ترى عددًا ضخمًا يثير الريبة من التجارِب الصغيرة قد نُشر عن أحد العقاقير، وحينما يحدث هذا، فمن المنطقي أن تشكَّ في أن هذا قد يَحدث بغرضٍ تسويقي — بحيث يُقصد منها أن تكون بمنزلة سيل من المنشورات للترويج للعقَّار — وليست مجرد أعمالٍ حقيقية تتعلق بالبحث العلمي. وسنجد أيضًا بعد قليلٍ مثالًا أكثر سوءًا وصدمًا للمشاعر عن أساليب التسويق في الجزء الخاص بتسويق التجارِب.

ولكن هناك مُشكلة مُثيرة للاهتمام من الناحية المنهجية تتوارى هنا أيضًا؛ فحينما تُخطِّط لإجراء تجرِبةٍ للكشف عن فارقٍ ما بين مجموعتين من المرضى بخصوص نوعين مختلفين من العلاج، فإنك ستستخدم شيئًا يُسمَّى «حساب القدرة الإحصائية»، الذي يُخبرك بعدد المرضى الذي ستحتاج إليه إذا أردت الحصول، مثلًا، على فرصةٍ بنسبة ٨٠ بالمائة للكشف عن فارقٍ حقيقي بنسبة ٢٠ بالمائة في معدل الوفيات، وذلك مع معرفة المعدل المتوقَّع للوفيات بين المشاركين في تجاربك. فإذا أكملت التجارِب ولم تجد فارقًا في الوفيات بين المجموعتين العلاجيتين، فهذا يعني أنك لا تستطيع العثور على دليلٍ على أن أحد العلاجين أفضل من الآخر.

وهذا لا يتساوى مع إظهار أن العلاجين متكافئان؛ فإنْ أردت أن تستطيع القول بأن العلاجين متكافئان، فستحتاج لأسبابٍ تقنية معقَّدة بشدة إلى عددٍ أكبر بكثيرٍ من المشاركين.

وكثيرًا ما ينسى الناس هذا الأمر؛ فعلى سبيل المثال، أُجريت تجرِبة «التدخُّل كهدف لعلاج ضغط الدم المرتفع» لمعرفة ما إذا كان عقَّار نيفيديبين أفضل من عقَّار كو-أميلوزيد في علاج ضغط الدم المرتفع. ولم تجد دليلًا على هذا. ولكن البحث الذي نُشر عن التجرِبة قال إن العقَّارين وُجد أنهما متكافئان. وكانت الحقيقة غير ذلك.18 وقد أشار الكثير من الأكاديميين والأطباء إلى هذا الأمر في الخطابات التي أرسلوها لاحقًا.

(٨) التجارِب التي تقيس نتائج إكلينيكية غير مهمة

إن اختبارات الدم من السهل إجراؤها وقياسها، وغالبًا ما تستجيب بنحوٍ جيد جدًّا لجرعةٍ من عقَّارٍ ما، ولكن المرضى يهمهم أن يعرفوا ما إذا كانوا يعانون مرضًا ما أو معرضين للوفاة أكثر مما تهمهم قراءة أرقام مطبوعة في تقرير معملي.

هذا الأمر قد عرضنا له بالفعل في الفصل السابق، ولكنه يستحق التكرار هنا لأنه من المستحيل توضيح كم الثغرات المتروكة في معرفتنا الإكلينيكية بسبب الثقة العمياء غير المبرَّرة في النتائج الإكلينيكية البديلة؛ فعلى سبيل المثال، أُجريت تجارب لمقارنة عقاقير الاستاتين في مقابل عقاقير وهمية، وأظهرت أن تلك العقاقير مُنقِذة للأرواح بنحوٍ جيد. كما أُجريت تجارب لمقارنة تلك العقاقير بعضها مع بعض، ولكن تلك التجارِب جميعًا استخدمت معدل الكولسترول كنتيجة بديلة. ولم يحدث أن أجرى أحد تجرِبة المقارنة بين تلك العقاقير لمعرفة أفضلها في منع الوفاة. وهذا خطأ صادم بحق، حينما نضع نُصْب أعيننا أن عشرات الملايين من الناس حول العالم يتناولون تلك العقاقير على مدى سنواتٍ كثيرة جدًّا؛ فلو كان واحد منها فقط أفضل من الأخرى بنسبة ٢ بالمائة في منع النوبات القلبية، فإننا بهذا نساهم في تجنُّب عدد هائل من الوفيات التي تحدث كل يوم؛ إذ يتعرَّض عشرات الملايين من المرضى لمخاطر لا لزوم لها لأن العقاقير التي يتناولونها لم تُقارَن فيما بينها بنحوٍ جيد، ولكن كُلًّا من أولئك المرضى باستطاعته تقديم بيانات يمكن استخدامها في تجميع معرفة جديدة عن أي من تلك العقاقير أفضل بصفةٍ إجمالية، فقط لو تم هذا في تجرِبةٍ عشوائية على نحوٍ منهجي، وتمت متابعة النتائج. سنعرض المزيد عن هذا حينما نناقش الحاجة لتجارب أكبر وأبسط في الفصل التالي لأن هذه المشكلة ليست أكاديمية، بل تَضيع الأرواح بسبب قَبولنا غير المتحفظ لتجارب لا تقيس نتائج إكلينيكية حقيقية.

(٩) التجارِب التي يتم تجميع نتائجها الإكلينيكية بطرقٍ غريبة

في بعض الأحيان، يمكن أن تُعطِيَ طريقةُ تجميع بيانات النتائج الإكلينيكية نتائجَ مضللة. على سبيل المثال، عندما تضع حدود التجرِبة بما يناسبك تمامًا، يمكنك أن تُحوِّل فائدة متواضعة لدوائك إلى فائدة رائعة ظاهريًّا. وعن طريق تجميع الكثير من النتائج الإكلينيكية المختلفة معًا، لعمل «نتيجة إكلينيكية مركبة» ضخمة، يمكنك أن تُخفِّف من وقْع الأضرار، أو تسمح لأن يبدو التحسن الاستثنائي في نتائج غير مهمة كما لو كان تحسنًا حدث في مجموعة كاملة من النتائج الإكلينيكية.

حتى إذا جمعت بيانات النتائج الإكلينيكية على نحوٍ صحيح تمامًا، فإن الطريقة التي تجمع بها هذه النتائج معًا على مدار فترة التجرِبة يمكن أن تكون مضللة. فيما يلي بعض الأمثلة البسيطة على ذلك، ثم بعض الأمثلة الأكثر تعقيدًا إلى حدٍّ ما.

كمثال بسيط جدًّا، الكثير من الأوراق البحثية (نحمد الرب على أن ذلك كان أغلبه في الماضي) قد استخدم منهج «تسجيل أسوأ الآثار الجانبية».19 وهذا يمكن أن يكون مضللًا للغاية؛ لأنه يأخذ أسوأ الآثار الجانبية التي سجلها المريض أثناء التجرِبة، وليس إجمالي كل الآثار الجانبية التي سجلها على مدار فترة الدراسة بأكملها. ويمكنك أن تشاهد في الرسمين البيانيين التاليين لماذا يتسبب ذلك في مشكلة؛ لأن الدواء الموجود في الأعلى أُظهر وكأنه في نفس جودة الدواء الموجود في الأسفل، باستخدام منهج «تسجيل أسوأ الآثار الجانبية» المذكور، رغم أن الدواء الموجود في الأسفل واضح أنه أفضل من ناحية آثاره الجانبية على المريض.
fig10
شكل ٤-٢
يمكن إجراء اختزالٍ آخر مضلل من خلال اختيار حدٍّ معين للفائدة كدليلٍ لنجاح العلاج، والتظاهُر بأن هذا يشير إلى فائدة علاجية ذات معنًى، في حين أن هذه الفائدة غير موجودة في الواقع. على سبيل المثال، يمكن اعتبار تقليل حدة الأعراض بنسبة ١٠ بالمائة نجاحًا في التجرِبة، رغم أن المرضى ما زالوا يعانون معاناةً شديدة.20 ويكون هذا مضللًا بوجهٍ خاص إذا قيل على دواءٍ إنه قد حقَّق نجاحًا رائعًا في حالة نجاحه في التأثير على المريض بأي نحو، وقيل على آخر إنه حقَّق نجاحًا متواضعًا في حالة نجاحه في التأثير على المريض بأي نحو، ولكنَّ كليهما تجاوزا حد الفائدة المتواضع المطلوب والبالغ ١٠ بالمائة في نفس عدد المرضى؛ وفجأةً نجد دواءً رديئًا جدًّا يظهر وكأنه بنفس مقدار جودة أفضل دواء في فئته.
يمكنك أيضًا مزج الكثير من النتائج الإكلينيكية المختلفة معًا لإنتاج «نتيجة إكلينيكية مركبة» واحدة.21 وكثيرًا ما يكون هذا مشروعًا، إلا أنه أحيانًا يؤدي إلى المبالغة في تقدير فوائد الدواء. على سبيل المثال، تُعَد النوبات القلبية من الأحداث النادرة نسبيًّا في الحياة بنحوٍ عام، وأيضًا في معظم تجارب الأدوية القلبية الوعائية؛ ولهذا السبب يجب أن تكون هذه التجارِب غالبًا كبيرة جدًّا، لكي تكون لديها فرصة اكتشاف الفَرق في معدل الإصابة بالنوبات القلبية بين المجموعتين؛ لذا، يشيع نسبيًّا تجميع «النتائج القلبية الوعائية المهمة» كلها معًا. وسوف تشمل «النتيجة الإكلينيكية المركبة» هذه الموتَ والنوبةَ القلبية والذبحةَ الصدرية (وهي، لمن لا يعرفها، عبارة عن ألمٍ في الصدر ناتج عن مشكلات قلبية، وهي شيء مقلق ولكن ليس بنفس درجة النوبة القلبية والوفاة). والتحسُّن الضخم المُسجَّل في معالجة النتيجة المركبة هذه يمكن أن يبدوَ لك كإنجازٍ عظيم فيما يتعلق بمعالجة النوبات القلبية والموت، إلى أن تُدقِّق في البيانات الأولية وترى أنه كان يوجد بالكاد نوبات قلبية أو حالات وفاة في فترة الدراسة، وكل ما تراه في الحقيقة هو بعض التحسُّن في حالة الذبحة الصدرية.
إحدى النتائج المركبة المؤثرة بنحوٍ خاص جاءت من تجرِبةٍ بريطانية شهيرة يُطلَق عليها «دراسة المملكة المتحدة الاستشرافية لمرض السكر»، وقد بحثت ما إذا كان الضبط الشديد لمستويات السكر في الدم لدى المرضى المصابين بالسكر يُشكل فارقًا في النتائج الواقعية الخاصة بهم. وقاست تلك الدراسة ثلاث نتائج إكلينيكية، ولم تجد أي فائدة فيما يتعلق بالنتيجتين الإكلينيكيتين الأوليين، وهما الوفاة والوفاة المرتبطة بمرض السكر؛ ولكنها وجدت انخفاضًا بنسبة ١٢ بالمائة في النتيجة المركبة. هذه النتيجة المركبة تتكون من الكثير من الأشياء، وهي:
  • الوفاة المفاجئة.

  • الوفاة الناتجة عن انخفاض أو ارتفاع سكر الدم.

  • النوبات القلبية القاتلة.

  • النوبات القلبية غير القاتلة.

  • الذبحة الصدرية.

  • الفشل القلبي.

  • السكتة الدماغية.

  • الفشل الكُلوي.

  • البتر.

  • النزيف في الغرفة الوسطى للعين.

  • تلف شرايين العين الناتج عن مرض السكر والذي يتطلب العلاج بالليزر.

  • العمى في إحدى العينين.

  • إعتام عدسة العين الذي يتطلب الإزالة.

تلك قائمة طويلة حقًّا، والانخفاض بنسبة ١٢ بالمائة فيها كلها معًا يبدو بالتأكيد «دليلًا مهمًّا موجهًا للمرضى». ولكن معظم التحسُّن في النتيجة الإكلينيكية المركبة هذه نتج عن انخفاض عدد الأشخاص المُحالين لعلاج تلف شرايين العين بالليزر. وهذا شيء جيد، ولكنه بالتأكيد ليس أهم شيءٍ في هذه القائمة، كما أنه يُعَد نتيجة إجرائية إلى حدٍّ كبير وليست مادية واقعية. فإذا كنت مهتمًّا بالنتائج الواقعية، فلْتعلمْ أنه لم يحدث حتى أي تغييرٍ في عدد الأشخاص الذين يفقدون بصرهم، ولكن على أي حال، من الواضح أن تلف شرايين العين أقل أهميةً بكثيرٍ من النوبات القلبية أو الوفاة أو السكتات الدماغية أو البتر. بالمثل، وجدت التجرِبة أنَّ لضبط معدل السكر فائدةً أخرى؛ إذ يُقلل بعض العلامات الدموية التي تشير إلى وجود مشاكل في الكُلى، ولكن لم يكن له أي تأثيرٍ على المرضى الذين في المرحلة النهائية من مرض الكُلى.
يُعَد هذا مثيرًا للاهتمام فحسب لأن هذه الدراسة لها مكانة استثنائية إلى حدٍّ ما لدى الأطباء؛ نظرًا لأنها تُبيِّن فائدة التحكم الشديد في سكر الدم لدى الأشخاص المصابين بالسكر، فيما يتعلق بنتائج إكلينيكية متعددة. فمن أين أتى هذا الإيمان العميق السائد بين الأطباء؟ قررت مجموعة مغامِرة من الباحثين البحثَ عن كل أبحاث المراجعة الخاصة بمرض السكر التي تستشهد بتلك الدراسة، والتي كان عددها ٣٥، لترى ما كتبته عنها.22 قال ٢٨ بحثًا إن التجرِبة وجدت أن التحكم في سكر الدم له فائدة فيما يتعلق بالنتيجة المركبة، ولكنَّ بحثًا واحدًا ذكر أن معظم هذه الفائدة نتج عن تحسينات في أقل النتائج الإكلينيكية أهمية، وذكرت ستة أبحاث فقط أنها لم تجد أي تحسُّن فيما يتعلق بالوفاة، التي تُعَد بالتأكيد هي النتيجة الجوهرية المهمة. كشفت هذه الدراسة عن حقيقةٍ مرعبة، ألا وهي أن الشائعات وفرط التبسيط والأماني يمكن أن تنتشر عبر الأدبيات الأكاديمية، بنفس سهولة انتشارها عبر أي منتدى نقاشٍ على الإنترنت.

(١٠) التجارِب التي تتجاهل المرضى المنسحبين منها

في بعض الأحيان ينسحب المرضى من التجرِبة بأسرها قبل اكتمالها، وغالبًا ما يكون ذلك لأن الدواء الذي يُجرَّب عليهم لا يعجبهم. ولكنك عندما تحلل المجموعتين في تجربتك، يجب أن تحرص على تحليل كل المرضى الذين كان يفترض أن يتناولوا علاجًا ما، وإلا فسوف تبالغ في تقدير فوائد هذا العلاج.

من الأخطاء الكلاسيكية التي تُرتكب في مرحلة التحليل، والتي يمكن أن تُشوِّه بياناتك بنحوٍ رهيب، أن تحلل المرضى وفقًا للعلاج الذي تناولوه حقيقة، وليس الذي كان يفترض بهم أن يتناولوه في مرحلة التقسيم العشوائي للمرضى في بداية التجرِبة. يبدو هذا منطقيًّا جدًّا من النظرة الأولى؛ إذا تراجع ثلاثون بالمائة من المرضى ولم يأخذوا العلاج الجديد الذي تختبره، فهم بالتأكيد لن يحصلوا على فوائد العلاج، ويجب عدم تضمينهم في مجموعة «العلاج الجديد» في عملية التحليل.

لكن بمجرد أن تشرع في التفكير في أسباب خروج المرضى من تجارب الأدوية، تبدأ مشاكل هذا المنهج في الوضوح لك؛ فربما توقفوا عن تناول الدواء الجديد لأنه عرَّضهم لآثارٍ جانبية فظيعة، وربما توقفوا عن تناول الدواء الجديد لأنهم قرَّروا أنه غير مُجْدٍ، فما كان منهم إلا أن رمَوه في سلة المهملات. وربما توقفوا عن تناول الدواء الجديد وعن الحضور في مواعيد المتابعة لأنهم ماتوا بعد أن قتلهم دواؤك الجديد. يُطلق على فحص المرضى بِناءً على العلاج الذي تناولوه فقط اسم التحليل «حسب البروتوكول»، وقد ثبت أن هذا الأسلوب يبالغ للغاية في تقدير فوائد الأدوية؛ ولذا يجب ألا نستخدمه.

إذا احتفظت بكل المرضى الذين وُصف لهم العلاج الجديد — بمن فيهم هؤلاء الذين توقفوا عن تناوله — في مجموعة «العلاج الجديد» عندما تقوم بإجراء الحسابات الأخيرة، فإن هذا الأسلوب يُطلَق عليه تحليل «نية العلاج». وإلى جانب أن هذا التحليل أكثر تحفظًا، فهو أكثر منطقيةً من الناحية الفلسفية؛ فأنت ستستخدم نتائج تجرِبةٍ ما لتنوير قرارك بشأن ما إذا كنت «ستعطي مريضًا علاجًا معينًا» ولن «تجبر المريض على ابتلاع علاجٍ معين رغم أنفه»؛ لذلك فأنت تحتاج لأنْ تكون النتائج من تحليلٍ يفحص المرضى وفقًا لما وصفه لهم الطبيب، وليس وفقًا للعلاج الذي تناولوه حقيقةً.

سعدتُ بتصحيح ستين ورقة امتحان كان خُمس الدرجات فيها يُحصل عليه من خلال شرح معنى «تحليل نية العلاج»؛ فهذا يوجد في جوهر مقرر الطب المستنِد إلى أدلة؛ لذلك فإن من المستغرَب أننا نظل حتى الآن نرى تحليلات «حسب البروتوكول» لا حصر لها مقدمة من جانب صناعة الأدوية. اطَّلعتْ إحدى المراجعات المنهجية على كل تقارير التجارِب التي قدَّمتْها شركات الأدوية لمراقب الأدوية السويدي، ثم على كل الأوراق البحثية الأكاديمية التي نُشرت بخصوص هذه التجارِب خصوصًا (في حال وجودها).23 كانت كل التقارير المقدَّمة لمراقب الأدوية باستثناء واحدٍ تَستخدم كلًّا من تحليلَي «نية العلاج» و«حسب البروتوكول» لأن المراقبين، رغم كل مساوئهم وإفراطهم في التكتُّم، على الأقل أكثر حرصًا، ولو بقليل، على الدقة المنهجية من الكثير من الدوريات الأكاديمية. وفي الوقت نفسه، استخدمتْ كل الأوراق البحثية الأكاديمية، باستثناء اثنتين فقط، تحليلًا واحدًا فحسب، ولا سيما التحليل «حسب البروتوكول» الذي يبالغ في تقدير الفوائد. وتلك هي النسخة التي يقرؤها الأطباء. في القسم التالي، سوف نرى مثالًا آخر على كيفية مشاركة الدوريات الأكاديمية في لعبة المبالغة في تقدير النتائج. في الغالب لا تؤدي هذه الدوريات مهمتها الأساسية التي تدَّعي القيام بها، والمتمثلة في الحرص على جودة الأبحاث المنشورة فيها.

(١١) التجارِب التي تُغير نتيجتها الإكلينيكية الأساسية بعد انتهائها

إذا قِست اثني عشر عنصرًا في تجربتك، ولكنك استشهدت بالتحسُّن الذي حدث في أيٍّ منها باعتباره نتيجةً إيجابية للدواء، فعندئذٍ تكون نتائجك غير ذات معنًى. تفترض اختبارات تحديد ما إذا كانت إحدى النتائج ذات دلالةٍ إحصائيًّا أنك تقيس عنصرًا واحدًا فحسب. وبقياس اثني عشر عنصرًا أنت تعطي لنفسك اثنتي عشر فرصةً للحصول على نتيجةٍ إيجابية، وليس فرصة واحدة، دون أن تُصرح بذلك؛ ومن ثَمَّ، فإن دراستك تكون متحيِّزة من حيث التصميم، ومن المرجح أن تجد نتائج إيجابية أكثر من النتائج الموجودة في الواقع.

تخيل أننا — أنا وأنت — نلعب بالنرد، ونعقد اتفاقًا بسيطًا (رغم أنه من طرفٍ واحد): إذا رميتُ قطعتين من النرد وظهر رقم ستة على كلٍّ منهما في الوقت نفسه، فسوف تدفع لي ١٠ جنيهات إسترلينية؛ ومن ثَمَّ رميتُ النرد، وظهر رقم ثلاثة في كلٍّ منهما، ولكنني طالبتك بالعشرة جنيهات، مدعيًا أن اتفاقنا في الأصل كان أن تعطيَني العشرة جنيهات إذا ظهر رقم ثلاثة في قطعتَي النرد؛ وأنت دفعت ليَ النقود، مع تشجيع كلِّ مَن حولنا. هذا السيناريو بالضبط يحدث يوميًّا في الأبحاث الأكاديمية الإكلينيكية، بنحوٍ روتيني، عندما نسمح للناس بأن يقوموا بما نُطلق عليه «تبديل النتيجة الإكلينيكية الأساسية».

قبل أن تبدأ أي تجرِبةٍ إكلينيكية، عليك أن تكتب البروتوكول الخاص بها. والبروتوكول هو عبارة عن مستند يشرح ما ستقوم به: كم عدد الأشخاص الذين ستطلب منهم المشاركة، وكيف ومن أين ستحصل عليهم، وما العلاج الذي ستتلقاه كل مجموعة، وما النتائج الإكلينيكية التي ستقيسها. وسوف تقيس في التجرِبة أي شيء باعتباره من النتائج الإكلينيكية الممكنة: ربما يكون لديك القليل من مقاييس التقييم المختلفة من أجل «الألم» أو «الاكتئاب» أو أي شيءٍ آخر تهتمُّ به؛ وربما «جودة الحياة» أو «القدرة على الحركة»، التي ستقيسها من خلال استبيانٍ ما؛ وربما «الوفاة الناجمة عن كل الأسباب»، والوفاة الناجمة عن كل سببٍ من عدد من الأسباب المحددة أيضًا؛ وغيرها من الأشياء.

من بين كل النتائج الإكلينيكية العديدة هذه، سوف تُحدِّد واحدة (أو ربما اثنتين أخريين، إذا بررت لهذا في تحليلك) باعتبارها النتيجة الإكلينيكية الأساسية. عليك أن تفعل ذلك قبل أن تشرع في التجرِبة؛ لأنك تحاول تجنُّب مشكلة بسيطة، ألا وهي أنك إذا قمت بقياس أشياء كثيرة، فسوف يَظهر لك تحسُّن ملحوظ إحصائيًّا في بعضها، فقط من التنوُّع العشوائي الطبيعي في كل بيانات التجرِبة. تذكَّر أن هؤلاء أشخاص حقيقيون في عالم الواقع، وألَمهم واكتئابهم وقدرتهم على الحركة وجودة حياتهم وكل هذه الأشياء ستتنوع، لأسبابٍ متنوعة، الكثير منها ليس له أي علاقة على الإطلاق بالعلاج الذي تختبره في التجرِبة.

إذا كنت باحثًا صادق النوايا، فأنت تستخدم الاختبارات الإحصائية تحديدًا للتعرُّف على الفوائد الحقيقية للعلاج الذي تختبره، وتحاول أن تُميِّز تلك التغيرات الحقيقية من التنوُّع العشوائي الطبيعي للتشويش الخلفي الذي تتوقع رؤيته في نتائج المرضى في الاختبارات المختلفة، وتريد أن تتجنَّب الحصول على نتائجَ إيجابيةٍ زائفة أكثر من أي شيء.

القيمة المرجعية التقليدية للدلالة الإحصائية هي «واحد في العشرين». بوجهٍ عام، يعني التوافق مع هذا أنك إذا كررت الدراسة نفسها مرةً بعد أخرى، بالطرق البحثية نفسها، على مشاركين مأخوذين من المجتمع نفسه، فسوف تتوقَّع الحصول على النتيجة الإيجابية نفسها التي لاحظتها مرةً في كل عشرين مرة، بالمصادفة البحتة، حتى إذا لم يكن للدواء أي فائدةٍ حقيقية. فأنت إذا دَلَّيت كُوبَين في الدورق نفسه المليء بالخرز الأبيض والأحمر، فمن حينٍ لآخر، سوف تُخرِج بالمصادفة البحتة عددًا صغيرًا جدًّا من الخرز الأحمر في أحد الكوبين، وعددًا كبيرًا جدًّا من الخرز الأحمر في الكوب الآخر. الشيء نفسه ينطبق على أي قياسٍ نُجريه على المرضى: سوف يكون هناك تنوعٌ عشوائيٌّ ما، ويمكن أن يبدوَ لنا الأمر في بعض الأحيان كما لو أن علاجًا معينًا أفضل من الآخر، بِناءً على منهج تقييمٍ معين، وذلك ببساطةٍ بسبب المصادفة البحتة. والاختباراتُ الإحصائية مصمَّمة بحيث تحمينا من التضليل الناجم عن مثل هذا التنوُّع العشوائي.

والآن، لِنتخيلْ أنك تُجري تجرِبةً تقيس فيها عشر نتائج إكلينيكية مختلفة ومستقلة. إذا حددنا القيمة المرجعية للدلالة الإحصائية لتكون «واحد في العشرين»، إذًا فحتى إذا كان دواؤك غير مُجدٍ بالمرة، فسيكون لديك فرصة بنسبة ٤٠ بالمائة في تجربتك المفردة أن تجد فائدةً إيجابية له فيما يتعلق بواحدةٍ على الأقل من النتائج التي تقيسها، ببساطةٍ نتيجة التنوع العشوائي لبياناتك. فإذا لم تكن قد حددت قبل الشروع في التجرِبة أي النتائج الإكلينيكية الكثيرة ستكون النتيجة الأساسية التي ستقيسها، فمن الممكن أن تتجرَّأ وتُبلغ أي نتيجة إيجابية تحصل عليها، فيما يتعلق بأيٍّ من النتائج الإكلينيكية العشر التي تقيسها، باعتبارها نتيجةً إيجابية للدواء الذي تختبره في التجرِبة.

هل يمكنك أن تفلت بفعلتك إذا أعلنتها صريحةً وقلت ببساطة: «حسنًا، لقد قسنا عشرة أشياء، ووجدنا تحسُّنًا في أحدها؛ لذا فإن دواءنا الجديد رائع»؟ حسنًا، على الأرجح يمكنك أن تفلت بفعلتك في بعض المناطق، لأن مطالعي الأبحاث العلمية غير مؤهَّلين في جميع المناطق لاكتشاف هذه الخدعة. ولكن بنحوٍ عام سوف يكتشفها الناس؛ فهم يتوقعون رؤية «نتيجة إكلينيكية أساسية» محددة قبل بدء التجرِبة، ومعرفة ما حدث من تحسُّن بشأنها؛ لأنهم يعرفون أنك إذا قست عشرة أشياء، فمن المرجح جدًّا أن يحدث تحسُّن في أحدها بالمصادفة البحتة.

المشكلة تكمن فيما يلي: على الرغم من أنك تعرف أن عليك تحديد نتيجة إكلينيكية أساسية، فغالبًا ما تتغير النتائج الأساسية هذه بين البروتوكول والورقة البحثية، بعد أن يرى من يُجرون البحثَ نتائجَه. وحتى أنت — أيُّها القارئ العادي الذي انتقى هذا الكتاب بالصدفة البحتة من متجر كتبٍ في محطة سكة حديدية، ولستَ أستاذًا في الإحصاء أو في الطب — يمكن أن تشعر بالغضب من ذلك. إذا كانت النتيجة الأساسية التي وُضعت في الورقة البحثية النهائية مختلفة عن النتيجة الأساسية المحددة قبل بدء التجرِبة، فهذا أمر غريب؛ إذ إن الفكرة كلها في النتيجة الأساسية هي أن تكون نفس النتيجة الإكلينيكية الأساسية المحددة «قبل» بدء التجرِبة. ولكن الباحثين يبدلون النتائج الإكلينيكية الأساسية، وهذه ليست مجرد مشكلةٍ عابرة، بل هي في الواقع تكاد تكون ممارسةً روتينية.

في عام ٢٠٠٩، جمعت مجموعة من الباحثين كل التجارِب التي أمكنهم العثور عليها بخصوص الاستخدامات المختلفة لدواءٍ اسمه الجابابنتين.24 بعد ذلك فحصوا التجارِب التي استطاعوا الحصول على المستندات الداخلية الخاصة بها، بمعنى أنهم استطاعوا تحديد نتيجتها الأساسية الأصلية المحددة قبل إجراء التجرِبة. ثم نظروا في الأبحاث الأكاديمية المنشورة عن هذه التجارِب. بالطبع، وجدوا أن حوالي نصف التجارِب لم تُنشر من الأساس (وهذه فضيحة لا يمحوها التكرار). ووجدوا اثنتي عشرة تجرِبة منشورة، وتحققوا مما إذا كانت الأشياء المذكورة كنتائج أساسية في الأبحاث الأكاديمية هي نفسها المحددة قبل إجراء التجارِب في المستندات الداخلية.

كان ما وجدوه عبارة عن فوضى عارمة. من بين الإحدى والعشرين نتيجة إكلينيكية المحددة قبلًا في البروتوكولات، والتي كان ينبغي ذِكرها كلها في الأبحاث المنشورة، لم تظهر سوى إحدى عشرة نتيجة إكلينيكية فحسب. ست نتائج لم تظهر في أي بحثٍ على الإطلاق بأي نحو، وأربعٌ ظهرت ولكن باعتبارها نتائج إكلينيكية ثانوية بدلًا من كونها أساسية. ويمكنك أيضًا أن تبحث الأمر من الجانب الآخر: ظهرت ثمانٍ وعشرون نتيجة إكلينيكية أساسية في التجارِب الاثنتي عشرة التي نُشرت، ولكن نحو نصف هذه النتائج لم يكن في الأصل محددًا كنتائج أساسية في بداية التجرِبة، ولم يظهر سوى بعد انتهائها. وهذا شيء أقل ما نقوله عنه أنه سخيف؛ فليس ثَمَّةَ عذر، لا للباحثين الذين قاموا بالتبديل ولا للدوريات الأكاديمية التي عجزت عن كشف هذه المشكلة. ولكن هذا مجرد دواءٍ واحد، فهل هذه واقعة فريدة لم تحدث سوى هذه المرة؟

الإجابة: لا. ففي عام ٢٠٠٤، نشر بعض الباحثين ورقة بحثية تتناول كل مجالات الطب؛ فقد أخذوا كل التجارِب التي حصلت على موافقة من لجان الأخلاقيات الطبية في مدينتين على مدار عامين، ثم تتبَّعوا الأوراق البحثية المنشورة عنها.25 لم يُذكر نصف كل النتائج الإكلينيكية تقريبًا في الأوراق البحثية. ومن بين الأوراق البحثية المنشورة، حدث في ثلثيها تقريبًا تبديل في نتيجة إكلينيكية أساسية واحدة محددة قبلًا على الأقل، وهذا لم يحدث بطريقةٍ عشوائية؛ فكما قد تتوقَّع تمامًا، تزيد احتمالات عرض النتائج الإيجابية أكثر من ضعفين عن غيرها. كما بينت دراسات أخرى تتناول تبديل النتائج الإكلينيكية الأساسية للتجارب تصرفات مماثلة.

لنكن واضحين، إذا غيرتَ النتيجة الإكلينيكية الأساسية المراد قياسها التي حددتها قبلًا في الفترة ما بين بداية التجرِبة ونهايتها، دون أن يكون لديك تفسير وجيه جدًّا للقيام بذلك، فأنت إذًا لا تخدم العلم على النحو المناسب؛ إذ إن دراستك مَعيبة من حيث تصميمها. وينبغي أن نعتبر عدم تغيير النتيجة الإكلينيكية الأساسية المحددة قبلًا للتجرِبة من المتطلبات العامة التي نحرص على الوفاء بها. ويجب أن تُطبِّق جميع الدوريات هذا الشرط، ولعل هذا كان ضروريًّا منذ بداية إجراء التجارِب. وهو أمر ليس بالغ الصعوبة في الحقيقة، ومع ذلك فقد عجزنا جميعًا عن أن نفيَ بهذا الشرط الجوهري البسيط شديد الوضوح.

كتوضيح نهائي لما يعنيه ذلك على المستوى العملي، سنعود إلى عقَّار الباروكستين، والدراسات الخاصة به التي أُجريت على الأطفال. تذكَّر أنه عند تعرُّض مجال من مجالات الطب لنوعٍ من النزاعات القضائية، فإن المستندات التي كانت تُخفى عن الباحثين تصبح في الغالب متاحةً لهم؛ مما يسمح لهم باكتشاف المشاكل والتناقضات والأنماط التي لم تكن لتُكتشف في الأحوال الطبيعية. في الغالب، يجب إتاحة هذه المستندات على النطاق العام، ولكن هذا لا يحدث؛ لذا فإن عقَّار الباروكستين قد لا يكون أسوأ من أي دواءٍ حدثت فيه هذه المشكلة (في الواقع، وكما رأينا من هذه الدراسة السابقة الذكر، يحدث تبديل النتائج الإكلينيكية الأساسية على نطاقٍ واسع للغاية)؛ كل ما في الأمر أن هذه واحدة من الحالات التي نعرف عنها تفاصيل كثيرة.

في عام ٢٠٠٨، قررت مجموعة من الباحثين الاطلاع على المستندات التي أُتيحت من خلال النزاعات القضائية المتعلقة بعقَّار الباروكستين، وفحص كيفية نشر نتائج إحدى التجارِب الإكلينيكية؛ «التجرِبة ٣٢٩».26 حتى عام ٢٠٠٧، كانت المراجعات المنهجية تصف هذه التجرِبة بأن لها نتيجةً إيجابية، وهي الطريقة التي وصفت بها في الأبحاث التي نشرت نتائجها. ولكن في الواقع كان هذا غير حقيقيٍّ بالمرة؛ إذ إن البروتوكولات الأصلية للتجرِبة حددت نتيجتين إكلينيكيتين أساسيتين وستًّا ثانوية. وفي نهاية التجرِبة لم يكن ثَمَّةَ فارق بين عقَّار الباروكستين والعلاج الوهمي فيما يتعلق بأيٍّ من هذه النتائج الإكلينيكية. وقيست تسع عشرة نتيجة إكلينيكية أخرى على الأقل، حتى وصل عدد النتائج المَقيسة إجمالًا إلى سبعٍ وعشرين. لم يكن لعقَّار الباروكستين أثر إيجابي إلا على أربعٍ فحسب من بين كل هذه النتائج. ونُشرت هذه النتائج الإيجابية كما لو كانت هي النتائج الأساسية للتجرِبة.

ليتنا نستطيع أن ننظر إلى ما نُشر عن التجرِبة ٣٢٩ باعتباره من الوقائع النادرة الحدوث، وكأنه استثناء مُنفِّر في عالم الطب الجيد بوجه عام. ولكن للأسف الشديد، كما يُبيِّن لنا البحث المذكور أعلاه، هذا السلوك منتشر.

في الحقيقة، هذا السلوك منتشر جدًّا لدرجة أن هناك فرصةً للجميع بأن يتولَّوْا كشفه، وذلك إذا وُجد أكاديميون لديهم الشجاعة الكافية للقيام بذلك؛ فلا بد من وجود شخصٍ ما في مكانٍ ما يسعى لاكتشاف كل الدراسات التي حدث تبديل لنتائجها الإكلينيكية الأساسية، ويطالب بالوصول إلى البيانات الأصلية، ويستطيع في النهاية بمساعدة باحثيها الأصليين إجراء التحليلات الصحيحة. إذا قررت أن تقوم أنت بهذه المهمة، فعلى الفور ستصبح أبحاثك المنشورة هي المرجع الحاسم فيما يتعلق بهذه التجارِب؛ لأنها ستكون الأبحاث الوحيدة التي تعرض النتائج الإكلينيكية السابقة التحديد الخاصة بالتجارِب بنحوٍ سليم. أما الأبحاث المنشورة للباحثين الأصليين، فستكون غير ذات صلة.

أنا على يقين من أنهم سيسعدون بتقديم يد العون لك!

(١٢) تحليلات المجموعات الفرعية المريبة

إذا لم يُعطِ دواؤك أيَّ نتيجةٍ إيجابية في التجرِبة، يمكنك أن تُقَطِّع البيانات بطرق مختلفة كثيرة، لكي ترى ما إذا كان سيُعطي نتيجةً إيجابية في مجموعةٍ فرعية ما؛ فربما ينجح نجاحًا ساحقًا مع الرجال الصينيين في الفئة العمرية ما بين السادسة والخمسين والحادية والسبعين. وهذا أمر شديد الغباء ولكنه شائع الحدوث.

مرةً أخرى نُكرر المبدأ نفسه الذي تحدَّثنا عنه مرارًا وتكرارًا في هذا الفصل، والمتمثل في أنك إذا منحت نفسك فرصًا متعددة للحصول على نتيجةٍ إيجابية، ولكنك استخدمت اختباراتٍ إحصائيةً تفترض أنك حصلت على فرصةٍ واحدة فقط، فأنت بذلك تزيد فرص حصولك على النتيجة التي تريدها بدرجةٍ هائلة. على سبيل المثال، إذا ظللت تقذف عُملة معدِنية وقتًا طويلًا بما يكفي، فسوف تحصل في النهاية على أربع مراتٍ متتالية من ظهور الصورة.

ويُعَد تحليل المجموعات الفرعية طريقةً جديدة للقيام بذلك. الخدعة بسيطة؛ بعد أن تنتهيَ من تجربتك، وتجد أن نتيجتها سلبية، ولم يحدث أي اختلافٍ في العناصر المَقيسة — بمعنى أن المرضى الذين تناولوا العلاج الوهمي لم تختلف حالتهم الصحية عن حالة المرضى الذين تناولوا الدواء الجديد — فسوف تكتشف أن دواءك غير فعَّال. وهذه أخبار سيئة. ولكنك حينها ستُجري المزيد من الأبحاث، والمزيد من التحليلات، وقد تجد أن الدواء فعَّال على سبيل المثال مع الرجال من ذوي الأصول الإسبانية من غير المدخنين الذين تتراوح أعمارهم بين الخامسة والخمسين والسبعين.

إذا لم يتجلَّ لك بوضوحٍ على الفور المشكلة الكامنة وراء ذلك، فعلينا أن نرجع مرةً أخرى لنفكر في التنوُّع العشوائي في البيانات في أي تجرِبة. فلنقل مثلًا إن دواءك من المفترض أن يمنع الموت أثناء فترة التجرِبة. نحن نعرف أن الموت يأتي لأسبابٍ لا تُحصى، وفي أي لحظةٍ عشوائية تمامًا، ولسوء الحظ لا يمكن التنبُّؤ به سوى جزئيًّا فقط على أساس ما نعرفه عن مدى صحة الأشخاص. أنت تتمنَّى أنك أثناء إجراء التجرِبة سوف يتمكن دواؤك من تأجيل بعض حالات الموت العشوائية غير المتوقَّعة (ولكن ليس كلها بالطبع؛ لأنه لا يوجد دواء يمنع كل أسباب الموت!) وأنك ستتمكن من اكتشاف هذا التغيير في معدل الوفاة إذا كان لديك عدد كبير بما يكفي من الأشخاص في تجربتك.

لكن إذا رجعت لنتائجك بعد انتهاء تجربتك، ورسمت خطًّا حول مجموعةٍ من حالات الوفاة التي تستطيع رؤيتها، أو حول مجموعةٍ من الأشخاص الذين ظلوا على قيد الحياة، فلا يمكنك أن تتظاهر حينها أن هذه كانت مجموعةً فرعية مختارة عشوائيًّا.

إذا كنت لا تزال لا تفهم المشكلة الكامنة في ذلك، فلْتفكرْ في بودينج الكريسماس الموزَّعة داخله العملات بنحوٍ عشوائي. أنت تريد أن تعرف عدد العملات الموجودة في القالب ككلٍّ؛ لذا تأخذ قطعةً منه بطريقةٍ عشوائية تبلغ عُشر حجم القالب، وتَعُد العملات التي تجدها في هذا الجزء ثم تضرب العدد في عشرة؛ ومن ثَمَّ يصبح لديك تقدير للعدد الإجمالي للعملات. هذه دراسة معقولة، تأخذ فيها عينةً معقولة، دون أن تعرف أماكن وجود العملات. أما إذا صورت البودينج بالأشعة السينية، فسوف ترى أن هناك بعض الأماكن التي يوجد بها، بالصدفة البحتة، عدد أكبر من العملات، مقارنةً بأماكن أخرى. وإذا اتَّبعت مسارًا حريصًا شديد التعقيد بالسكين، فسوف تقطع جزءًا من البودينج يحتوي على عددٍ أكبر من العملات مقارنةً بالعينة الأولية المعقولة التي أخذتها. وإذا ضربت عدد العملات الموجودة في هذه العينة الجديدة في عشرة، فسوف تجعل قالب البودينج الخاص بك يبدو كما لو كان يحتوي على عملاتٍ أكثر بكثيرٍ من الحقيقة. ولكن كل هذا بسبب أنك تحايلت وغششت. فما زالت العملات موزعة توزيعًا عشوائيًّا في قالب البودينج. ولم تَعُد القطعة التي أخذتها، بعد أن صوَّرت القالب بالأشعة السينية وعرفت أماكن وجود العملات المعدنية، مُعبِّرة عن العدد الفعلي للعملات بداخل القالب.

ومع ذلك يتردَّد صدى هذا النوع من الإفراط في التحليل المتفائل في العروض التقديمية التجارية، في البلد بأسره، كل يوم. فربما يقولون: «يمكنك أن ترى أننا أخفقنا بشدةٍ إجمالًا، ولكن المثير أن حملة الإعلانات الوطنية الخاصة بنا سبَّبت ارتفاعًا ضخمًا في مبيعات أجهزة الكمبيوتر المحمولة المنخفضة السعر في منطقة بوجنور.» إذا لم يكن ثَمَّةَ سبب سابق يجعلك تعتقد أن بوجنور مختلفة عن باقي أسواقك، ولا سبب يجعلك تعتقد أن أجهزة الكمبيوتر المحمولة مختلفة عن باقي منتجاتك، إذًا فهذا نوع من الانتقاء غير العقلاني المضلل.

على وجهٍ أكثر تعميمًا، سوف نقول: إذا كنت قد رأيت نتائجك بالفعل، فعندئذٍ لا تستطيع أن تجد فرضيتك فيها؛ فالفرضية يجب أن تأتيَ «قبل» أن ترى النتائج التي تختبر صحتها؛ لذلك فإن تحليلات المجموعات الفرعية شيء معقول ومنطقي، ولكن إذا لم تكن هذه التحليلات محددةً قبل أن تبدأ (أو إذا لم تكن قد أشرت في تحليلك إلى عدد تحليلات المجموعات الفرعية التي أجريتها)، فهي مجرد وسيلة أخرى لزيادة فرص حصولك على نتيجةٍ إيجابية زائفة وملفَّقة. ولكن عمليات الانتقاء المشابهة لهذه شائعة بدرجة مدهشة، ومغرية للغاية؛ لأنها تبدو مقبولةً ظاهريًّا.

هذه المشكلة شديدة الرسوخ لدرجة أنها كانت موضوع سلسلةٍ كاملة من الأبحاث الكوميدية التي أجراها اختصاصيون في مناهج البحث، الذين كانوا يسعَون بكل ما يملكون من جهدٍ لشرح منطقهم للباحثين المبالغين في التفاؤل الذين لا يستطيعون رؤية العيوب الكامنة فيما يفعلونه. منذ ثلاثين عامًا، نَشر لي وزملاؤه بحثًا تحذيريًّا كلاسيكيًّا حول هذا الموضوع في دورية «سيركيوليشن».27 وضموا ١٠٧٣ مريضًا بمرض الشريان التاجي، وقسموهم عشوائيًّا للحصول إما على العلاج ١ أو على العلاج ٢. كِلا العلاجين لم يكن موجودًا، لأن هذه تجرِبة مزيفة، أو مجرد محاكاة لتجرِبة. ولكن الباحثين فحصوا البيانات الحقيقية لهؤلاء المرضى الحقيقيين، كي يرَوا ما يمكنهم العثور عليه، في التشويش العشوائي لتطوُّر حالتهم.

لم يَخِبْ ظنهم. بوجهٍ عام، وكما قد تتوقَّع، لم يكن ثَمَّةَ فارق بين المجموعتين من حيث البقاء على قيد الحياة؛ نظرًا لأن كلتيهما تُعالَجان بالطريقة نفسها. ولكن في مجموعةٍ فرعية مكونة من ٣٩٧ مريضًا (مصابين ﺑ «مرض تاجي ثلاثي الأوعية» و«الانقباض غير المنتظم للبطين الأيسر»)، كان معدل بقاء مرضى مجموعة العلاج ١ مختلفًا اختلافًا ملحوظًا عن ذلك الخاص بمرضى مجموعة العلاج ٢، وذلك بالصدفة البحتة؛ لذا يتضح لنا أنك تستطيع إثبات فوائد ملحوظة، من تحليل المجموعات الفرعية، حتى في تجرِبةٍ زائفة لم يتم فيها إجراء أي تدخُّل علاجي للمجموعتين.

يمكنك أيضًا أن تجد آثار المجموعات الفرعية الملفَّقة في التجارِب الحقيقية، إذا أجريت عددًا كبيرًا بما يكفي من التحليلات الملفقة.28 قرَّر الباحثون العاملون في تجرِبةٍ تقيس كفاءة إجراءٍ جراحي يُطلق عليه استئصال بطانة الشريان أن يرَوا إلى أي مدًى يمكنهم ترويج هذه الفكرة — على سبيل المزاح — فقسموا المرضى إلى كل المجموعات الفرعية التي يمكنك تخيُّلها، وفحصوا النتائج. أولًا وجدوا أن فائدة الجراحة تعتمد على اليوم في الأسبوع الذي وُلد فيه المريض (انظر الشكل ٤-٣):29 إذا بنيت قراراتك الإكلينيكية على هذا، فأنت أحمق. كان هناك أيضًا علاقة جميلة، تكاد تكون خطية بين شهر الميلاد والنتيجة الإكلينيكية؛ فالمرضى الذين وُلدوا في مايو ويونيو استفادوا استفادةً ضخمة من الإجراء الجراحي، وكلما ابتعدت عن هذين الشهرين في التقويم يقل تأثير الجراحة أكثر فأكثر، إلى أن تصل إلى مارس، فيبدو لك أن التدخُّل الجراحي يكاد يكون مُضرًّا. إذا كانت هذه النتيجة تدرس متغيرًا مقبولًا من الناحية البيولوجية، مثل السن، لكان سيستحيل تجاهل هذا التحليل للمجموعات الفرعية.
fig11
شكل ٤-٣: تأثير استئصال بطانة الشريان السباتي في المرضى الذين لديهم ضيق شرياني مصحوب بأعراض بنسبة ٧٠ أو أكثر في «التجرِبة الأوروبية للتدخُّل الجراحي في الشريان السباتي ١٢٦» حسب اليوم من الأسبوع الذي وُلد فيه المريض.

أخيرًا، قارنت تجرِبة «الدراسة الدولية الثانية لعلاج احتشاء عضلة القلب الحاد» فوائد إعطاء الأسبرين أو دواء وهمي للمرضى الذين يُشتبه في إصابتهم للتوِّ بنوبةٍ قلبية. وُجد أن الأسبرين يُحسِّن النتائج، ولكن الباحثين قرَّروا إجراء تحليل مجموعة فرعية، كنوعٍ من المزاح. كشف هذا التحليل أنه بينما يُعَد الأسبرين فعالًا جدًّا بوجهٍ عام، فإنه لا يفيد المرضى الذين من بُرجَي الميزان والجوزاء. وهذان البرجان ليسا حتى قريبين أحدهما من الآخر. مرةً أخرى: إذا جزأت البيانات بالكثير من الطرق المختلفة، يمكنك اجتزاء مجموعاتٍ فرعية كثيرة بنتائج غريبة حسب رغبتك.

إذًا، هل ينبغي لنا حرمان المرضى الذين من برج الميزان أو برج الجوزاء من العلاج؟ بالطبع ستقول لا، وهذا يجعلك أكثر حكمةً من كثيرٍ من المنتمين إلى مهنة الطب؛ فقد وجدت تجرِبة «المجموعة البحثية التعاونية الكندية» أن الأسبرين كان فعالًا في منع الإصابة بالسكتات الدماغية والوفاة في الرجال، ولكن ليس في النساء.30 نتيجةً لذلك، حُجِب هذا العلاج عن النساء لعَقدٍ من الزمن، إلى أن بيَّنت تجارب ومراجعات أخرى فوائده بالنسبة إليهن.

هذا تحليل واحد من تحليلات المجموعات الفرعية الكثيرة التي ضللتْنا في مجال الطب، وهي في الغالب تُحدِّد على نحوٍ صحيح مجموعاتٍ فرعية من الأشخاص الذين لن يستفيدوا من علاجٍ عادةً ما يكون فعَّالًا؛ لذلك، على سبيل المثال، اعتقدنا أن عقَّار التاموكسيفين المثبِّط للهرمونات غير مُجدٍ في علاج سرطان الثدي لدى النساء الذين تقل أعمارهن عن خمسين عامًا (وكنا على خطأ). وكنا نظن أن عقاقير إذابة الجلطات غير فعالة، أو حتى مضرة، عند علاج الأزمات القلبية في الأشخاص الذين هاجمتهم أزمة قلبية من قبل (وكنا مخطئين). وكنا نظن أن العقاقير التي تُسمى «مثبطات الإنزيم المحول للأنجيوتنسين» لا تُقلل معدل الوفاة في مرضى الفشل القلبي إذا كان المرضى يتناولون أيضًا الأسبرين (وكنا مخطئين). الغريب أن كل هذه النتائج لم تكن مدفوعةً بحب المال، وإنما كانت مدفوعةً ربما بالطموح، وبالتأكيد بإثارة الاكتشافات الجديدة، وبالجهل بمخاطر تحليل المجموعات الفرعية، وبالطبع بالمصادفة.

(١٣) التقسيم الفرعي المريب للتجارب، لا المرضى

يمكنك التركيز على مجموعةٍ من التجارِب، عن طريق الاستشهاد بها على نحوٍ انتقائي، وجعْل الدواء يبدو أكثر فاعليةً مما هو عليه. عندما تفعل هذا فيما يتعلق باستخدامٍ واحد من استخدامات دواءٍ معين، فما تفعله واضح. ولكنك تستطيع أيضًا القيام به داخل برنامج بحثٍ إكلينيكي كامل، وتتسبَّب في إحداث حيرةٍ لا يستطيع أحد احتواءها حتى الآن.

لقد شاهدنا بالفعل كيف أن التجارِب الإيجابية أكثر عرضةً لأن تُنشر وتنتشر مقارنةً بالتجارِب السلبية، وأن هذا يمكن أن يكون مضللًا. المشكلة في الأساس تتلخَّص في أننا عندما نراجع التجارِب المنشورة فحسب مراجعةً منهجية، فإننا نشاهد فقط مجموعةً فرعية من النتائج، وهي مجموعة فرعية تحتوي على نتائجَ إيجابيةٍ أكثر. يبدو الأمر كما لو أننا قد أُعطينا سلةً نتسوق فيها التجارِب، ولم تُعرَض أمامنا سوى التجارِب الإيجابية كي نختارها. ولكن من الحمق أن نتصوَّر أن التجارِب الإيجابية هي الوحيدة الموجودة.

هذه المشكلة بعينها — مشكلة كيفية اختيار عينةٍ من التجارِب — يمكن أن تفرض نفسها بطريقةٍ أخرى أكثر إثارةً بكثيرٍ للانتباه، والتي أفضل وسيلة لتوضيحها هي ضرب مثالٍ عليها.

البيفاسيزوماب من أدوية السرطان الغالية — حيث وصلت مبيعاتها في عام ٢٠١٠ إلى ٢٫٧ مليار دولار — ولكنها لا تعطي نتائج جيدة جدًّا. إذا ألقيت نظرةً على سِجل التجارِب ClinicalTrials.gov (الذي له مشاكله الخاصة، بالتأكيد)، فستجد نحو ألف تجرِبةٍ عن هذا الدواء، في الكثير من الأنواع المختلفة للسرطان؛ بدايةً من سرطان الكُلى والرئة إلى سرطان الثدي والقولون والمستقيم؛ فهو يُستخدم في علاج أنواعٍ كثيرة من السرطان.
للأسف الشديد الكثيرُ من نتائج هذه التجارِب لم يُنشر. في عام ٢٠١٠ شرع باحثان من اليونان في تتبُّع كل الدراسات الخاصة بهذا الدواء التي يمكنهما العثور عليها.31 وبالبحث عن تجارب «المرحلة الثالثة» الكبيرة فقط، حيث قُورن دواء البيفاسيزوماب بدواءٍ وهمي، وجدا ٢٦ تجرِبةً منتهية. من هذه التجارِب لم يُنشر سوى تسعٍ فقط (وهي تُمثِّل بيانات ٧٢٣٤ مريضًا)، وقُدمت نتائج ثلاث تجارب في مؤتمر (وكانت تُمثِّل بيانات ٤٦٦٩ مريضًا). ولكن ظلت نتائج أربع عشرة تجرِبة، شارك فيها ١٠٧٢٤ مريضًا إجمالًا، دون نشر.

هذا شيء بشع، ولكنه ليس ما يهمنا هنا.

لقد وضعوا كل النتائج معًا، ويبدو منها إجمالًا أن هذا الدواء، بصرف النظر عن نوع السرطان الذي تتحدَّث عنه، يعطي فائدةً هامشية قصيرة فيما يتعلق ببقاء المريض على قيد الحياة، وبالقدر نفسه تقريبًا في كل أنواع السرطان (ولكن تذكَّر أن هذا قبل أن تضع في اعتبارك آثاره الجانبية وتكاليفه الواقعية الأخرى)، وهذا أيضًا ليس ما يهمنا هنا. تذكر أننا نحاول الهروبَ من فكرة أن نتائج الأدوية المفردة ذات أهميةٍ إخبارية، والتركيزَ على القضايا البنيوية؛ لأنها تستطيع التأثير في كل الأدوية، وفي كل الأمراض.

هذه هي النقطة المهمة. من يونيو عام ٢٠٠٩ إلى مارس عام ٢٠١٠، نُشرت ست مراجعات منهجية وتحليلات تجميعية مختلفة عن الدواء، كلٌّ منها في نوع مختلف من السرطان، وكلٌّ منها تحتوي على التجارِب القليلة التي أجريت على ذلك النوع من السرطان.

والآن، إذا وَجد أيٌّ من التحليلات التجميعية هذه فائدةً إيجابية للدواء، في نوعٍ معين من السرطان، فهل هذا أثر حقيقي للدواء؟ أم هو تحليل مجموعات فرعية ومن ثَمَّ هناك فرصة إضافية للحصول على فائدةٍ إيجابية، بصرف النظر عن الأثر الحقيقي للدواء، ببساطة من خلال الصدفة المحضة، تمامًا مثل إلقاء حجر النرد مراتٍ كثيرةً إلى أن تحصل على الرقم ستة؟ الإجابة على هذا السؤال بالغة الصعوبة. أعتقد أنه عبارة عن تحليل مجموعاتٍ فرعية، وجون أيونيديس وفوتيني كاراسا، الباحثان اللذان جمعا هذه البيانات معًا، يعتقدان هذا أيضًا. لم تضع أيٌّ من التحليلات التجميعية الفردية في اعتبارها حقيقة أنها جزء من برنامجٍ بحثيٍّ أكبر، وأن الأمر أشبه بمدافعَ رشاشةٍ تُطلِق بكثافة طلقاتِ الرصاص على حائطٍ ما، وفي مرحلةٍ ما، كان من المحتمل أن يُطلَق القليل منها على أماكن قريبة بعضها من بعض. يقول أيونيديس وكاراسا إننا نحتاج لتحليل برامج تجارب إكلينيكية كاملة، وليس دراسات فردية أو مجموعات من الدراسات، ونُحدِّد عدد التجارِب التي أُجريت على الدواء فيما يتعلق بأي مرض. وأعتقد أنهما في الغالب مُحِقَّان في زعمهما، ولكنها مهمة معقدة. فكما يمكن أن ترى الآن، هناك فِخاخ منصوبة في كل مكان.

(١٤) التجارِب التسويقية

في بعض الأحيان، لا تكون التجارِب تجارب حقيقية؛ وإنما مشروعات تسويق فيروسي، مصمَّمة لجذب أكبر عددٍ ممكن من الأطباء لوصف الدواء الجديد، والتي يشترك فيها عدد صغير من المشاركين من عددٍ كبير من المستشفيات.

لِنفترضْ أنك تريد اكتشاف ما إذا كان دواؤك المُسكِّن للألم الجديد، الذي ثبتت فاعليته بالفعل في تجاربَ مُحكَمةٍ على مرضى مثاليين، يصلح أيضًا للاستخدام الإكلينيكي الروتيني. الألم أمر شائع؛ لذلك فإن المنهج الواضح والعملي هو أن تَستخدم عددًا صغيرًا من المستشفيات كمراكز بحثية، وتطلب مشاركة عددٍ كبير من مرضاها. وإدارة دراستك بهذه الطريقة تُمكِّنك من الحصول على الكثير من المزايا: يمكنك تدريب عددٍ صغير من الأطباء المشاركين بسهولةٍ وبتكلفةٍ زهيدة؛ وستكون التكاليف الإدارية أقل؛ ويمكنك مراقبة معايير البيانات بنحوٍ جيد؛ مما يعني امتلاك فرصةٍ أفضل للوصول إلى بياناتٍ ذات كفاءةٍ عالية، ونتيجةٍ موثوقٍ فيها.

أُجريت تجرِبة «تقييم الاختلافات بين عقَّارَي الفيوكس والنابروكسين فيما يتعلق بتحمُّل المعدة لهما وفاعليتهما» (أدفانتيدج) على عقَّار الفيوكس بطريقةٍ مختلفة تمامًا؛ فقد شرعوا في طلب مشاركة أكثر من ٥ آلاف مريض، ولكن تصميم التجرِبة حدَّد ألا يعالج كلُّ طبيب إلا مجموعةً صغيرة جدًّا من المرضى. وهذا يعني أنه كان من المفترض مشاركة عدد ضخم من الأطباء في التجرِبة — ستمائة طبيب بحلول نهاية الدراسة. ولكن هذا كان مقبولًا بالنسبة إلى شركة ميرك؛ لأن الهدف من هذه الدراسة لم يكن في الحقيقة اكتشاف مدى فاعلية الدواء، وإنما كان الهدف هو الإعلان عن الدواء لأكبر عدد ممكن من الأطباء، وتعويدهم على وصفه للمرضى وإقناعهم بالحديث عنه مع أصدقائهم وزملائهم.

لقد نوقشت الأفكار الأساسية من وراء التجارِب التسويقية لسنواتٍ عديدة في الأدبيات الطبية، ولكن دائمًا ما يكون ذلك بصوتٍ هامس، خوفًا من دعاوى القذف والتشهير التي تُرفع ضد كل من تُسوِّل له نفسه الحديث عن هذا الأمر. ويرجع هذا إلى أنك، حتى إذا كان عدد الأماكن المشاركة يبدو غريبًا من الخارج، لا تستطيع التأكُّد تمامًا من أن مشروعًا بحثيًّا ما عبارة عن تجرِبةٍ تسويقية، إلا إذا وجدت أن الشركة التي تقوم به تناقش هذه الحقيقة بصراحة.

في عام ٢٠٠٨، نُشرت مستندات جديدة أثناء دعوى قضائية غير ذات صلةٍ رُفعت بخصوص عقَّار الفيوكس، وقدَّمت هذا الدليل على وجه التحديد.32 ورغم أن التجرِبةَ السابقةَ الإشارةُ إليها قد وُصفت للمرضى والأطباء على أنها تجرِبة بحثية، فإنها في الحقيقة بعد قراءة المستندات الداخلية كانت عبارة عن تجرِبةٍ تسويقية من بداية إطلاقها. على سبيل المثال، أوضحت مذكرة داخلية بعنوان «الوصف والأهداف» كيف أن التجرِبة «صُممت ونُفذت وفق مبادئ ميرك التسويقية». وهذه المبادئ بالترتيب هي: استهداف مجموعة محددة من العملاء المهمين (أطباء الأسرة)؛ واستغلال التجرِبة في توضيح قيمة الدواء للأطباء؛ ودمج فريقَي البحث والتسويق معًا؛ وتتبُّع عدد المرات التي وصف الأطباء فيها الدواء بعد انتهاء التجرِبة. تعامَل قسم التسويق الخاص بشركة ميرك مع كافة البيانات وحده، وقد أخبر فيما بعدُ المؤلف الرئيسي الذي جاء اسمه على الورقة البحثية الأكاديمية التي تصف التجرِبة جريدة «نيويورك تايمز» أنه لم يكن له أي دورٍ في جمع البيانات أو تحليلها.

تثير التجارِب التسويقية عدة قضايا مهمة؛ بدايةً، يُخفى الغرض من التجرِبة عن المرضى والأطباء المشاركين فيها، بل حتى عن لجان الأخلاقيات الطبية التي تمنح تصاريح الوصول للمرضى. والمقال الافتتاحي المصاحب للورقة البحثية التي كشفت عن التجرِبة التسويقية الخاصة بعقَّار الفيوكس تُدين بشدةٍ هذا الأمر، كما يمكن لأي مقالةٍ في دوريةٍ أكاديمية أن تفعل.

[هذه المستندات] … تُبيِّن أن الخداع هو جوهر أي تجرِبةٍ تسويقية ناجحة … في الغالب من غير المحتمل أن توافق مجالس المراجعة المؤسسية، التي تهدف إلى حماية المشاركين في البحث، على إجراءٍ يُعرِّض المرضى للخطر من أجل التأثير على عادات وصف الدواء الخاصة بالأطباء. وقليل من الباحثين الإكلينيكيين الراسخين هم من سيشاركون في مثل هذه التجرِبة باعتبارهم مشاركين في الفحص، بعد أن يعرفوا حقيقتها. وقليل من الأطباء هم من سيوافقون، عن علم، على إشراك مرضاهم في دراسةٍ تُعرِّضهم للخطر من أجل تقديم ميزةٍ تسويقيةٍ لشركة أدوية، كما أن قليلًا من المرضى سيوافقون على المشاركة. إن التجارِب التسويقية يمكن أن تتمَّ فقط لأن الشركة لا تُصرِّح بغرضها الحقيقي لأي شخصٍ يمكن أن يرفض المشاركة فيها.33
إذًا، فالتجارِب التسويقية تُضلل المرضى. وبالنسبة إليَّ كطبيبٍ على أي حال، فإن مجرد تخيُّل التصريحات المتباهية الجوفاء التي يُطلقها الأطباء المغرورون المتكبرون المحتالون فيما يتعلق بهذه التجارِب يثير اشمئزازي. يمكنك أن تتخيل أحدهم وهو يقول في المقهى: «يعطينا عقَّار الفيوكس بعض النتائج الرائعة في الحقيقة»، ثم يستطرد: «هل أخبرتكم أنني أعمل كمدقق في هذه التجرِبة؟ إن العمل الذي نقوم به عمل رائع حقًّا …»

لكن توجد مخاوف أكثر مادية من هذه التجارِب؛ لأنها يمكن أن تُنتج أيضًا بيانات منخفضة الجودة، نظرًا لأن تصميمها مُعَد بما يتناسب مع التسويق، وليس للإجابة عن سؤالٍ إكلينيكي ذي معنًى. كما أن جمع البيانات من أعدادٍ صغيرة من المرضى من مواقعَ مختلفةٍ ومتعددة يجعلنا عُرضةً لكل أنواع المشاكل التي كان من الممكن تجنُّبها؛ منها، على سبيل المثال، انخفاض مستوى التحكم في جودة المعلومات، أو التدريب السيئ لفريق البحث، أو زيادة مخاطر سوء السلوك أو انعدام الكفاءة، وهكذا.

ويتضح هذا من تجرِبةٍ تسويقية أخرى، وهي تجرِبة «دراسة عقَّار النيورونتين: المعايرة من أجل الفاعلية والسلامة»، والتي تضمَّنت إعطاء عقَّارٍ اسمه النيورونتين لمرضى الصرع في مستشفيات الأمراض العصبية العامة. وانكشف الغرض الحقيقي من التجرِبة، أيضًا، عندما نُشرت المستندات الداخلية للشركة المنتجة للعقَّار أثناء إحدى منازعاتها القضائية (مرةً أخرى، هذا هو السبب الذي يجعل شركات الأدوية تُضحي بالغالي والنفيس من أجل تسوية نزاعاتها القضائية في سريةٍ تامة، خارج ساحة المحاكم).34 كما قد تتوقَّع، تصف هذه المستندات التجرِبة بصراحةٍ باعتبارها أداةً تسويقية. وتقول إحدى المذكرات الداخلية المهمة: «هذه التجرِبة هي أفضل أداةٍ نملكها للترويج للنيورونتين، وعلينا أن نستغلها حيثما استطعنا.» بغيةَ التوضيح، هذه العبارة لا تتحدَّث عن استخدام نتائج التجرِبة لتسويق العقَّار؛ فقد كُتبت أثناء إجراء التجرِبة.

أثارت هذه التجرِبة أيضًا المخاوف الأخلاقية نفسها التي ذكرناها من قبل؛ إذ إن المرضى والأطباء أيضًا قد ضُللوا. ولكن مسألة جودة البيانات تثير لديَّ القدرَ نفسه من القلق؛ فالأطباء المشاركون في التجرِبة كمُدقِّقين لم يتلقَّوا التدريب الكافي، ولم تكن لديهم خبرة كافية في التجارِب — إن وُجِدت الخبرة على الإطلاق — كذلك لم يُجرَ أي تدقيقٍ قبل بدء التجرِبة. وأَشرك كلُّ طبيب أربعةَ مرضى فقط في المتوسط، وقد لوحظوا عن قُرب، ليس بواسطة أكاديميين، وإنما بواسطة مندوبي مبيعات، شاركوا على نحوٍ مباشر في جمع البيانات، وملء استمارات الدراسة، بل أيضًا في تسليم الهدايا كمكافآتٍ ترويجية أثناء جمع البيانات.

كل هذا يُثير القلق بوجهٍ خاص؛ لأن عقَّار النيورونتين ليس دواءً خاليًا من العيوب؛ فمن بين ٢٧٥٩ مريضًا، عانى ٧٣ مريضًا من أحداثٍ سلبية خطيرة، و٩٩٧ من آثارٍ جانبية، وتُوفِّي ١١ مريضًا (رغم أننا، كما تعرف، لا نستطيع التأكُّد مما إذا كانت الوفاة بسبب الدواء أم لا). بالنسبة إلى عقَّار الفيوكس — العقَّار المُروَّج له في تجرِبة أدفانتيدج التسويقية — فقد كان الموقف أكثر خطورة؛ لأن العقَّار سُحِب من السوق في نهاية الأمر لأنه رفع مخاطر الإصابة بنوباتٍ قلبية لدى من تناوله من المرضى. إننا نُجري أبحاثًا عالية الجودة لكي نحدد الفوائد، أو المشاكل الخطيرة، الناجمة عن الأدوية، وإجراءُ بحثٍ تجريبي لائق يُركز على النتائج الإكلينيكية الحقيقية ربما كان سيساعد في اكتشاف هذه المخاطر في وقتٍ مبكر أكثر؛ ومن ثَمَّ كان سيقلل من الأضرار الواقعة على المرضى.

إن اكتشاف التجارِب التسويقية، حتى في هذه الأيام، أمرٌ مفعَم بمشاعر القلق. تتزايد الشكوك عند نشر تجرِبةٍ جديدة، على دواءٍ حديث التسويق، حين يزيد عدد مواقع انتقاء المشاركين في التجرِبة بنحوٍ مريب، ولا يُختار سوى عددٍ قليل من المرضى من كل موقع. وهذا أمر شائع.

ولكن في غياب أي دليلٍ مستنَدي على أن هذه التجارِب صُممت بغرض التسويق الفيروسي، فلن يجرؤ على اتهامها بذلك على نحوٍ علني إلا عدد قليل جدًّا من الأكاديميين.

(١٥) التظاهر بأن النتائج إيجابية مهما كانت

في نهاية تجربتك، إذا كانت النتيجة غير لافتة، يمكنك المبالغة فيها من خلال طريقة تقديمك للأرقام؛ أما إذا لم تكن لديك أي نتيجةٍ إيجابية على الإطلاق، فعليك أن تبذل جهدًا أكبر في التحايل.

في بعض الأحيان، يكون هذا معقدًا قليلًا. ولكن هناك طريقة سهلة لإصلاح مشكلة نتيجة التجرِبة غير الْمُرضية: يمكنك ببساطةٍ التحدُّث بنحوٍ إيجابي عنها. ويمكن ضرب مثالٍ جيد على ذلك من عالم عقاقير الاستاتين. من الأدلة المتاحة حاليًّا عن هذه الأدوية، أنها تبدو وكأنها تقلل مخاطر إصابتك بنوبةٍ قلبية بمقدار النصف في فترةٍ معينة، بصرف النظر عن مخاطر إصابتك بها في الأصل؛ لذلك، إذا كانت مخاطر إصابتك بنوبةٍ قلبية عاليةً جدًّا — لديك مستوًى عالٍ من الكولسترول، أو تُدخِّن، أو لديك وزن زائد، وهكذا — إذًا فإن أيًّا من هذه الأدوية يقلل مخاطر إصابتك بالنوبة القلبية الكبيرة سنويًّا بمقدار النصف. لكن إذا كانت مخاطر إصابتك بها صغيرة، فإنها تُقللها للنصف أيضًا؛ مما يجعل التغيير في احتمال الإصابة الصغير تغييرًا صغيرًا أيضًا. إذا كان الأسهل بالنسبة إليك أن تتصوَّر مثالًا ماديًّا، فلْتتصورْ هذا: تكون فرصة الوفاة نتيجة وقوع نيزك على رأسك أقل بكثيرٍ إذا كنت ترتدي كل يوم خوذة الدراجة البخارية، ولكن النيازك لا تسقط على رءوس الناس كثيرًا في العادة.

جدير بالذكر أنه ثَمَّةَ طرق مختلفة عديدة للتعبير عدديًّا عن انخفاض المخاطر، وكلٌّ منها يؤثر على تفكيرنا بطرقٍ مختلفة، رغم أنها تصف الحقيقة نفسها بدقة. فلْنفترضْ أن احتمالات إصابتك بنوبةٍ قلبية في العام القادم مرتفعة: أربعون شخصًا من ألفٍ مثلك، أو إذا كنت تفضل أن نقول ٤ بالمائة من الأشخاص مثلك، سيصابون بنوبة قلبية في العام القادم. ولنقل إن هؤلاء الأشخاص يُعالَجون بأحد عقاقير الاستاتين، وتقلُّ احتمالات إصابتهم بالنوبة القلبية؛ من ثَمَّ عشرون فقط منهم سوف يصابون بنوبةٍ قلبية، أو ٢ بالمائة. يمكننا أن نُعبِّر عن ذلك بقولنا: «انخفضت مخاطر الإصابة بنوبةٍ قلبية بمقدار ٥٠ بالمائة.» لأنها قلت من ٤ بالمائة إلى ٢ بالمائة. وهذه الطريقة في التعبير عن المخاطر يُطلَق عليها «انخفاض المخاطر النسبي»، وهي تبدو درامية لأنها تشتمل على رقمٍ كبير. ولكننا نستطيع أيضًا التعبير عن التغيير نفسه في المخاطر من خلال تعبير «انخفاض المخاطر المطلق»، أي التغيير من ٤ بالمائة إلى ٢ بالمائة، والذي يساوي تغييرًا مقداره ٢ بالمائة أو «انخفاض ٢ بالمائة في مخاطر الإصابة بنوبةٍ قلبية». هذا يبدو أقل لفتًا للنظر، ولكنه لا يزال صحيحًا.

والآن، لنفترض أن احتمالات إصابتك بنوبةٍ قلبية في العام القادم ضئيلة (لعلك تفهم الآن ما أرمي إليه، ولكنني سأكمل التوضيح على أي حال). لِنقُلْ إن أربعة أشخاصٍ من ألفٍ مثلك سيصابون بنوبةٍ قلبية في العام القادم، ولكن إذا تناولوا كلهم عقاقير الاستاتين، فاثنان فقط هما من ستصيبهما تلك النوبة. إذا عبَّرنا عن هذا باستخدام انخفاض المخاطر النسبي، فسيظل هناك انخفاض بنسبة ٥٠ بالمائة. أما إذا عبَّرنا عنه باستخدام انخفاض المخاطر المطلق، فسيكون الانخفاض بنسبة ٠٫٢ بالمائة، وهو رقم يبدو أكثر ضآلةً بكثير.

هناك الكثير من الأشخاص في الطب منشغلون بالطريقة المُثلى للتعبير عن هذه المخاطر والنتائج، بعضهم يعملون في مجال «اتخاذ القرارات العلاجية بمشاركة المريض» المثير للغاية.35 وقد أَنشَئوا كل أنواع الأدوات الرقمية لمساعدة الأطباء والمرضى في التحديد الدقيق للفائدة التي سيحصلون عليها من كل خيارٍ علاجي عندما تتوافر، مثلًا، خيارات مختلفة للعلاج الكيميائي بعد إجراء جراحة لاستئصال ورمٍ في الثدي. ميزة هذه الأدوات هي أنها تُقرِّب الأطباء أكثر إلى الدور المنوط بهم في المستقبل: متسوق شخصي لأنواع العلاج، يعرف كيفية العثور على أدلةٍ ويستطيع التعبير عن المخاطر بوضوحٍ ولكنه يستطيع أيضًا، من خلال مناقشاته مع المرضى، فَهْم اهتماماتهم وأولوياتهم، سواءٌ أكانت «البقاء على قيد الحياة بأي ثمن» أم «عدم المعاناة من أي آثارٍ جانبية».
بَيَّن البحث أنك إذا قدَّمت الفوائد في صورة انخفاض المخاطر النسبي، فإن المرضى من المرجح أكثر أن يختاروا العلاج الذي تُقدِّمه. على سبيل المثال، أخذت دراسة ٤٧٠ مريضًا كانوا موجودين في غرفة انتظارٍ وأعطتهم تفاصيل عن مرضٍ افتراضي، ثم شرحت لهم فوائد خيارَي علاجٍ ممكنَين.36 في الحقيقة كان العلاجان متطابقين تمامًا، ويُقدِّمان الفائدة نفسها، ولكن عُبِّر عن المخاطر بطريقتَين مختلفتين. اختار أكثر من نصف المرضى العلاج الذي عُبِّر عن فائدته بطريقة انخفاض المخاطر النسبي، بينما اختار واحد فقط من كل ستةٍ العلاجَ الذي عُبِّر عن فائدته بطريقة انخفاض المخاطر المطلق (معظم الباقين لم يُبالوا بالموضوع).
من الخطأ أن نتخيل أن هؤلاء المرضى يُمثِّلون استثناءً فيما يتعلق بإمكانية التلاعب بالمرضى بواسطة طريقة تقديم أرقام المخاطر والفوائد؛ ففي الحقيقة، وُصل إلى النتيجة نفسها تمامًا بنحوٍ متكرر في التجارِب التي تناولت قرارات وصف الأطباء للأدوية،37 وحتى قرارات الشراء التي تتخذها الهيئات الصحية،38 والتي كنا نتوقع بالتأكيد أن نجد فيها عدة أطباء ومديرين قادرين على حساب المخاطر والفوائد.

لهذا السبب يُعَد استخدامُ انخفاض المخاطر النسبي بكثرةٍ في التعبير عن الفوائد المتواضعة للعلاجات الجديدة، سواءٌ في وسائل الإعلام المنتشرة أو في الأدبيات المهنية، أمرًا يثير القلق. ويمكننا أن نضرب مثالًا جيدًا على ذلك من عالم عقاقير الاستاتين أيضًا، في التغطية التي حدثت لتجرِبة «تبرير استخدام عقاقير الاستاتين في الوقاية الأولية: تجرِبة تدخُّلية لتقييم تجرِبة عقَّار الروسوفاستاتين» (جوبيتر).

بحثت هذه الدراسة فوائد دواءٍ موجودٍ اسمه الروسوفاستاتين للأشخاص الذين تنخفض لديهم مخاطر الإصابة بنوبةٍ قلبية. أطلقت معظم الجرائد في المملكة المتحدة عليه «الدواء العجيب» (وظنت جريدة «ديلي إكسبريس» أنه علاج جديد تمامًا،39 بينما في الحقيقة كان استخدامًا جديدًا، في المرضى الذين تنخفض نسبة مخاطر إصابتهم بنوبةٍ قلبية، لعلاجٍ كان يُستخدم من قبلُ لسنواتٍ عديدة في المرضى الذين لديهم مستوًى متوسط أو عالٍ من مخاطر الإصابة بالنوبة القلبية). كل الجرائد عبَّرت عن فوائد العلاج باستخدام طريقة انخفاض المخاطر النسبي. على سبيل المثال، قالت جريدة «ديلي ميل»: «انخفضت النوبات القلبية بنسبة ٥٤ بالمائة، بينما انخفضت السكتات الدماغية بنسبة ٤٨ بالمائة، وانخفضت الحاجة لتركيب قسطرةٍ قلبية أو لإجراء عمليةٍ لتحويل مجرى شريان بنسبة ٤٦ بالمائة، بين المجموعة التي تتناول عقَّار الكريستور بالمقارنة بالمجموعة التي تتناول دواءً وهميًّا.» أما جريدة «ذا جارديان» فقالت: «وجد الباحثون أن المجموعة التي أخذت الدواء انخفضت فيها مخاطر الإصابة بالنوبة القلبية بنسبة ٥٤ بالمائة، والسكتة الدماغية بنسبة ٤٨ بالمائة.»40

كانت الأرقام دقيقةً جدًّا، ولكن كما تعرف الآن، تقديمها في صورة انخفاض المخاطر النسبي يَعرِض فوائد العلاج بصورةٍ مبالغٍ فيها. وإذا عبَّرت عن النتائج نفسها من التجرِبة نفسها في صورة انخفاض المخاطر المطلق، فإنها تبدو أقلَّ لفتًا بكثيرٍ للانتباه. فإذا تناولت الدواء الوهمي، فإن مخاطر إصابتك بنوبةٍ قلبية في التجرِبة كانت ٠٫٣٧ نوبة لكل مائة شخصٍ في زمن التجرِبة. وإذا تناولت عقَّار الروسوفاستاتين، فستقلُّ إلى ٠٫١٧ نوبة لكل مائة شخصٍ في زمن التجرِبة. وسيكون عليك أن تتناول هذا العقَّار يوميًّا، وربما يكون له آثار جانبية.

يرى الكثير من الباحثين أن أفضل طريقةٍ للتعبير عن المخاطر هي استخدام «الأعداد المطلوب علاجها». وهذه طريقة واقعية جدًّا، حيث تحسب عدد الأشخاص الذين ينبغي أن يحصلوا على العلاج لكي يستفيد شخص واحد منه. لم تُعرض بهذا الشكل نتائج تجرِبة جوبيتر في الورقة البحثية التي نُشرت عنها، ولكن في هذه المجموعة التي تنخفض لديها مخاطر الإصابة بالنوبات القلبية، أحسب أن بضع مئاتٍ من الأشخاص عليهم أن يتناولوا هذا الدواء لمنع نوبةٍ قلبية واحدة. وإذا أردت تناوُل هذا الدواء يوميًّا، مع العلم بأن هذا هو احتمال حصولك على أي فائدةٍ منه، فهذا أمر يرجع لك بالكامل. وأنا لا أدري ما القرار الذي كنت سأتخذه في هذه الحالة، ولسنا كلنا متشابهين، كما ترى من حقيقة أن بعض الناس الذين تنخفض مخاطر إصابتهم بالنوبة القلبية يختارون أخذ أحد عقاقير الاستاتين، وبعضهم يختارون ألا يفعلوا. إلا أن ما يهمني فقط هو ما إذا كانت هذه النتائج قد شُرحت للمرضى بوضوح، في الجرائد، وفي البيانات الصحفية ومن خلال طبيبهم وفي مقال الدورية الأكاديمية الأصلي الخاص بها.

سأضرب لك مثالًا أخيرًا: إذا كانت نتائج تجربتك سيئةً بحق، فلديك خيار آخر متاح؛ يمكنك ببساطةٍ أن تعرضها كما لو كانت إيجابية، بصرف النظر عما وجدته فعليًّا.

شرعتْ مجموعة من الباحثين من أكسفورد وباريس في فحص هذه المشكلة بطريقةٍ منهجية في عام ٢٠٠٩؛41 فقد أخذوا كل التجارِب المنشورة على مدار شهر، والتي كانت لها نتيجة سلبية بمعنى الكلمة؛ أي تلك التي حددت في بروتوكولها أنها تسعى لاكتشاف فائدةٍ فيما يتعلق بنتيجة إكلينيكية أساسية، ثم لم تجد تلك الفائدة. ثم فحصوا تقارير الدوريات الأكاديمية الخاصة باثنتين وسبعين تجرِبة من هذه التجارِب، بحثًا عن أدلةٍ على «التلاعب»؛ أي محاولات لتقديم النتيجة السلبية بنحوٍ إيجابي، أو لإلهاء القارئ عن حقيقة أن النتيجة الأساسية للتجرِبة كانت سلبية.

في البداية بحثوا في الملخصات، وهي النبذات المختصرة للأوراق البحثية الأكاديمية، وتوجد في الصفحة الأولى منها، وتُقرَأ على نطاقٍ واسع؛ إما لأن مشاغل الناس تمنعهم من قراءة الورقة كاملة، أو لأنهم لا يستطيعون الوصول إليها دون دفع اشتراك (وهذه فضيحة في حد ذاتها). عادةً عندما تتصفح سريعًا ملخص ورقةٍ بحثية، تتوقَّع أن يخبرك ﺑ «حجم التأثير» — «تقل النوبات القلبية في المرضى الذين يأخذون دواءنا الرائع بمقدار ٠٫٨٥ مرة» — إلى جانب أنه يعطيك مؤشرًا للدلالة الإحصائية لهذه النتيجة. ولكنْ في هذه العينة التمثيلية البالغة اثنتين وسبعين تجرِبة، والتي كانت كلها ذات نتائج سلبية واضحة بالنسبة إلى النتيجة الإكلينيكية الأساسية الخاصة بها، لم تُعبِّر سوى تسع تجارب فقط عن هذه الأرقام بالشكل الصحيح في الملخص، بينما لم تُعطِ ثمانٍ وعشرون تجرِبة أي نتائج رقمية على الإطلاق فيما يتعلق بالنتيجة الإكلينيكية الأساسية للتجرِبة. وهكذا، وُوريت ببساطةٍ النتائجُ السلبية تمامًا عن الأعين.

ما يزيد الأمر سوءًا أنَّ ست عشرة تجرِبة فقط من هذه التجارِب ذكرت النتيجة الأساسية السلبية للتجرِبة بنحوٍ ملائم في أي مكان، حتى في نص مقال التجرِبة الأساسي نفسه.

إذًا، ماذا يوجد في تقارير التجارِب هذه؟ الإجابة هي: تلاعب. في بعض الأحيان وجد الباحثون في التجارِب نتيجةً إيجابية أخرى في جداول البيانات، وتظاهروا بأن هذا ما كانوا يقصدون اعتباره كنتيجة إيجابية من البداية (وهذه حيلة سبق أن تحدَّثنا عنها: «تبديل النتيجة الإكلينيكية الأساسية»). في بعض الأحيان، قاموا بعمل تحليل مراوغ لمجموعاتٍ فرعية — هذه أيضًا حيلة سبق أن رأيناها. في بعض الأحيان، كانوا يزعمون أنهم وجدوا أن علاجهم «لا يقل» عن العلاج المنافس في المستوى (في حين أن التجارِب الخاصة بهذا الأمر في الواقع تتطلب عينةً أكبر من الناس؛ لأنك ربما تُفوِّت فارقًا حقيقيًّا بين دواءين ببساطةٍ بسبب الصدفة). وفي بعض الأحيان كانوا يثرثرون بوقاحةٍ عن مدى عظمة العلاج، برغم الأدلة التي تشير لعكس ذلك.

هذه الورقة البحثية ليست الوحيدة التي توصَّلت إلى تلك النتائج؛ ففي عام ٢٠٠٩ فحصت مجموعة أخرى من الباحثين الأوراق البحثية المكتوبة عن تجارب على قطرات العين البروستاجلاندينية كعلاج للمياه الزرقاء42 (كالعادة، الحالة والعلاج المحددان لا يهمان؛ المهم هو المبدأ). ووجدوا تسعًا وثلاثين تجرِبة إجمالًا، أغلبيتها الساحقة — تسعٌ وعشرون منها — مُموَّلة من قِبل الصناعة. كانت النتائج مرعبة: ثماني عشرة تجرِبة من التسع والعشرين المموَّلة من قِبل صناعة الأدوية قدَّمت استنتاجًا في الملخص لا يُعبِّر عن قياس النتيجة الإكلينيكية الأساسية. في حين أن كل الدراسات المموَّلة من جهاتٍ أخرى غير الصناعة كانت جيدة.

كل هذا مُخزٍ، ولكنه ممكن بسبب العيوب الهيكلية في البنية المعلوماتية للطب الأكاديمي. إذا لم تُلزِم الباحثين بذكر قياسات النتائج الإكلينيكية الأساسية في الورقة البحثية، وقبلتَ بأن يبدلوا النتائج الإكلينيكية بنحوٍ روتيني، مع العلم بأن هذا يُشوِّه الإحصائيات، فأنت تسمح بالتلاعب في القياسات. وإذا كنت لا تربط بين البروتوكولات والأوراق البحثية بنحوٍ واضح، متيحًا للباحثين أن يتلاعبوا بالنتائج الإكلينيكية، فأنت تسمح بالتلاعب في القياسات. وإذا لم يُطالب محررو الدوريات والقائمون بمراجعة الأقران الباحثين بتقديم البروتوكولات السابقة للتجرِبة مع الأوراق البحثية، والتحقق مِن تطابق الأمور الأساسية فيهما، فهم يسمحون بتبديل النتائج الإكلينيكية. وإذا لم يراقبوا محتويات الملخصات، فهم مشاركون في تشويه الأدلة، الذي يُشوِّه الممارسة الإكلينيكية، ويجعل قرارات العلاج عشوائية بدلًا من أن تكون مستندة إلى أدلة؛ ومن ثَمَّ فهم يلعبون دورًا كبيرًا في إيذاء المرضى.

ربما كانت المشكلة الكبرى هي أن الكثير ممن يقرءون الأدبيات الطبية يفترضون ضمنًا أن جميع محرري الدوريات يأخذون كل هذه الاحتياطات. ولكنهم مخطئون في هذا الافتراض؛ ليس هناك ما يُلزم أحدًا بأي شيءٍ ذكرناه هنا، والجميع لديهم حرية أن يتجاهلوا كل هذا، ومن الشائع جدًّا — كما هي الحال بالنسبة إلى الجرائد والسياسيين ودجَّالي الطب — التلاعب بالحقائق غير المُرضية.

أخيرًا، وربما أكثر ما يثير القلق في كل ذلك، أنه كُشف عن عمليات تلاعب مشابهة في المراجعات المنهجية والتحليلات التجميعية، والتي تُعَد الشكل الأكثر موثوقيةً من أشكال الأدلة. قارنت إحدى الدراسات المراجعات التي تُموِّلها الصناعة بالمراجعات المستقلة المُموَّلة من قِبل مؤسسة كوكرين.43 أوصت كل المراجعات المُموَّلة من قِبل الصناعة باستخدام العلاج ذي الصلة دون تحفُّظ، بينما لم تفعل ذلك أيٌّ من المراجعات التي تُموِّلها مؤسسة كوكرين. هذا التفاوت مفاجئ؛ لأنه لم يكن هناك فارق في نتائجهما الرقمية بخصوص تأثير العلاج، وإنما كان الفارق فقط في المراوغة في المناقشة الموجودة في قسم النتائج بالورقة البحثية الخاصة بالمراجعة.

كان عدم الارتياب في المراجعات المُموَّلة من قِبل الصناعة واضحًا أيضًا في الطريقة التي ناقشت بها العيوب المنهجية للدراسات التي ضمَّنوها في البحث؛ ففي الغالب هي لم تناقشها من الأساس. وزاد احتمال التفكير فيما إذا كانت التجارِب عرضةً للتحيُّز في مراجعات كوكرين؛ أما الدراسات التي موَّلتها الصناعة فقد مرت مرور الكرام على تلك العيوب. وهذا يُذكرنا بأن نتائج الورقة العلمية أهم بكثيرٍ من صياغتها في قسم المناقشة، كما أنه يُذكرنا بأن التحيُّز المصاحب لتمويل الصناعة يَنفُذ إلى قلب العالم الأكاديمي.

جميع الحقوق محفوظة لمؤسسة هنداوي © ٢٠٢٤