Почему большинство публикуемых результатов исследований неверны

https://t.me/covidnotes t.me/covidnotes @covidnotes

Телеграм канал COVID-19 NOTE

Дата публикации: 28.09.2016

Исследования могут содержать неверные выводы, но что если в подавляющем большинстве случаев публикуемые результаты современных исследований неверны? Джон Иоаннидис утверждает, что в последнем нет ничего удивительного. Его статья «Почему большинство публикуемых результатов исследований неверны» стала самой читаемой в истории журнала PLoS Medicine, набрав более 1 миллиона просмотров. В ней он показывает, почему большинство публикуемых результатов исследований недостоверны, и приводит не только факторы, которые могут сделать выводы исследований более или менее достоверными, но и простые соотношения, позволяющие сделать количественную оценку вероятности недостоверности результатов исследования.

Резюме

Озабоченность тем, что большинство публикуемых результатов исследований неверны, возрастает. Вероятность того, что утверждение верно, может зависеть от статистической мощности, наличия систематических ошибок, количества других исследований по тому же вопросу и, что немаловажно, соотношения количества реальных связей к случаям отсутствия связей среди всех проверенных в каждой научной области. В связи с этим результат исследования с меньшей вероятностью будет достоверным в следующих случаях: если исследования в данной области небольшие; при меньшей величине эффекта; при большем количестве и меньшем предварительном отборе исследуемых связей; при большей гибкости дизайна исследования, определений, выводов и аналитических методов; при наличии явной финансовой или любой другой заинтересованности и предвзятости; и при вовлечённости большего количества исследовательских групп в научной области в погоне за статистической значимостью результата. Смоделированные ситуации показывают, что для большинства планов и условий исследований результаты с большей вероятностью будут объявлены недостоверными, чем достоверными. Более того, для многих научных областей заявленные результаты исследований часто могут быть не более чем тщательными измерениями преобладающего смещения. В настоящей статье я расскажу о возможном влиянии этих проблем на проведение исследований и интерпретацию результатов.

Иногда публикуемые результаты исследований впоследствии опровергаются, что приводит к замешательству и разочарованию. Опровержение и разногласия касаются планов проведения ряда исследований, от клинических испытаний и традиционных эпидемиологических исследований [1–3] до самых современных молекулярных исследований [4, 5]. Возрастает беспокойство по поводу того, что неверные выводы могут содержаться в большинстве или, возможно, даже в подавляющем большинстве публикуемых современных исследований [6–8]. Однако это неудивительно. Можно доказать, что большинство публикуемых результатов исследований недостоверны. Здесь я исследую ключевые факторы, оказывающие влияние на проблему, и сформулирую выводы.

Моделирование принципов получения ложноположительных результатов

Несколько методологов указывают [9–11], что низкий уровень репликации (отсутствие подтверждения) результатов − следствие удобной, но необоснованной стратегии заявления об окончательном результате на основании единственного исследования, оцениваемого по формальной статистической значимости, обычно для p-значения менее 0,05. P-значения не позволяют максимально точно представить и обобщить результаты исследования. Однако, к сожалению, существует распространённое мнение, что статьи о медицинских исследованиях должны быть интерпретированы исходя из одних только p-значений. Здесь результаты исследований определяются как любые формально статистически значимые отношения, например, эффективное вмешательство, информативные предикторы, факторы риска или взаимосвязи. «Отрицательное» исследование также очень полезно. В действительности слово «отрицательное» неверно передаёт смысл, широко распространена его неправильная интерпретация. Однако в этой работе нас будут в большей мере интересовать связи, о существовании которых заявляют исследователи, а не нулевые результаты.

Можно доказать, что большинство публикуемых исследований дают недостоверные результаты.

Как было показано ранее, вероятность того, что результаты исследования действительно достоверны, зависит от априорной вероятности его достоверности (до проведения исследования), статистической мощности и уровня статистической значимости [10, 11]. Рассмотрим таблицу 2х2, в которой результаты исследования сравниваются с золотым стандартом реальных связей в научной области. О наличии связей в определённой области исследования могут быть выдвинуты как верные, так и ложные гипотезы. Допустим, R − отношение числа «реальных связей» к числу «отсутствующих связей» среди всех тестируемых отношений. R − характеристика области и может многократно меняться, во многом в зависимости от того, рассматриваются ли наиболее вероятные отношения или исследуется только одна или несколько реальных связей среди сотен и миллионов гипотетических. Также для простоты вычислений рассмотрим ограниченные области, где либо есть только одна реальная связь (среди многочисленных гипотетических), либо мощности исследования достаточно для нахождения любой из нескольких существующих реальных связей. Предтестовая вероятность того, что связь реальна, равна R/(R + 1). Вероятность обнаружить в ходе исследования реальную связь, отражает мощность 1 − β (единица минус вероятность ошибки второго рода). Вероятность заявления о наличии связи, когда её в действительности не существует, отражает вероятность ошибки первого рода, α. Предположим, что в ходе исследования проверяются c отношений, ожидаемые значения таблицы 2х2 приведены в Таблице 1. После заявления в результатах исследования о достижении формальной статистической значимости, посттестовая вероятность того, что оно достоверно, будет являться положительным прогностическим значением (PPV). PPV является также дополнительной вероятностью того, что Вахольдер (Wacholder) с соавторами назвали вероятностью ложноположительного результата [10]. Как следует из таблицы 2х2, PPV получается равным PPV = (1 − β)R/(R − βR + α). Таким образом, результат исследования тем с большей вероятностью будет истинным, чем ложным, если (1 − β)R > α. Поскольку обычно подавляющее большинство исследователей ориентируются на значение a = 0,05, это означает, что результат исследования будет с большей вероятностью истинным, чем ложным, если (1 − β)R > 0,05.

Таблица 1. Результаты исследования и реальные связи.

Гораздо реже принимается в расчёт то, что смещения и частота повторных независимых проверок разными группами исследователей по всему миру может ещё больше исказить картину и привести к снижению вероятности того, что результаты исследования на самом деле будут достоверны. Мы попытаемся смоделировать эти два фактора в контексте похожей таблицы 2х2.

Смещения

Сперва определим смещения как сочетание различных факторов, связанных с планом исследования, данными, анализом и представлением результатов, приводящее к выводам, к которым исследователи не должны были приходить. Пусть u — это доля исследованных анализов, которые не должны были стать «результатами исследования», но, тем не менее, были представлены и опубликованы как таковые из-за систематических ошибок (смещений). Их не следует путать со случайной изменчивостью, которая приводит к ложности некоторых выводов даже несмотря на безупречность плана, данных, анализа и представления результатов. Смещения могут повлечь за собой манипулирование при проведении анализа или представлении результатов. Выборочное или искажённое представление результатов — типичная форма смещения подобного рода. Можно предположить, что u не зависит от того, существует реальная связь или нет. Это предположение небезосновательно, поскольку обычно нельзя узнать, какая связь на самом деле реальна. При наличии смещения (Таблица 2) мы получаем PPV = ([1 − β]R + uβR)/(R + α − βR + u − uα + uβR), которое снижается по мере повышения u, до тех пор, пока 1 − β ≤ α, то есть, 1 − β ≤ 0,05 для большинства случаев. Таким образом, с возрастанием смещения шанс, что результат исследования будет верен, существенно снижается. Это показано для различных уровней мощности и различных значений предтестовой вероятности на Рисунке 1. И наоборот, достоверные результаты исследования могут случайно быть аннулированы из-за обратного смещения. К примеру, связи могут остаться незамеченными при большой погрешности измерения [12], или если исследователи неэффективно используют данные, или не выявляют статистически значимые связи, или возникают конфликты интересов, способные «похоронить» значимые результаты [13]. Крупных надёжных эмпирических свидетельств того, как часто такие обратные смещения могут случаться в различных областях исследований, нет. Но, наверное, будет справедливым сказать, что обратные смещения не слишком часты. Более того, погрешности измерения и неэффективное использование данных, вероятно, случаются гораздо реже в связи с тем, что погрешность измерения с развитием технологического прогресса в молекулярную эпоху снизилась, и исследователи стали намного внимательнее подходить к подбору данных. Независимо от этого, обратное смещение может быть смоделировано так же, как и описанные выше смещения. Обратные смещения также не следует путать со случайной изменчивостью, что может привести к случайному упущению реальной связи.

Рисунок 1. PPV (вероятность того, что результат исследования достоверен) как функция предтестовой вероятности для различных уровней смещения, u. Графики соответствуют мощности 0,20, 0,50 и 0,80.

Таблица 2. Результаты исследования и реальные связи при наличии смещения.

Проверка несколькими независимыми группами

Несколько независимых групп могут ставить для исследования одни и те же вопросы. Благодаря глобализации научных исследований стало практически правилом, что несколько исследовательских групп, а часто десятки, могут работать над одними и теми же или схожими вопросами. К сожалению, в некоторых областях до сих пор предпочитают сосредоточиться на изолированных исследованиях, проводимых отдельными группами, и интерпретировать результаты исследования изолированно. Количество вопросов, рассмотренных хотя бы в одном исследовании с заявленными результатами, возрастает, и эти результаты рассматриваются односторонне. Несложно рассчитать вероятность того, что хотя бы одно среди нескольких проведённых по одному и тому же вопросу исследований, заявляет о статистически значимом результате. Для n независимых исследований равной мощности таблица 2х2 показана в Таблице 3: PPV = R(1 − βn)/(R + 1 − [1 − α]n − Rβn) (без учёта смещения). По мере увеличения числа независимых исследований PPV снижается до 1 − β < a, то есть обычно 1 − β < 0,05. Это показано для разных уровней мощности и разных уровней предтестовой вероятности на Рисунке 2. Для n исследований разной мощности условие βn заменяется на произведение условий βi для i = от 1 до n с аналогичными следствиями.

Рисунок 2. PPV (вероятность того, что результат исследования достоверен) как функция предтестовой вероятности для различного числа проведённых исследований, n. Графики соответствуют мощности 0,20, 0,50 и 0,80.

Таблица 3. Результаты исследования и реальные связи в случае множества исследований.

Выводы

Практический пример показан в Поле 1. На основе приведённых выше заключений можно сделать несколько интересных выводов о вероятности того, что результат исследования действительно верен.

Поле 1. Пример: исследование при низкой предтестовой вероятности

Предположим, что группа исследователей проводит полногеномный поиск ассоциаций, чтобы проверить, связан ли какой-либо из 100000 генетических полиморфизмов с предрасположенностью к шизофрении. На основе наших знаний о наследуемости заболевания следует ожидать, что примерно десять из тестируемых генетических полиморфизмов будут действительно связаны с шизофренией с примерно одинаковым отношением шансов − около 1,3 для 10 полиморфизмов − и с примерно равной возможностью определения любого из них. Тогда R = 10/100000 = 10−4, и предтестовая вероятность связи любого полиморфизма с шизофренией также R/(R + 1) = 10−4. Давайте предположим, что вероятность обнаружения связи составляет 60% при отношении шансов равном 1,3 и при α = 0,05. Тогда можно предположить, что если найдена статистически значимая взаимосвязь при p-значении, немного превышающем 0,05, то по окончании исследования вероятность того, что его результаты достоверны, возрастает в 12-кратном размере по сравнению с предтестовой вероятностью, но она всё равно составляет лишь 12 × 10−4.

Теперь предположим, что исследователи занимаются подтасовкой в отношении плана исследования, анализа и представления результатов, чтобы у большего числа связей p-значение превысило порог в 0,05, хотя при строгом соблюдении плана исследования и процедуры анализа, а также при исчерпывающем представлении результатов строго по первоначальному плану исследования этот порог не удалось бы преодолеть. К таким подтасовкам относятся, например, случайное включение/невключение определённых пациентов или представителей контрольных групп, апостериорный анализ в подгруппах, исследование генетических различий, которые не были изначально указаны, изменение определения заболевания и определения контрольной группы, а также различные сочетания выборочного или искажённого представления результатов. Доступные на рынке программы глубинного поиска данных (data mining) с гордостью преподносят как способные предоставить статистически значимые результаты путём «слепого прочёсывания» данных. При наличии систематической ошибки с u = 0,10 посттестовая вероятность того, что результат исследования верен, равен всего лишь 4,4 × 10−4. Помимо этого, даже при отсутствии систематических ошибок, когда десять независимых групп исследователей по всему миру проводят аналогичные эксперименты, если одна из них найдёт формально статистически значимую взаимосвязь, вероятность того, что результат исследования верен, равна всего лишь 1,5 × 10−4, что не превышает вероятность, полученную нами ранее, до того, как было проведено какое бы то ни было исследование!

Вывод 1. Чем меньше исследования в определённой области, тем меньше вероятность того, что результаты исследования будут достоверны. Малый объём выборки означает меньшую мощность и, для всех приведённых выше функций, PPV для достоверного результата исследования снижается по мере снижения мощности до 1 − β = 0,05. Таким образом, при прочих равных условиях, результаты исследования с большей вероятностью будут достоверны в тех научных областях, в которых проводятся крупные исследования, такие как рандомизированные контролируемые испытания в кардиологии (с несколькими сотнями рандомизированных участников) [14], чем в областях с маленькими исследованиями, такими как большинство исследований молекулярных предикторов (с меньшей в сотню раз выборкой) [15].

Вывод 2. Чем меньше величина эффекта в исследуемой области, тем меньше вероятность того, что результат достоверен. Мощность исследования также зависит от величины эффекта. Таким образом, результаты исследования с большей вероятностью будут достоверны в областях с наибольшим эффектом, таких как влияние курения на возникновение онкологических или сердечно-сосудистых заболеваний (относительный риск 3–20), чем в областях, где предполагаемый эффект незначителен, таких как генетические факторы риска полигенных заболеваний (относительный риск 1,1–1,5) [7]. Современная эпидемиология всё чаще вынуждена ориентироваться на малые величины эффектов [16]. Следовательно, мы ожидаем снижения доли достоверных результатов исследований. Размышляя далее, можно предположить, что если величины реальных эффектов в области слишком малы, весьма вероятно, эту область заполонят ложноположительные выводы. К примеру, если большинство реальных генетических или диетических детерминант сложных заболеваний даёт относительные риски менее 1,05, генетическая эпидемиология или эпидемиология питания, вероятнее всего, будет утопией.

Вывод 3. Чем больше количество и чем меньше отбор тестируемых связей, выявленных в научной области, тем меньше вероятность того, что результаты исследования будут достоверны. Как показано выше, посттестовая вероятность того, что исследование верно (PPV), во многом зависит от предтестовой вероятности (R). Таким образом, результаты исследования с большей вероятностью будут достоверны при наличии достоверных схем, таких как фаза III рандомизированных контролируемых исследований, или их мета-анализе, чем в гипотезообразующих экспериментах. В высокоинформативных и изобретательских областях с большим количеством собранной и проверенной информации, таких как микроматричный анализ, и других фундаментальных исследованиях с высокой пропускной способностью [4, 8, 17], PPV должно быть крайне низким.

Вывод 4. Чем больше гибкость плана, определений, исходов и аналитических моделей, тем меньше вероятность получить достоверный результат. Гибкость увеличивает вероятность трансформации «отрицательного» результата в «положительный», то есть смещения (систематической ошибки), u. Для некоторых дизайнов исследования, например, рандомизированных контролируемых испытаний [18–20] или мета-анализов [21, 22], предпринимались попытки стандартизировать порядок проведения и представления результатов. Соблюдение единых стандартов может способствовать росту числа достоверных результатов. То же применимо и к исходам. Достоверные результаты можно получать чаще, если исходы однозначны и общепризнанны (например, смерть), чем когда приведены разрозненные исходы (например, шкала оценки симптомов при шизофрении) [23]. Аналогично в областях, где используются общепринятые, стандартные аналитические методы (например, диаграммы Каплана-Мейера и логарифмический ранговый критерий) [24] можно получить больше достоверных результатов, чем в областях, где аналитические методы до сих пор в разработке (например, методы искусственного интеллекта) и публикуются только «лучшие» результаты. Однако даже в самых точных дизайнах исследования смещения представляют большую проблему. К примеру, есть убедительное свидетельство того, что выборочное сообщение результатов, манипуляции с исходами и публикуемыми результатами − распространённая проблема даже для рандомизированных исследований [25]. И простая ликвидация выборочных публикаций не сможет решить эту проблему.

Вывод 5. Чем больше финансовая и другая заинтересованность и предвзятость, тем меньше вероятность того, что результаты исследования будут достоверными. Конфликты интересов и предвзятость могут способствовать увеличению смещения (u). Конфликты интересов часто встречаются в биомедицинских исследованиях [26], и, как правило, о них сообщают редко и не должным образом [26, 27]. Предвзятость не обязательно имеет финансовые причины. Учёные в конкретной области могут проявлять предвзятость только из-за уверенности в истинности той или иной теории или в связи с их собственными выводами. С другой стороны, многие вроде бы независимые исследования, проводившиеся в институтах, могли быть проведены с одной только целью − чтобы врачи и исследователи могли получить повышение или постоянную должность. Такого рода нефинансовые конфликты могут также приводить к искажённым представлению и интерпретации результатов. Авторитетные учёные за счёт процесса рецензирования могут предотвратить публикацию и распространение результатов исследований, которые опровергают их заключения, тем самым закрепляя в своей области знаний неверное мнение. Эмпирические свидетельства показывают, что заключения экспертов крайне ненадёжны.

Вывод 6. Чем большая активность проявляется в области (чем больше групп исследователей вовлечено), тем меньше вероятность того, что результаты будут достоверны. На первый взгляд этот вывод кажется парадоксальным. Мы приходим к нему, основываясь на ранее высказанном утверждении, что PPV изолированных исследований снижается, если в одной и той же области действует множество групп исследователей. Этим можно объяснить, почему в областях, к которым приковано всеобщее внимание, мы так часто наблюдаем бурное ликование, быстро сменяющееся глубоким разочарованием. При большом количестве групп, работающих в одной области с большим объёмом данных, скорость − единственный способ обойти конкурентов. Поэтому появляется вероятность, что каждая исследовательская группа будет стараться развить и опубликовать свои самые впечатляющие «положительные» результаты.«Отрицательные» результаты будут считаться достойными распространения только в том случае, если другая группа исследователей пришла к «положительному» заключению по тому же вопросу. В этом случае перспектива опровержения заявления, сделанного в каком-нибудь престижном журнале, может быть довольно заманчивой. Термин «феномен Протея» был введён для описания быстро сменяющих друг друга противоположных выводов из исследований и опровержений заявлений, сделанных оппонентами [29]. Эмпирические свидетельства позволяют предположить, что такое чередование противоположностей довольно часто происходит в молекулярной генетике [29].

В этих выводах каждый фактор рассматривается в отдельности, но они часто оказывают влияние друг на друга. К примеру, исследователи, работающие в области, где реальные величины эффекта кажутся небольшими, могут с большей вероятностью проводить крупные исследования, чем исследователи, занятые в отрасли, где реальные величины эффектов кажутся большими. В области, где активно ведутся исследования, может преобладать предвзятость, что снижает прогностическое значение результатов. Слишком предвзятые заинтересованные люди даже могут создавать препятствия попыткам получить и распространить результаты, противоположные их собственным. И наоборот, в области, которая исследуется очень активно, или где присутствует высокая финансовая заинтересованность, иногда могут проводиться обширные исследования и улучшаться стандарты проведения исследования, что увеличивает предсказательное значение результатов. Или же масштабное фундаментальное исследование может привести к выявлению большого числа значимых связей, которых будет достаточно для публикации и дальнейших исследований, и не будет нужды прибегать к «слепому прочёсыванию» данных и манипуляциям с ними.

Для большей части дизайнов исследований и научных областей большинство результатов недостоверны

В обозначенных условиях довольно сложно получить PPV выше 50%. В Таблице 4 приведены результаты моделирования с использованием формул для расчёта влияния мощности, соотношения реальных и несуществующих взаимосвязей и систематических ошибок для различного рода ситуаций, которые могут характеризовать конкретные дизайны и параметры исследования. Результат хорошо организованного рандомизированного контролируемого испытания с адекватной мощностью, начинающегося с 50% предтестовой вероятности того, что вмешательство будет эффективно, очевидно, будет достоверным в 85% случаев. Примерно тот же результат можно получить при проверочном мета-анализе рандомизированных исследований высокого качества: возможно, потенциальная вероятность систематической ошибки вырастет, но мощность и предтестовая вероятность будут выше по сравнению с единичным рандомизированным исследованием. Напротив, результат мета-анализа исследований, не позволяющих сделать окончательный вывод, где для «коррекции» малой мощности отдельных исследований используется их объединение, весьма вероятно, будет недостоверным, если R ≤ 1:3. Результаты клинических исследований ранней фазы, не обладающих достаточной мощностью, будут достоверными только в одном случае из четырёх или даже реже − при наличии смещения. Эпидемиологические поисковые исследования дают ещё худшие результаты, особенно при недостаточной мощности; но даже эпидемиологические исследования с большой мощностью могут дать достоверный результат только в одном случае из пяти, если R = 1:10. В конце концов, в фундаментальных исследованиях с обширным числом тестируемых объектов, где тестируемые соотношения превышают реальные в тысячи раз (например, при тестировании 30000 генов, только 30 из которых действительно могут продемонстрировать связь с заболеванием) [30, 31], PPV для каждой проверяемой связи крайне мало, даже при условии стандартизации лабораторных и статистических методов, исходов и представления результатов, направленной на снижение смещений.

Таблица 4. PPV для результатов исследований при различных сочетаниях мощности (1 − β), отношения реальных и несуществующих связей (R) и смещения (u).

Представленные результаты исследований часто могут быть всего лишь точным измерением преобладающего смещения

Как показано выше, большинство современных биомедицинских исследований проводится в областях с очень низкой пред- и посттестовой вероятностью получения достоверных результатов. Предположим, что в некоторой области совсем нельзя получить достоверный результат. История науки говорит, что в прошлом исследователи часто растрачивали свои усилия в областях, совершенно не содержащих достоверной научной информации − по крайней мере, в нашем сегодняшнем понимании. В такой «нулевой области» в идеале можно ожидать, что все наблюдаемые значения величин эффектов будут изменяться случайным образом и примерно равняться нулю при условии отсутствия смещений. Степень отклонения получаемых результатов от случайной величины будет всего лишь точным измерением преобладающего смещения.

Предположим, например, что никакие питательные вещества и режимы питания не являются важными при определении риска развития конкретного вида опухоли. Предположим также, что в научной литературе содержатся исследования 60 питательных веществ и утверждается, что все они связаны со степенью риска развития этого вида опухоли с относительным риском от 1,2 до 1,4 соответственно от верхней до нижней тертили. Тогда заявленные величины эффектов измеряют не что иное, как чистое смещение, имевшее место при создании этих научных трудов. Заявленные величины эффектов фактически представляют собой очень точные измерения смещений. Отсюда следует, что среди «нулевых областей» области, содержащие большие эффекты (даже сопровождаемые заявлениями о важности с точки зрения медицины и здравоохранения), всего лишь подвержены самым большим смещениям.

Для областей с очень низким PPV небольшое количество реальных взаимосвязей не слишком исказит общую картину. Даже если несколько связей реальны, форма распределения наблюдаемых эффектов всё равно будет представлять собой чистое измерение смещений, имеющихся в данной области. Эта концепция полностью меняет наши взгляды на результаты научных исследований. Традиционно исследователи относились к большим и обладающим высокой значимостью эффектам с воодушевлением, как к признакам важных открытий. Эффекты со слишком большой величиной и значимостью на самом деле в большинстве областей современных исследований могут быть признаками больших смещений. Исследователям необходимо осторожно и критически относиться к возможным дефектам данных, анализов и результатов.

Конечно, исследователи, работающие в любой отрасли, вероятно, будут отрицать, что целая область, на которую они тратят свои силы, является «нулевой». Однако, к разгрому этой научной области могут впоследствии привести другие наборы данных или технологический и экспериментальный прогресс. Может быть целесообразным принятие определённых мер, чтобы смещения в одной области могли быть также полезны для понимания того, какой уровень смещений присутствует в других областях, где применяют схожие аналитические методы, технологии и существуют аналогичного рода конфликты.

Как можно улучшить ситуацию?

Неизбежно ли то, что большинство результатов исследований недостоверны, или можно улучшить ситуацию? Основная проблема в том, что невозможно со 100%-ной уверенностью знать, что является достоверным в том или ином исследовании. В связи с этим чистый «золотой» стандарт недостижим. Однако есть несколько способов увеличить посттестовую вероятность.

Свидетельства с большей мощностью, например, крупные исследования или мета-анализы с малым количеством смещений могут быть полезны для приближения к неведомому «золотому» стандарту. Однако крупные исследования всё же могут содержать смещения, и это необходимо признать для того, чтобы их избежать. Более того, невозможно получить масштабные свидетельства для миллионов и триллионов вопросов, сформулированных в существующих исследованиях. К получению масштабных свидетельств стоит стремиться в рамках тех исследований, где предтестовая вероятность сравнительно высока, так что значимый результат исследования приведёт к посттестовой вероятности, которую можно будет счесть довольно существенной. Крупномасштабное свидетельство также обозначается отдельно, если оно может проверять основные идеи, нежели узкие, специфические вопросы. Отрицательный результат может позднее опровергнуть не только отдельную гипотезу, но и целую область или значительный её участок. Отбор результатов крупномасштабных исследований, основанных на узких критериях, таких как продвижение конкретного лекарства на рынке − в основном впустую проведённое исследование. Более того, следует быть осторожным, поскольку чрезмерно крупные исследования могут с большей вероятностью проводиться для поиска формально статистически значимого различия для незначительного эффекта, который на самом деле несущественно отличается от нуля [32–34].

Кроме того, большинством вопросов занимаются многочисленные группы исследователей, и ошибочно подчёркивать статистически значимые выводы какой-либо отдельной группы. Значение имеет только совокупность свидетельств. Снижение числа смещений путём улучшения стандартов проведения исследования и устранения предвзятости также может помочь. Однако, это может потребовать труднодостижимого изменения научного менталитета. В некоторых дизайнах исследования усилия могут увенчаться успехом при предварительной регистрации исследований, например, рандомизированных испытаний [35]. Регистрация должна стать проверкой для гипотезообразующих исследований. Некоторые способы регистрации или сотрудничество исследователей в пределах одной области при сборе данных могут быть более достоверными, чем регистрация каждого гипотезообразующего эксперимента. Вне зависимости от этого, даже если мы не увидим большого прогресса при регистрации исследований в других областях, принципы разработки и соблюдения протокола исследования должны быть более широко заимствованы из рандомизированных контролируемых исследований.

Наконец, вместо погони за статистической значимостью при проведении исследования мы должны улучшить наше понимание диапазона значений R − предтестовой вероятности − в исследуемой области [10]. Перед проведением эксперимента исследователи должны понимать, какова вероятность того, что связи, которые они тестируют, скорее достоверны, чем нет. Предполагаемые высокие значения R иногда могут быть впоследствии определены более точно. Как описано выше, когда это этически приемлемо, крупные исследования с минимальным количеством смещений должны быть проведены по результатам относительно общепризнанных исследований, чтобы понять, насколько они действительно подтверждаются. Полагаю, несколько общепризнанных «классических» исследований могут провалить этот тест [36].

Тем не менее, большинство новых открытий продолжит проистекать из гипотезообразующих исследований с низкой или очень низкой предтестовой вероятностью. Тогда мы должны признать, что статистическая значимость, тестируемая в сообщении о единственном исследовании даёт только частичную картину, без информации о том, как много исследований было проведено за рамками отчёта и в соответствующей области в целом. Несмотря на большое количество литературы по статистике на тему поправки на множественные сравнения [37], обычно бывает невозможно расшифровать, какая степень «слепого прочёсывания» данных предшествовала публикации результатов исследования. Даже если будет возможным определить её, это не даст нам информации о предтестовой вероятности. Таким образом, неизбежны приблизительные предположения по поводу того, какое количество связей среди общего количества тестируемых может быть достоверным в соответствующей области и с применением конкретного дизайна исследования. Более обширная область может задать некоторое направление для оценки этой вероятности в рамках отдельного исследовательского проекта. Также будет полезно взять на вооружение опыт устранения смещений, обнаруженных в смежных областях. Даже если эти предположения будут сравнительно субъективны, они всё равно будут весьма полезны для интерпретации заявлений в рамках исследований и внедрения их в контекст.

Перевод − Елена Донцова, редактура − Валерия Антонова. Иллюстрация − Анастасия Икусова, адаптация графиков − Радмир Абильев.

Джон П.А. Иоаннидис (John P.A. Ioannidis). «Why Most Published Research Findings Are False». PLoS Med 2(8): e124.

Список литературы смотрите в первоисточнике.