Как читать научную статью и почему это достаточно сложно

Александра Порошина, главный редактор профессионального сообщества REformaPRO.ru

В этой статье представлен перевод гайда с сайта Examine.com с пояснениями автора.

Маркетинговые заявления, подкрепленные «научными данными», пронизывают индустрию здоровья и фитнеса. Производители пищевых добавок продают такие продукты, как экстракт зеленого кофе (по которому почти нет исследований на людях), как будто их действие так же хорошо известно, как и действие креатина (о котором сотни испытаний на людях). Но не все исследования одинаковы. Чтобы не тратить деньги на неэффективные продукты, вы должны быть в состоянии оценить различные аспекты исследования, такие как его достоверность, его применимость и клиническая значимость сообщаемых эффектов.

Плохо проведенные испытания могут привести к выдающимся результатам. Обычно лучше подождать и посмотреть, можно ли воспроизвести эти результаты, прежде чем делать выводы.

Чтобы понять исследование, а также то, как оно связано с предыдущими исследованиями по этой же теме, недостаточно просто прочитать аннотацию (abstract) к статье. Контекст критически важен при обсуждении новых исследований, потому что аннотация часто вводит читателя в заблуждение.

Типы исследований

Существует много разновидностей исследований. Данное руководство поможет вам лучше разобраться в них; особое внимание мы уделили экспериментальным исследованиям.

Обзор типов исследований

Рандомизированные двойные слепые плацебо-контролируемые исследования обычно считаются золотым стандартом биомедицинских исследований. В таких испытаниях участников случайным образом распределяют либо в группу вмешательства (которая получит вмешательство), либо в контрольную группу (которая получит плацебо), и ни они, ни исследователи, проводящие эксперимент, не знают, какие участники принадлежат к какой группе.

Структура каждой статьи должна быть такой:

Абстракт, аннотация или резюме (Abstract)
Введение (Introdaction)
Материалы и методы (Materials and Methods)
Результаты (Results)
Обсуждение (Discussion)
Раздел заключение или выводы не обязателен, 2-3 абзаца в секции обсуждения - это выводы).

Как подступиться к публикации

Не пытайтесь прочитать статью за раз.

Первое прочтение – скрининговое, быстрое, попытаться ухватить ключевой посыл (сделали-получили), обычно достаточно и Abstact, краткое содержание статьи.

Второе прочтение – более детальное, как именно детали и что именно получили помимо основного результата. Что получили по основному измеряемому параметру, и что еще они получили?

Третье прочтение – останавливаемся на непонятных нюансах (обращаемся к Google, переходим по ссылкам к статьям из списка литературы, PubMed). Это кажется, что авторы такие умные, но также они могут пускать пыль в глаза. Например, какой-то метод вообще неподходящ для данного исследования, и авторы не могли его использовать.

Быстрые «красные» флаги плохой статьи:

Несоблюдение обязательной структуры статьи
Принципиальное несоответствие описываемых результатов заявленной цели (собирались изучать эффективность и безопасното, но измерили рандомный лабораторный показатель)
Рекламные интеграции в тексте статьи (скорее в российских журналах), препарата, прибор, оборудование из этой же статьи.
Громкие рекомендации и лозунги в выводах (в конце обсуждения) вместо констатации полученных результатов в прошедшем времени (данный метод однозначно эффективен, не вызывает сомнений - бегите от этой работы). Что значит не вызывает сомнений, если авторы изучают то, что не внесено ни в какие официальные рекомендации.

Абстракт (резюме)

Это краткое содержание, выжимка статьи, где очень доходчиво приведено, на ком сделали, что сделали, что померили, что померили и какой вывод сделали. Задача резюме – привлечь к полному тексту.

Поскольку в нескольких абзацах нужно уместить много информации, аннотация может непреднамеренно ввести в заблуждение. Поскольку резюме не дает контекста, он часто не дает четкого представления об ограничениях эксперимента или о том, насколько применимы результаты к реальному миру. Прежде чем ссылаться на исследование в качестве доказательства, обязательно прочитайте всю статью целиком, потому что это может оказаться слабым доказательством.

Введение

Введение имеет смысл читать при втором и третьем подходах к статье (то есть вам было интересно или важна суть исследования).

Введение задает тон. Оно должно четко определять исследовательский вопрос, на который авторы надеются ответить в своем исследовании. Здесь авторы обычно обобщают предыдущие связанные исследования и объясняют, почему они решили продолжить расследование.

Вот на какие вопросы отвечает раздел введение:

В чем «проблема» (незакрытый проблемы в знаниях)?
Какие данные по этой проблеме уже имеются?
Почему имеющихся данных недостаточно или они недостаточно «качественные»?
В чем гипотеза исследования и/или исследовательский вопрос?

Например, некалорийный подсластитель стевия показал себя как хороший способ улучшить уровень сахара в крови, особенно у диабетиков. Поэтому исследователи решили провести более масштабные и строгие испытания, чтобы определить, может ли стевия быть эффективным средством для лечения диабета.

Введение часто является отличным местом для поиска дополнительных материалов для чтения, поскольку авторы часто ссылаются на предыдущие релевантные опубликованные исследования. Оно содержит много ссылок на литературу – полезно заглянуть в этот список, посмотреть на формат этих ссылок (статьи, учебники, монографии, диссертации и тд) и срок их давности (это исследования в пределах 5-летней давности или архивные записи? Даже 2010 год – это уже устаревшие данные).

Одно исследование — всего лишь одна часть головоломки
Прочитав несколько исследований по заданной теме, вы получите больше информации — больше данных — даже если вы не знаете, как проводить метаанализ. Например, если вы прочитали только одно исследование, в котором рассматривалось влияние креатина на тестостерон, и оно обнаружило увеличение, то 100% ваших данных говорят о том, что креатин повышает уровень тестостерона; но если вы прочитали десять исследований, в которых рассматривалось влияние креатина на тестостерон, и только в одном было обнаружено увеличение, то 90% ваших данных говорят о том, что креатин не повышает уровень тестостерона.

(Это упрощенный пример, в котором мы использовали «подсчет голосов»: мы сравнили количество исследований, обнаруживших эффект, с количеством исследований, не обнаруживших никакого эффекта. Однако метаанализ намного сложнее: он должен учитывать различные критерии, такие как дизайн исследования, количество участников и систематические ошибки, влияющие на результаты, а не сводить каждое исследование к положительному или отрицательному результату.)

Неудивительно, что компании, производящие пищевые добавки, часто проводят тщательные исследования. Если компания хочет продать вам креатин в качестве усилителя тестостерона, она упомянет об одном исследовании, в котором было обнаружено увеличение уровня тестостерона, а не о девяти, в которых повышения не было.

Точно так же враждующим лагерям обычно легко бросать исследования друг другу, чтобы «доказать» свою точку зрения. Если вы ищете одно исследование, которое показывает, что диета с низким содержанием жиров лучше, чем диета с низким содержанием углеводов, способствует снижению веса, вы найдете его. Если вы ищете одно исследование, которое показывает обратное, вы тоже найдете его. Поэтому важно, если вы ищете истину (а не просто какие-то боеприпасы для войны в Твиттере), посмотреть на всю совокупность доказательств и справедливо рассмотреть исследования, которые не согласуются с вашим первоначальным мнением.

Важно помнить, что компании не одиноки в выборе нужных им исследований. Иногда это делают и сами исследователи. Если вы знаете, что какая-то область является спорной, а в статье упоминаются только исследования, подтверждающие выводы авторов, вы можете самостоятельно поискать другие статьи по этой теме (это никогда не бывает лишним).

А как же авторы и методы их работы?

Это можно посмотреть на любом этапе прочтения. Это ничего не меняет и не имеет самостоятельного краеугольного значения.

Материалы и методы

Самая важная часть статьи!
В разделе «Методы» (или «Материалы и методы») статьи содержится информация о дизайне исследования и участниках. В идеале оно должно быть настолько ясным и подробным, чтобы другие исследователи могли повторить исследование, не связываясь с авторами. Вам нужно будет изучить этот раздел, чтобы определить сильные и слабые стороны исследования, которые влияют на то, как следует интерпретировать результаты исследования.

Демография

Раздел «Методы» обычно начинается с предоставления информации об участниках, такой как возраст, пол, образ жизни, состояние здоровья и метод набора. Эта информация поможет вам решить, насколько актуально исследование для вас, ваших близких или ваших клиентов.

Пример протокола по сравнению двух диет

Данные о демографии могут быть очень объемными, у вас может возникнуть соблазн ее пропустить, но это влияет как на надежность исследования, так и на его применимость.

Надежность. Чем больше размер выборки исследования (т. е. чем больше в нем участников), тем надежнее его результаты. Обратите внимание, что исследование часто начинается с большего количества участников, чем заканчивается; исследования разных типов диет, в частности, обычно показывают значительное количество отсева.

Применимость. В области здоровья и фитнеса применимость означает, что состав или вмешательство (например, упражнения, диета, добавка), которые полезны для одного человека, могут быть пустой тратой денег для другого (или даже опасным).
Например, несмотря на то, что креатин широко признан безопасным и эффективным, есть «невосприимчивые», для которых эта добавка не может улучшить физическую работоспособность.

Ваш опыт может варьироваться, как и показывает пример с креатином, а данные о демографии могут помочь вам оценить применимость исследования. Если бы в испытании принимали участие только мужчины, то женщины, читающие исследование, должны помнить, что его результаты могут быть менее применимы к ним. Точно так же вмешательство, протестированное на студентах колледжа, может дать разные результаты, когда оно проводится на людях пенсионного возраста.

Некоторые исследования основаны на половых различиях

Кроме того, разные методы набора привлекают разные демографические группы и, таким образом, могут повлиять на применимость испытания. В большинстве сценариев исследователи используют ту или иную форму «удобной выборки». Например, исследования, проводимые университетами, часто набирают своих студентов. Однако некоторые испытатели будут использовать «случайную выборку», чтобы сделать результаты своих испытаний более применимыми к общей популяции. Такие испытания обычно называют «расширенными рандомизированными контролируемыми испытаниями».

Например, изучают инсульт. Это люди, у которых есть сопутствующие заболевания, которые влияют на лечение, реабилитацию и последующие исходы и риски возникновения. Но в исследовании были люди с нормальным ИМТ, без сахарного диабета, не было гипертонии. Все, что у них случилось в жизни – это инсульт. Как это включать в обычную популяцию? Таких людей очень мало.

Затрудняющие факторы

Наконец, в данных о демографических группах обычно указывается, были ли люди исключены из исследования, и если да, то по какой причине. Чаще всего причиной является наличие вмешивающегося фактора — переменной, которая может исказить (т. е. повлиять) результаты.

Например, если вы изучаете влияние программы тренировок с отягощениями на мышечную массу, вы не захотите, чтобы одни участники принимали добавки для наращивания мышечной массы, а другие — нет. Либо вы захотите, чтобы все они принимали одни и те же добавки, либо, что более вероятно, вы не захотите, чтобы никто из них не принимал никаких добавок.

Если вы изучаете влияние добавки для наращивания мышечной массы на мышечную массу, вы не захотите, чтобы одни участники занимались спортом, а другие нет. Вы либо захотите, чтобы все они выполняли одну и ту же программу тренировок, либо, что менее вероятно, вы захотите, чтобы никто из них не тренировался.

Конечно, в исследованиях может быть более двух групп. Например, вы могли бы провести исследование влияния программы тренировок с отягощениями на следующие четыре группы:

• Программа тренировок с отягощениями + без добавок

• Программа тренировок с отягощениями + креатин

• Без тренировок с отягощениями + без добавок

• Без тренировок с отягощениями + креатин

Но если в вашем исследовании четыре группы вместо двух, то для того, чтобы каждая группа сохраняла тот же размер выборки, вам нужно вдвое больше участников, что усложнит и повысит стоимость проведения вашего исследования.

Любые различия между участниками – это всего лишь переменные, которые могут потенциально играть роль затрудняющих факторов. Вот почему в испытаниях на мышах используются образцы, которые генетически очень близки друг к другу. По этой же причине в испытаниях на людях редко пытаются проверить вмешательство на различных выборках людей. Например, испытание, ограниченное участием пожилых женщин, фактически исключило возраст и пол как факторы, влияющие на результаты.

Как мы видели выше, при достаточно большом размере выборки у нас может быть больше групп. Мы можем даже создать дополнительные группы после завершения исследования, выполнив анализ подгрупп. Например, если вы проведете обсервационное (наблюдаемое) исследование влияния красного мяса на тысячи людей, вы можете позже отделить данные для «мужчин» от данных для «женщин» и запустить отдельный анализ каждой группы. Однако такого рода анализы подгрупп считаются исследовательскими, а не подтверждающими, и потенциально могут привести к ложноположительным результатам. (Когда, например, анализ крови ошибочно выявляет заболевание, он называется ложноположительным.)

Методики

Отвечает на вопрос «Как измеряли?» и тоже проверяется на:

Адекватность (то, что авторы используют можно вообще использовать?), например, вряд ли рентгеном можно искать метастазы, оценивать прогрессию и тд.

Валидированность: должны быть стандартные валидированный методики: если вы видите никому неизвестную шкалу, или шкалу, придуманную авторами, то насколько на жизнеспособна?

Наличие в рекомендациях/стандартах (РУ-для медицинского оборудования): существует ли такое оборудование в обычных клиниках, имеют ли они регистрационное удостоверение?

Оцениваемые параметры

Отвечает на вопрос: «Что измеряли?»

Важно понимать, насколько параметры коррелируют с важными клиническим исходом (например, исследователи могут заявить, что они судили о выздоровлении по какому-то маркеру в крови/моче, но который не коррелирует и не отражает, что пациенту стало лучше в долгосрочном периоде. Что-то снизилось и что? Например, онкологические исследования – судят по улучшению состояния пациента, потому что снизился уровень какого-то показателя в крови после лечения, но мы знаем, что не всегда этот маркер будет коррелировать с выживаемостью этого пациента).

Выделены ли первичные и вторичные конечные точки (в первую очередь – для рандомизирвоанных исследований)?

На какие сроки они оцениваются (а не слишком ли рано они померили или не слишком ли поздно?)

Дизайн исследования и конечные точки

В разделе «Методы» также будет описано, как проводилось исследование. Варианты дизайна включают одиночные слепые испытания, в которых только участники не знают, получают ли они плацебо; наблюдаемые исследования, в которых исследователи только наблюдают за демографией и проводят измерения и тд.

В частности, здесь вы узнаете о продолжительности исследования, используемых дозировках, режиме тренировок, методах тестирования и так далее. В идеале, как мы сказали, эта информация должна быть настолько четкой и подробной, чтобы другие исследователи могли повторить исследование без необходимости связываться с авторами.

Наконец, раздел «Методы» прояснит конечные точки, на которые будут обращать внимание исследователи. Например, исследование влияния силовых тренировок может взять за основной критерий мышечную массу (основной критерий оценки результатов исследования), а в качестве вторичных конечных точек — жировую массу, силовые показатели и уровень тестостерона.

Один из приемов исследований, которые хотят найти конкретный эффект (иногда для того, чтобы они могли служить маркетинговым материалом для продукта, но часто просто потому, что исследования, демонстрирующие конкретный эффект, с большей вероятностью будут опубликованы), состоит в том, чтобы собрать множество конечных точек, а затем сделать о них документ, который показал бы эффект, либо преуменьшая значение других конечных точек, либо не упоминая их вообще. Чтобы предотвратить такие «выемки/вылов данных» (метод, кажущаяся эффективность которого была продемонстрирована с помощью известного забавного обмана с шоколадом), многие ученые настаивают на предварительной регистрации исследований.

Умение распознать уловки, используемые менее щепетильными авторами, — это, увы, часть навыков, которые вам нужно будет развить, чтобы оценивать опубликованные исследования.

Интерпретация статистики

Раздел «Методы» обычно завершается обстоятельным обсуждением статистики. Определяют, был ли использован соответствующий статистический анализ для данного испытания, — это целая область исследований, поэтому мы предлагаем вам не вдаваться в подробности; постарайтесь сосредоточиться на общей картине.

Этот раздел сложно оценивать без подготовки
НО
Фразы «данные обрабатывались в программе SPSS 10.0 или только эксель, то этого недостаточно! Это плохое исследование. Должны быть определенные статистические тесты, а в идеале должно быть написано, что вот это оценивалось с помощью этого, а вот это считалось этим методом, а не просто перечисление названий этих тестов.

Во-первых, давайте проясним два распространенных недоразумения. Возможно, вы читали, что эффект был значительным, но позже обнаружили, что он был очень мал. Точно так же вы, возможно, читали, что никакого эффекта обнаружено не было, но когда вы читали статью, вы обнаружили, что группа вмешательства потеряла больше веса, чем группа плацебо. Почему так?

Проблема проста: эти причудливые ученые не говорят, как нормальные люди.

Для них «значительный» означает не «важный», а «статистически значимый». Эффект считается значительным, если вероятность получить данные, собранные во время исследования, была бы маловероятной в случае их неэффективности.

Таким образом, эффект может быть значительным, но очень небольшим — например, потеря веса на 0,2 кг (0,5 фунта) в течение года. Более того, эффект может быть значительным, но не клинически значимым (это означает, что он не оказывает заметного влияния на ваше здоровье).

Например, сравнили 2 группы по артериальному давлению, и в одной группе 120, в другой 123 (Р< 0, 05, то есть статистически значимый результат) но разница 3 мм ртутного столба. Чувствительно ли это для пациентов? Навряд ли.

Соответственно, для ученых отсутствие эффекта обычно означает отсутствие статистически значимого эффекта. Именно поэтому вы можете пересмотреть измерения, собранные в ходе исследования и обнаружить повышение или понижение показателей и после обнаружить в заключении, что никаких изменений или эффектов обнаружено не было. А изменения были, но лишь незначительные. Другими словами изменения были, но такими маленькими, что их могли вызвать случайными флуктуациями. Тем не менее, они могут также быть вызваны реальными эффектами, однако утверждать наверняка мы не можем.

Ранее в разделе «Демография» мы видели, что чем больше размер выборки исследования, тем надежнее его результаты. Соответственно, чем больше размер выборки в исследовании, тем выше его способность определять, являются ли незначительные эффекты значительными. Небольшое изменение с меньшей вероятностью будет вызвано случайными колебаниями, если оно обнаружено, скажем, в исследовании с участием тысячи человек, чем в исследовании с участием десяти человек.

Это объясняет, почему метаанализ может обнаружить значительные изменения путем объединения данных нескольких исследований, которые независимо друг от друга не обнаружили существенных изменений.

Уровень р-величины 101

Чаще всего эффект считается значительным, если статистический анализ (проводимый исследователями после исследования) дает P-значение, которое не превышает определенного порога (установленного исследователями до исследования). Назовем это порогом значимости.

Понимание того, как правильно интерпретировать P-значения, может быть сложным даже для специалистов, но вот как интуитивно понять об этом.

Подумайте о подбрасывании монеты. Подбросьте монету 100 раз, и вы получите соотношение орла и решки примерно 50/50. Не очень удивительно. Но что, если вы подбрасываете эту монету 100 раз и каждый раз выпадает решка? Теперь это удивительно! Для справки, вероятность того, что это действительно произойдет, составляет 0,0000000000000000000000000000008%.

Вы можете думать о P-значениях с точки зрения получения всех решек при подбрасывании монеты.

• P-значение 5% (p = 0,05) также невероятна, как и возможность выбросить все решки при четырех бросках монеты.

• P-значение 0,5% (p = 0,005) также невероятна, как и возможность выбросить все решки при восьми бросках монеты.

• P-значение 0,05% (p = 0,0005) также невероятна, как и возможность выбросить все решки при одиннадцати бросках монеты.

Вопреки распространенному мнению, «Р» в «величине Р» не означает «вероятность» (от англ. probability). Вероятность получить 4 решки подряд составляет 6,25%, а не 5%. Если вы хотите пересчитать значение р в броски монет (технически называемые S-значениями) и процент вероятности, воспользуйтесь нашим конвертером.

Как мы уже убедились, эффект значителен, если данные, собранные в ходе исследования, не появились бы, не будь они эффективными. Теперь мы можем добавить, что, чем ниже величина Р (ниже порога значимости), тем больше мы можем быть уверены, что эффект значим.

Уровень р-значения 201

Как мы видели, исследователи проводят статистический анализ результатов своего исследования (обычно один анализ на конечную точку), чтобы решить, оказало ли вмешательство эффект. Они обычно принимают это решение на основе P-значения результатов, которое говорит вам, насколько вероятен результат, по крайней мере, такой же большой, как наблюдаемый, если бы нулевая гипотеза, помимо других предположений, была верна.

В каждом эксперименте обычно есть два противоположных утверждения: основная гипотеза (или ее еще называют нулевая) и альтернативная гипотеза. Давайте представим вымышленное исследование, в котором пищевая добавка для похудения Better Weight сравнивается с плацебо.

Два противоположных утверждения будут выглядеть так:

• Основная гипотеза: по сравнению с плацебо, Better Weight не увеличивает и не уменьшает вес. (Гипотеза состоит в том, что влияние добавки на вес равно нулю.)

• Альтернативная гипотеза: по сравнению с плацебо, Better Weight снижает или увеличивает вес. (Гипотеза состоит в том, что добавка оказывает положительное или отрицательное влияние на вес.)

Цель состоит в том, чтобы увидеть, является ли эффект (здесь, на вес) вмешательства (здесь, добавка под названием Better Weight) лучше, хуже или такой же, как эффект контроля (здесь плацебо, но иногда контроль — это другое, хорошо изученное вмешательство; например, новое лекарство может быть изучено в сравнении с эталонным лекарством).

С этой целью исследователи обычно перед испытанием устанавливают порог значимости (α). Если в конце испытания значение P (p) по результатам меньше или равно этому порогу (p ≤ α), существует значительная разница между эффектами двух изученных видов лечения. (Помните, что в данном контексте «значимый» означает «статистически значимый».)

Порог статистической значимости

Наиболее часто используемый порог значимости составляет 5% (α = 0,05). Это означает, что если основная гипотеза (т. е. идея об отсутствии различий между видами лечения) верна, то, повторив эксперимент бесконечное число раз, исследователи получат ложноположительный результат (т. е. обнаружат значительный эффект там, где его нет) не более чем в 5% случаев (p ≤ 0,05).

Как правило, P-значение является мерой согласованности между результатами исследования и идеей о том, что два метода лечения имеют одинаковый эффект. Давайте посмотрим, как это будет выглядеть в нашем испытании по снижению веса Better Weight, где одним из методов лечения является добавка, а другим — плацебо:

• Сценарий 1: P-значение равно 0,80 (p = 0,80). Результаты больше согласуются с основной гипотезой (т. е. с идеей об отсутствии различий между двумя методами лечения). Мы пришли к выводу, что Better Weight не оказал существенного влияния на потерю веса по сравнению с плацебо.

• Сценарий 2: P-значение равно 0,01 (p = 0,01). Результаты больше согласуются с альтернативной гипотезой (т. е. с идеей о том, что между двумя методами лечения существует разница). Мы пришли к выводу, что Better Weight оказал значительное влияние на потерю веса по сравнению с плацебо.

Значимым результатом является р = 0,01, равно как и р = 0,000001. Так какую же информацию содержат меньшие значения величины р? Они дают нам большую уверенность в результатах. В нашем примере значение р, равное 0,000001, дало бы нам большую уверенность в том, что Better Weight оказывает существенное влияние на изменение веса.

Помните, что значительный эффект может не быть клинически значимым. Предположим, что мы обнаружили значимый результат р = 0,01, показывающий, что «Лучший вес» способствует потере веса. Вывод: «Лучший вес» способствовал большей потере веса только на 0,2 кг (0,5 фунта) по сравнению с плацебо за год применения — разница слишком мала, чтобы иметь какое-либо значительное влияние на здоровье. В этом случае, хотя результат значим, реальный эффект статистически слишком мал, чтобы оправдать прием этой добавки. (Этот тип сценария более вероятен, когда исследование делается довольно большим, поскольку, как мы уже обсудили, чем больше выборка исследования, тем больше оно позволяет определить, будут ли небольшие эффекты значимыми).

Наконец, следует отметить, что, хотя наиболее часто используемый порог значимости составляет 5% (р ≤ 0,05), некоторые исследования требуют большей точности. Например, чтобы генетические эпидемиологи сочли, что генетическая ассоциация статистически значима (скажем, могли определить, что ген связан с увеличением веса), порог значимости обычно устанавливается на уровне 0,0000005% (р ≤ 0,000000005), что соответствует получению всех орлов при 28 бросках монеты. Вероятность этого составляет 0,00000003%.

Величина P: не абсолютная истина

Наконец, имейте в виду, что, хотя P-значения и важны, они не являются последним словом в вопросе о том, верны ли выводы исследования.

Мы видели, что исследователи, слишком стремящиеся найти эффект в своем исследовании, могут прибегнуть к «выемке данных». Они также могут пытаться снизить P-значения различными способами: например, они могут проводить разные анализы одних и тех же данных и сообщать только о значимых P-значениях, или они могут набирать все больше и больше участников, пока не получат статистически значимый результат. Эти плохие научные методы известны как «p-hacking» или «выборочное сообщение». (Вы можете прочитать о реальном примере этого здесь.)

В то время как статистический анализ исследования обычно учитывает переменные, которые исследователи пытались контролировать, на P-значения также могут влиять (преднамеренно или нет) дизайн исследования, скрытые искажающие факторы, типы используемых статистических тестов и многое, многое другое. Оценивая силу дизайна исследования, представьте себя на месте исследователя и подумайте, как вы могли бы повлиять на исследование, чтобы оно говорило то, что вы хотите, и в процессе продвинуться по карьерной лестнице.

Результаты исследования

В заключение исследователи обсуждают первичный результат или то, что их заинтересовало больше всего.

Обычно в этом разделе представлены таблицы и графики.
И этот раздел интересует нас только при условии, что нас устроила секция «материалы и методы». При скрининге статьи можно посмотреть только таблицы и рисунки, при повторном прочтении – детали в тексте.
Все толковые результаты предоставляются в графическом варианте, их так проще воспринимать.

Пропустить сразу этот раздел после прочтения резюме может быть заманчиво, но это часто приводит к неправильному толкованию и распространению ложной информации. Никогда не читайте результаты, не прочитав сначала раздел «Методы»; знание того, как исследователи пришли к заключению, так же важно, как и само заключение.

Первое, на что следует обратить внимание в разделе «Результаты», — это сравнение характеристик между тестируемыми группами. Большие различия в исходных характеристиках после рандомизации могут означать, что две группы действительно несопоставимы. Эти различия могут быть результатом случайности или неправильного применения метода рандомизации.

Исследователи также должны сообщать о показателях отсева и соблюдения требований. Жизнь часто встает на пути науки, поэтому почти в каждом испытании есть доля участников, которые не закончили испытание или не выполнили инструкции. Это особенно часто встречается в испытаниях, которые являются длительными или испытания с ограничениями (например, диеты). Тем не менее, слишком большая доля отсева или несоответствующих требованиям участников должна вызывать недоумение, особенно если в одной группе процент отсева намного выше, чем в другой группе.

Ученые используют анкеты, анализы крови и другие методы сбора данных, которые можно отобразить в виде диаграмм и графиков. Обязательно проверьте по вертикальной оси (ось Y) масштаб, в котором представлены результаты; то, что на первый взгляд может показаться большим изменением, на самом деле может быть очень незначительным.

В нашем испытании по снижению веса Better Weight добавка привела к снижению веса всего на 0,2 кг (0,5 фунта) по сравнению с плацебо через год. Однако, изменив ось Y, мы можем сделать этот непримечательный результат более впечатляющим:

Манипуляции с осью

Раздел «Результаты» также может включать вторичный анализ, такой как анализ подгруппы или анализ чувствительности.

Анализ подгруппы. Как мы видели в конце раздела «Вмешивающиеся факторы», он состоит в повторном выполнении анализа, но только на подмножестве участников. Например, если в вашем исследовании участвовали как мужчины, так и женщины всех возрастов, вы можете провести анализ только на данных «женщин» или только на данных «старше 65», чтобы увидеть, получите ли вы другой результат.

Анализ чувствительности. Вы можете проверить, остаются ли результаты такими же, когда вы выполняете другой анализ или когда, как в анализе подгруппы, вы исключаете некоторые данные (например, в метаанализе вы можете убрать одно исследование и снова провести метаанализ) и снова проводите анализ.

Как мы видели в разделе «Демография», надежность исследования зависит от размера его выборки. Если вы исключите некоторых участников из своего анализа, размер выборки уменьшится, и может увеличиться риск ложных результатов. Это также означает, что если вы достаточно поиграете с данными, вы можете в конечном итоге получить положительный результат.

Например: скажем, исследователю платят за доказательство того, что Better Weight работает. Он протестировал Better Weight на 20 участниках обоих полов в возрасте от 21 до 87 лет. Увы, из этих 19 участников только один похудел. Это оказалась женщина в возрасте 65 лет. Исследователь мог решить провести анализ подгруппы, исключая всех мужчин, а также всех людей моложе 65 лет. Затем он мог сделать вывод, что Better Weight эффективен для женщин в возрасте 65 лет.

Данные должны быть представлены в таблице и коротко в тексте.
Для рандомизированный исследования: дополнительная блок-схем, каким образом набралось то количество пациентов, которое вошло в итоге в исследовании (столько выбыло и вот на таком количестве оценивались результаты).
Насколько эти пациенты соответствуют тем, что вы встречаете в своей практике.
Представляемые параметры должны соответствовать заявленным в «материалах и методах» (не больше и не меньше!)
Должна присутствовать логика изложения: от наиболее важного исхода (первичный) к остальным исходам (вторичные) и подгрупповому анализу.
Наиболее важные исходы представлены в нескольких вариантах: текст, таблица и график (возможно). Соответствует ли то, что тексте, то и в таблице?
Насколько сильно вас «удивляют» результаты (их соответствие имеющимся данным, вашему опыту)? Если что-то экстраординарное, раньше никогда не работало, что противоречит банальным законам физики, биологии, надо поискать что-то еще, вернуться во введение и посмотреть, как они обосновывают.
Соответствует ли число пациентов, вошедших в расчеты, числу пациентов, включенных в исследование, и объяснено ли их выбывшие? (Включили 200 человек, но результаты на 100, а куда делись те 100? Если им стало хуже на фоне исследования, должно быть написано. Если этой информации нет, ценность падает).
Соответствуют ли графические результаты текстовым?

Обсуждение

Иногда вывод делится на «Результаты» и «Обсуждение».

В разделе «Обсуждение» авторы излагают ценность своей работы. Они также могут прояснить свою интерпретацию результатов или выдвинуть гипотезу о механизме действия (т. е. о биохимии, лежащей в основе эффекта). Часто они сравнивают свое исследование с предыдущими и предлагают новые эксперименты, которые можно провести на основе результатов их исследования. Крайне важно помнить, что отдельное исследование — это всего лишь часть общей головоломки. Какое место это занимает в совокупности доказательств по этой теме?

Авторы должны указать сильные и слабые стороны своего исследования. Рассмотрите их критически. Справились ли авторы с обеими задачами? Они упустили критическое ограничение? Вам не нужно принимать их отчеты за чистую монету — проанализируйте их.

Как и введение, заключение обеспечивает ценный контекст и понимание. Если вам кажется, что исследователи экстраполируют демографические данные, выходящие за рамки их исследования, или завышают результаты, не бойтесь перечитывать исследование (особенно раздел «Методы»).

Это не литературный обход и не рассуждения на тему...!
Как авторы интерпретируют полученные результаты?
Какие иные имеющиеся данные по вопросу они приводят?
Обсуждаются ли данные и факты, не имеющие отношения к собственным данным авторов?
Какие преимущества и ограничения своей работы приходят авторы?
Можно ли и каким образом применить полученные результаты на практике или для генерации дальнейших знаний?
Соответствуют ли выводы выполненной работе?
«Боимся» лозунгов!
«Боимся» «водянистых фраз» («не вызывает сомнения, что мультидисциплинарный подход с включением интонационных методик позволяет улучшить…»)

Конфликт интересов

Конфликты интересов (Conflicts of interest – COI), если они существуют, обычно раскрываются после заключения. COI может возникнуть, когда люди, которые разрабатывают, проводят или анализируют исследования, имеют мотив для получения определенных результатов. Наиболее очевидным источником COI является финансовый — например, когда исследование спонсируется компанией или когда один из авторов работает на компанию, которая получит от исследования определенный эффект.

К сожалению, одно исследование показало, что нераскрытие COI довольно распространено. Кроме того, то, что считается COI одним журналом, может не считаться другим, и некоторые журналы сами могут иметь COI, но не обязаны их раскрывать. Журнал из страны, которая экспортирует большое количество определенного растения, например, может иметь скрытые стимулы для публикации исследований, подтверждающих пользу этого растения — так что вы можете предположить, что конфликта интересов нет, потому что исследование посвящено растению, а не какому-то конкретному продукту.

COI должны быть тщательно оценены. Не предполагайте автоматически, что их не существует только потому, что они не разглашаются, но также не предполагайте, что они обязательно влияют на результаты, если они существуют.

В поисках правды

Как мы видели в разделе «Демография», результаты исследования редко применимы ко всем. Например, первые исследования глютамина были проведены на пострадавших от ожогов, у которых вследствие травмы наблюдается дефицит этой аминокислоты. Последующие исследования показали, что люди, у которых нет дефицита глютамина, не получат таких же преимуществ, как пострадавшие от ожогов.

На применение результатов исследования могут повлиять многие факторы

Намеренный выбор определенной демографической группы имеет смысл для исследователей, которые ищут способ помочь определенному типу пациентов, но это также может быть стратегией для достижения определенных результатов, поэтому нередко новые «сжигатели жира» быть подтверждены исследованиями, в которых участвовали только женщины с избыточным весом в постменопаузе. Когда этот тип информации исключается из реферата, а затем журналисты пропускают раздел «Методы» (или даже всю статью), люди в конечном итоге вводятся в заблуждение.

Не верьте, что СМИ читают исследование целиком. Исследование, в котором оценивалось качество доказательств диетических рекомендаций, приведенных в национальных газетах Великобритании, показало, что от 69% до 72% заявлений о пользе для здоровья были основаны на недостаточных или неполных данных. Чтобы уложиться в сроки, перегруженные работой журналисты часто полагаются на пресс-релизы исследований, которые нередко не дают точного обобщения результатов исследований.

В заключение следует отметить, что заменить самостоятельное прочтение исследований невозможно, поэтому, если вы сомневаетесь, перечитайте раздел «Методы», чтобы лучше оценить его сильные стороны и потенциальные ограничения.

Базовый чек-лист

В данном руководстве мы рассмотрели многое, поэтому предлагаем вам простой список вопросов, который будет под рукой всякий раз, когда вы решите изучить научную работу, посвященную питанию.

В чем суть главной гипотезы? (На какой вопрос пытается ответить данное исследование?)

Указана ли в исследовании четко и ясно его структура?

— К какому типу относится данное исследование?

— Как долго длилось исследование?

— Какими были первичные и вторичные референсные точки?

Если это клиническое исследование, то сможете ли вы сделать о нем все необходимые выводы по сопроводительной информации к статье?

— Было ли оно рандомизированным? Как именно?

— Было ли оно слепым? Было ли оно одинарным, двойным или тройным?

— Какое лечение было проведено? (Имеются ли достаточные сведения о том, какое лечение получали и не получали экспериментальная и контрольная группы?)

Какие демографические группы изучались?

— Какой размер выборки? (Сколько участников были включены?)

— Были ли четко определены условия включения в исследование или исключения участников?

— Как именно производился набор участников исследования?

Что показал анализ?

— Как много людей были исключены в каждой группе?

— Были ли результаты статистически значимы?

Применимы ли результаты к реальной жизни?

— Были ли результаты клинически релевантны?

— К кому может быть применимо данное исследование на основании изученной демографической выборки?

— Были ли дозировки реалистичными?

Были ли какие-либо побочные эффекты или нежелательные явления?

— Если да, то насколько они были выражены?

— Если да, то как часто они встречались?

Какими были основные источники возможной необъективности?

— Выбывали ли участники из групп равномерно? Почему?

— Следовала ли экспериментальная группа указаниям?

— Было ли исследование предварительно зарегистрировано, чтобы избежать исключения данных?

— Были ли конфликты интересов? Какие?

Автор – Александра Порошина, нутрициолог, спортивный нутрициолог, автор статей, специалист по коррекции веса в центре «МОЖНО Есть».
Амбассадор сообщества и главный редактор REformaPRO/выпускница Школы REforma.LIFE.

Материал создан для сообщества REformaPRO.

Ещё больше полезной и практикоориентированной информации в нашем ТГ-канале проекта REforma.LIFE и REformaPRO.

Руководитель школы – Ольга Тонкова-Кузнецова.