Як можуть помилятись наукові дослідження

Доказова медицина покладається на результати статистичних клінічних досліджень, в яких дотримується принцип рандомізації, використовується подвійний сліпий метод і є контрольна група, яка отримує плацебо. Але навіть такі добре організовані дослідження можуть призводити до некоректних висновків. Позитивні результати попередніх клінічних випробувань часто спростовуються наступними, більш масштабними дослідженнями.

Окремі дослідження часто помилкові, але це не означає, що їх не варто брати до уваги. Наука - це спільна робота безлічі вчених. Згодом результати одних дослідників можуть спростовувати, і це просуває науку в цілому ближче до істини. Головне правило - ніколи не довіряти окремим дослідженням. Варто почекати, коли їх повторять, підтвердять, перевірять узгодженість з усіма іншими аналогічними даними. І навіть після цього необхідно враховувати апріорну ймовірність, тобто поширеність досліджуваного стану в групі випробуваних до проведення дослідження.

Важливі правила:

Інформації в ЗМІ довіряти не можна - журналісти часто не розуміються в науці, а всього-на-всього бездумно повторюють прес-реліз
Навчіться виявляти помилки - часто повторюються одні й ті ж помилки
Ніколи не довіряйте одним дослідженням - потрібно врахувати всі дані - і за, і проти
Апріорна ймовірність важлива - базові принципи статистики не можна ігнорувати

Спеціаліст з доказової медицини Джон Іоаннідіс в своїй статті показав, що багато результатів досліджень є некоректними, особливо в наступних випадках:

- дослідження проводилося на невеликій вибірці;
- виявлено слабкий ефект експериментального впливу;
- вибрано безліч кінцевих точок (тобто безліч параметрів, за якими виноситься судження про ефективність лікування);
- автори мають фінансовий інтерес до результатів дослідження або упереджене ставлення з інших причин;
- тема популярна і викликає конкуренцію серед дослідників;
- дослідження присвячене сумнівним напрямкам альтернативної медицини.

Руфус Баузелл в своїй книзі «Snake Oil Science» пропонує чек-лист з чотирьох пунктів для швидкої перевірки клінічного дослідження:

- Дослідження рандомізоване, з достовірною контрольною групою?
- У кожній групі не менше 50 випробовуваних?
- З дослідження вибуло не більше 25% випробовуваних?
- Результати опубліковані в якісному престижному журналі, що рецензується? (Можна перевірити цитованість наукового журналу).
- Якщо всі чотири пункти виконуються, це ще не гарантує достовірність результатів. Але якщо виявлено невідповідність деяким пунктам - результати дослідження викликають ще більше сумнівів.

Важливі питання і відповіді на них:

Дослідження виконано на людях або на дрозофiлах? Результати досліджень на тваринах або культурах клітин не завжди застосовні до людей
Хто обраний в якості піддослідних? Група репрезентативна? Чи є упередженість в вибірці?
Хто фінансує дослідження? Це може стати причиною необ'єктивності
Чи можуть автори бути упередженими? Придивіться, чи немає конфлікту інтересів
Чи правильно проведена рандомізація? Групи дійсно можна порівняти?
Чи правильно реалізований подвійний сліпий метод? Чи могли випробовувані здогадатися, з якої групи вони були - контрольної або експериментальної? Підтверджено це опитуванням після закінчення дослідження?
Було вибрано безліч кінцевих точок? (Цей і наступний пункт називаються «p-хакінг» - обробка даних, при якій результати штучно стають статистично значущими). Якщо так, то чи було зроблено відповідне статистичне коригування?
Аналіз даних проведено коректно? Іноді висновки дослідження негативні, але в процесі аналізу дані спотворюють до тих пір, поки вони не будуть показувати хоч який-небудь позитивний результат
Де було проведено дослідження? Дослідження, проведені в Китаї, викликають підозри, тому що вони рідше показують негативні результати
Значущі результати для клінічного використання? Статистична значимість ≠ клінічна значимість
Чи відповідають висновки результатами? Іноді не відповідають.
Вивчалося щось реально існуюче? "Науки про зубних фей" вивчають уявні речі - зубних фей, акупунктурні точки, енергетичні поля людини
Чи було це «практично значущим» дослідженням? «Практично значущі» дослідження не призначені для обгрунтування ефективності. Лікування з недоведеною ефективністю, але сильним ефектом плацебо можуть здаватись кращим, ніж перевірене лікування

Як ще все може піти не так:

математичні помилки;
використання статистичних методів, непридатних для отриманих даних;
наявність домішок або забруднень в перевіряємому препараті;
недостатній контроль за дотриманням вимог до умов проведення дослідження;
свідоме чи несвідоме підтасовування даних лаборантами;
неналежним чином виконані аналізи;
умисне шахрайство.

Ще дві речі, про які варто пам'ятати:

Ніколи не приймайте твердження за правду, поки не дізнаєтеся, хто з ним не згоден і чому.
Ніколи не забувайте питати самого себе, чи не упереджені саме ви?