«Все резко выздоровели к началу июля — к голосованию. А потом все пошло на самотек»

Специалист по анализу данных — о том, как российские власти считают заразившихся коронавирусом. И почему это вызывает вопросы

Иллюстрация: Ксения Чапкевич

Согласно официальной статистике, в этом году коронавирусом заразились более миллиона россиян. Чтобы лучше понимать, как развивается пандемия, Алексей Куприянов — историк науки, в прошлом доцент департамента социологии ВШЭ, специалист в области анализа данных — создал проект по мониторингу статистики в России. На протяжении девяти лет ученый анализировал явку и результаты выборов, замечая статистические аномалии, которые могут свидетельствовать о подтасовках. Теперь же он в ежедневном режиме отслеживает данные о коронавирусе и публикует их в открытой группе Watching COVID-2019.ru на Facebook. «Ротонда» поговорила с Алексеем Куприяновым о нестыковках в статистике, внезапном выздоровлении и избыточной смертности россиян.

— Когда и почему вы стали заниматься аудитом данных Роспотребнадзора по коронавирусу?

— Когда началась эпидемия, я посматривал на первую статистику в мире — в Китае, Европе — и понимал, что нас тоже это затронет. Пошли сообщения о коронавирусе из России. Роспотребнадзор публиковал тогда лишь какие-то сухие бюллетени, и их тоже было не всегда возможно найти. Первые сообщения шли из газет. 14 марта я собрал все эти сообщения и нарисовал, возможно, первый график в России. Может, в наших ведомствах его тоже рисовали, но никому не показывали. А я увидел экспоненту и понял, что ситуация не контролируется, скоро больных будет намного больше, появятся смертельные случаи. Экспонента росла быстро, период удвоения был два-три дня, и это значило, что вирус бесконтрольно распространяется, а главное — мы опаздываем с осознанием этого факта.

— Как вы делаете графики?

— Я запускаю скрипты, которые берут информацию с сайта стопкоронавирус.рф (правительственный сайт с официальной статистикой. — Прим. ред.), преобразуют ее. Дальше запускаю статистическую программу, которая подхватывает эти данные, рисует графики и делает ежедневные отчеты. То есть я беру те же данные, [которыми оперируют власти], но досчитываю те показатели, которых мне недостает для понимания ситуации.

— Зачем их досчитывать?

— В таких процессах очень важна динамика. Как меняется и развивается ситуация, какие фазы проходит процесс. Например, на поздних стадиях эпидемии важно понимать не то, сколько заразилось с самого начала и сколько умерло, а сколько болеет сейчас на сотню тысяч людей.

— Но ведь на сайте стопкоронавирус.рф есть такие данные — в графе «Активные случаи».

— Да, но, во-первых, я начал показывать это раньше, чем они.Во-вторых, меня интересуют более полные данные. Не статистика за последний месяц, как показывает стопкоронавирус.рф, а в динамике и за все время. Они не отдают даже эти данные просто так: знаток выцепит эту строку с сайта в машиночитаемом формате JSON (текстовый формат обмена данными, основанный на JavaScript. — Прим. ред.), но простой смертный цифры в динамике за длительный период не увидит. У меня они есть, только потому что каждый день, что бы со мной ни случилось, я успеваю прогнать скрипты. Поэтому данные аккумулируются, накапливаются с начала эпидемии. Понятно, что аналогичную работу делают в других ведомствах и компаниях, например, в «Яндексе», есть и другие «волонтеры» вроде меня. Но стопкоронавирус.рф не дает такой информации. Это красивый сайт и, наверное, удобный, чтобы показывать какую-то отчетность начальству. Но с научной точки зрения — совершенно бессмысленный, потому что он не дает возможности для анализа.

И это только один из аспектов, а есть масса других, связанных с подозрениями либо о коллапсе системы сбора данных, которая не позволяет их собрать правильно, либо о намеренных фальсификациях.

Данные о заболеваемости коронавирусом в Москве с 31 января по 25 сентября. График предоставлен Алексеем Куприяновым
Данные о заболеваемости коронавирусом в Петербурге с 31 января по 25 сентября. График предоставлен Алексеем Куприяновым

— Нестыковки замечают многие. После того, как мэр Москвы Сергей Собянин 30 июля сказал, что число заболевших в день будет колебаться «в коридоре от 650 до 700 случаев», так оно и было до 22 августа. Эксперты — в том числе вы — отметили, что это противоречит законам статистики, и в данные сразу вернулась легкая вариация. Что еще можно подвергнуть сомнению, будучи специалистом по анализу данных?

— Любые избыточно сглаженные данные. Обратите внимание: в начале эпидемии количество ежедневно регистрируемых случаев колеблется: это довольно значительные скачки от 100 до 400 заболевших в день; с какого-то момента вариабельность исчезает — появляются гладкие ряды — горизонтальные «полки», плавные подъемы и плавные спуски.Возьмем данные по Петербургу: у нас все варьировалось, затем в середине мая количество зараженных стало около 360 — 390 в сутки, образовалась горизонтальная «полка», а потом данные стали настолько сглаженными, что вариация совсем исчезла. Естественным образом количество случаев должно либо расти, либо уменьшаться. А те, что нам показывают, лежат на одной горизонтальной линии с очень небольшой вариацией. Ну, не может так долго держаться одинаковое количество заболевающих. Не может оно расти и уменьшаться настолько плавно. 

К тому же, статистика по заболевающим завязана на результаты тестирования. Как обстоят дела с нынешними тестами — не знаю, но весной чувствительность теста ПЦР на коронавирус была порядка 80%. Результаты тестирования даже при одинаковом количестве тестов и одинаковом «реальном» числе заболевших в день неизбежно должны флуктуировать (случайно колебаться), потому что так устроена статистика. А у нас в большинстве регионов России наблюдаются такие «полки» и гладкие «горки». Часто они образовывались во время обеспечения голосования по поправкам в Конституцию.

— Но люди, которые занимаются коронавирусной статистикой, — они же тоже ученые, они могут понять, что она будет смотреться неестественно.

— Тут возможны два объяснения. Первое — они не очень хорошо ученые, а второе — ученые работают честно, а кто-то другое «причесывает» эти данные. Мы это уже знаем хорошо по выборам — у нас бывают совершенно безумные ситуации, когда фальсификация очевидна; есть классический пример Саратова, где на всех участках проголосовали 62,2% за Единую Россию. Я с 2011 года занимаюсь аудитом данных выборов и скажу, что это регулярная практика — есть лишь полтора десятка регионов, в которых выборы считают стабильно честно. Что характерно, некоторые из них являются относительно образцовыми в коронавирусной статистике.

— Какие?

— Их всего около десяти. Вот в Псковской области кривая все время прыгает: 40, 100, 30, 70 заболевших в сутки. Естественным образом собираемые данные всегда будут очень «шумными» — на возможность их регулярного сбора влияет масса обстоятельств. В Псковской области, я почти уверен, часть этих провалов вниз — выходные. Или возьмем Карелию — огромные скачки: от 10 до 60 заболевших в сутки. Естественной выглядит коронавирусная статистика также в Еврейской АО, Крыму, Калмыкии. В республике Алтай график как скакал, так и скачет. А в Алтайском крае все в какой-то момент вдруг замерло. В Иркутской области была вариабельность до середины лета. В Дагестане сейчас все ровно, а в Ингушетии постепенно нарастает — такое ощущение, что вначале там был коллапс с данными, а потом в них вернулась естественная вариабельность. Ужас в том, что, если данные один раз были сфабрикованы, дальше не очень понятно, что с ними делать и чему верить.

Данные о заболеваемости коронавирусом в республике Карелия с 31 января по 25 сентября. График предоставлен Алексеем Куприяновым
Данные о заболеваемости коронавирусом в Псковской области с 31 января по 25 сентября. График предоставлен Алексеем Куприяновым

— Как сейчас обстоит ситуация в Петербурге?

В Петербурге количество заболевающих то идет на одном уровне, то вдруг резко вырастает и снова устанавливается примерно на одном уровне. Какая-то неестественная история, как будто нам по частям «скармливают» рост заболеваемости.

Есть метод «скользящих средних», используемый для прогнозирования. Он сглаживает скачки в естественно варьирующемся ряде: вы устанавливаете рамки — считаете среднее значение данных с 1 по 7, потом с 2 по 8, с 3 по 9 и так далее; а потом даете эти средние значения на графике — так получается более плавная линия. Такое впечатление, что в Петербурге с середины мая нам показывают не сырую статистику, а прогноз по «скользящим средним» — как будто кто-то уже проделал работу по их составлению, при этом время от времени переходя от одного «сценария» развития ситуации к другому. Так не бывает, чтобы внезапно все обвалилось или внезапно выросло. Я предполагаю, что, в лучшем случае, происходит изменение учетной политики, о котором нам не говорят. 

— Возможно, в этом случае стоит ориентироваться на данные по смертности?

— Да, это важный показатель. Роспотребнадзор предпочитал не огорчать никого и какое-то время не публиковал данные о смертности от коронавируса: было только количество заболевших и выздоровевших. Но поначалу в газетах, а потом и на стопкоронавирус.рф эта информация была всегда. И как раз тут, по Петербургу, кажется, ничего искусственно не сглаживают — эти данные показывают довольно большую дисперсию: сначала все росло, в мае-июне был пройден пик, потом смертность начала идти на спад.

— Демографы и врачи предъявляют властям претензии, что коронавирус часто указывают как не основную причину смерти.

— Ну, да, можно такую претензию им предъявить. Но даже если так, они все равно показывают верную общую динамику. Размах будет меньше, но мы увидим рост, спад. Главное — при всех нареканиях, которые вызывала наша комиссия (комиссия в комитете по здравоохранению города по анализу летальных исходов от гриппа и тяжелых форм других ОРВИ, в том числе COVID-19. — Прим. ред.), продолжавшая учитывать весенние случаи еще летом, сейчас они, кажется, идут ноздря в ноздрю со временем.

— Можно ли ориентироваться на общие данные об избыточной смертности населения России, чтобы разобраться в ситуации? Если прогноз по смертности, сделанный согласно научным расчетам, не оправдывается — и умерших становится больше, это косвенно подтверждает развитие эпидемии.

— Избыточная смертность — хороший способ оценить размах явления. Но, к сожалению, она нам доступна в менее оперативном режиме: в конце первой недели месяца публикуют суммарное количество умерших за прошедший календарный месяц в целом (например, в начале сентября — за август).

— Исследователь Алексей Ракша, обработавший данные Росстата, ЕГР ЗАГС России и оперативных штабов по борьбе с коронавирусом, сообщает о 73 000 избыточных смертей с мая по июль 2020 года. При этом на коронавирус.рф указано, что за тот же период умерли около 14 000 пациентов с коронавирусом. Как объяснить такую разницу в цифрах данные о смертности пациентов с коронавирусом занижены?

— Оперативная регистрация не поспевает за развитием эпидемии, и размер урона мы осознаем только постфактум из данных по избыточной смертности, которые поступают из ЗАГСов в начале следующего месяца. Росстат отдает данные по смертности с 2006 года, и это большой промежуток времени, достаточный, чтобы определить коридор возможных значений смертности для данного месяца. Избыточную смертность можно рассчитать, опираясь на разные методики (сравнение со средним по месяцу за последние несколько лет или сравнение с трендом по месяцу за последние несколько лет), но результаты оказываются близкими.Там, где избыточная смертность была тщательно изучена (например, в Москве) почти вся она приходится на коронавирус или осложнения, связанные с ним.Таким образом, Алексей Ракша говорит о данных, которые мы узнаем постфактум и видим в них больше серьёзного урона, чем в оперативных данных, при формировании которых на пике эпидемии просто не успевают учитывать все смертные случаи, связанные с коронавирусом (и тщательно чистят их, разделяя «несомненные» «от коронавируса» от «с коронавирусом» или, например, пневмониями / тромбозами неясного происхождения). Оперативные данные, с другой стороны, не корректируются ретроспективно (и мы так и остаемся с заниженным числом случаев, как оно было, когда их спешно и неполно учитывали).Нельзя ли объяснить нестыковку в данных тем, что с июня власти поменяли систему подсчета смертности от коронавируса — стали учитывать все случаи смерти пациентов с пневмонией?Тогда мы бы увидели всплеск смертности от коронавируса, но этого не было. Для себя они, может, как-то еще считают, но нам не показывают.

— Возможно, избыточная смертность связана с тем, что в большинстве регионов летом была аномальная жара? Например, в Центральной России в июле температура была выше нормы на 5-7°С, на Урале и в Западной Сибири — на 6-8°С.

- Для этого надо доказать, что люди умерли от жары. Я видел отчеты — там этого не было. Пусть региональные власти отчитаются, проведут расследование — мы увидим.

Есть еще одна популярная страшилка о том, что люди умирают, потому что силы медиков брошены на борьбу с COVID-19, а остальные заболевания — в пренебрежении. Но могу сказать, что это было не очень заметно, даже когда у нас была острая фаза эпидемии. Нет всплеска умерших не от коронавируса.

— Вы знакомы с официальным мнением по поводу этой нестыковки? Как власти объясняют десятки тысяч «лишних» смертей в 2020 году?

— Никак не объясняют. Они отчитываются перед всемирной организацией здравоохранения и международными структурами, но не перед нами. Они могут делать все, что угодно. Проблема том, что это некоторые завышенные ожидания от наших властей — мы ждем, что в этой ситуации они начнут себя вести как-то иначе, чем в остальных ситуациях.

В этом смысле региональные штабы находятся в какой-то мере в оппозиции к федеральному Роспотребнадзору, потому что они указывают больше смертей не только от коронавируса, но и с ним, дополнительно сообщают о внебольничных пневмониях. 

— Если перейти к разговору о текущей ситуации — позволяют ли ваши наблюдения делать выводы о второй волне коронавируса в России?

Россию невозможно анализировать как цельный юнит. Наши регионы географически разобщены, транспортная инфраструктура чудовищно недоразвита — именно поэтому эпидемия развивалась так медленно, несмотря на отсутствие внятных мер со стороны правительства. Есть и международный, и наш проект по отслеживанию того, как вирус меняется, — было выстроено генеалогическое древо штаммов. У нас почти нет китайской линии: есть Европа, Америка, даже Саудовская Аравия, но не Китай. Мы могли бы ввести медицинский карантин по китайскому сценарию, но дали эпидемии расползтись по всей стране. Это заняло недели! Если мы — авторитарная страна, и у нас есть ресурсы, чтобы подделывать выборы, то почему нет ресурсов на то, чтобы бороться с вирусом?

В общем, рассматривать эпидемическую ситуацию можно только обращаясь к отдельным регионам. Потому что даже в таких недалеких друг от друга регионах, как Карелия и Псковская область, динамика достаточно сильно отличается. Там есть свои волны эпидемии. Это иллюзия, что у нас есть какая-то вторая волна. Эпидемия — это вообще волнообразные процессы, которые идут сейчас везде. В некоторых регионах волн уже было две или три, просто они не такие сильные, как первая. Отчасти замедлению роста послужила общая встревоженность населения: люди стали следить за здоровьем, носить маски, вести себя осторожнее. Это затормозило процесс, возможно, лучше, чем судорожные половинчатые решения нашего правительства.А если говорить о Петербурге?Мне сложно оценивать. С мая статистика по заболевшим не вызывает никакого доверия. Единственное, что осталось, — данные по смерти. В начале сентября я увидел начало их роста — и написал об этом. Если есть увеличение смертности, значит, рост новых случаев должен был начаться за неделю-две до того. Одна-две недели — это время, которое обычно проходит от выявления вируса до смерти. Если посмотреть на кривые заболеваемости и смертности, то в хорошо прописанных случаях разница между пиками примерно этому соответствует. При этом рост заболеваемости в Петербурге, предшествовавший росту смертности, нам не показывают — мы сейчас на очередной «полке», чуть более высокой, чем была прежняя. К тому же, у нас сформировался так называемый «дагестанский отскок»: все резко выздоровели к началу июля — к голосованию, а потом все пошло на самотек.

— Что такое «дагестанский отскок»?

— Это выглядит так: с какого-то момента все внезапно выздоравливают — число заболевших за пару недель падает почти до нуля, а потом все, наоборот, начинают очень долго болеть. В Дагестане это случилось в мае, в остальных регионах [это происходило] часто, но не обязательно к выборам. Возможно, в Дагестане был коллапс учета, но все равно к реальности это отношения не имеет. Только что «дагестанский отскок» прошла Астраханская область. В Чувашии все резко выздоровели в августе, в Екатеринбурге — в конце июля. В Татарстане «отскок» сформировался к июню, в Кировской области к июлю все выздоровели, потом заболели еще хуже, чем было. Скорее всего, это означает, что какие-то параметры подкручивают, когда надо срочно понизить число активных случаев.

— Возможно, летом просто улучшилась погода — вот больные и стали выздоравливать?

— Ну, с чего вдруг люди начинают болеть меньшее количество дней? Самый анекдотический случай был в Марий Эл. Отрицательное число больных! Они выздоравливали впрок. У них 26 июня было минус двенадцать больных. Такими данными оперировать невозможно!

Данные о заболеваемости коронавирусом в републике Дагестан с 31 января по 25 сентября. График предоставлен Алексеем Куприяновым

— Как же понять, какова ситуация по коронавирусу в Петербурге?

— Есть исследование, которое провели Европейский университет и сеть клиник «Скандинавия», — антитела обнаруживаются у 10-13% петербуржцев. А это, на минуточку, в пересчете на население, 500-700 тысяч человек, которые переболели коронавирусом. Да, в этом исследовании приняли участие не все, на кого пал случайный выбор. Как и во всяком социологическом «опросе», тут требовалось добровольное согласие. Однако некоторые параметры отказавшихся учитывались, так что их можно сравнить с согласившимися и частично скорректировать систематическое смещение, связанное с корреляцией согласия на участие с социально-демографическими показателями. Так что результаты исследования ЕУСПб и «Скандинавии» можно довольно смело экстраполировать на всю городскую популяцию. Они, разумеется, не сходятся с тем, что показывает нам стопкоронавирус.рф, который я мониторю.

— Вы делаете свой аудит в одиночку или с командой? Не планируете объединить результаты с каким-либо еще исследованием?

— Да, я делаю это один. Я выступал с докладом в Высшей Школе Экономики для политологического проекта по исследованию ситуации в разных регионах в зависимости от введения разных мер: ограничений, пособий. Следующий этап: добавить в мои скрипты еще какое-то количество параметров — и можно сделать вполне академический проект. Но, во-первых, у меня нет на это сил, а, во-вторых, мои научные интересы лежат в других плоскостях, для меня это скорее гражданская миссия.

— Как долго вы готовы этим заниматься?

До тех пор, пока не закончится эпидемия, пока я буду жив. Пока стопкоронавирус.рф будет публиковать статистику — буду брать ее у них. Перестанут, значит, останутся газеты — буду брать данные оттуда. Не останется ничего — ну, придется прекратить. 

Беседовала Марина Арсёнова

Иллюстратор: Ксения Чапкевич