Онлайн-карта распространения коронавируса, созданная в университете Джонса Хопкинса
Сайт создали доцент университета и двое ее аспирантов в надежде на аудиторию максимум в сотню человек. В марте число визитов на сайт приблизилось к миллиарду. Как разрабатывали сайт и что его создатели думают об официальной статистике?
В январе
Лорен Гарднер, доцент инженерного факультета университета Джонса Хопкинса, общалась в университетской кофейне со своими аспирантами, описывает The Wall Street Journal. Разговор зашел о новом вирусе, вызвавшем эпидемию в Китае и начинавшем распространяться по миру. Один из учеников Гарднер, выходец из Китая Эньшэн Дун признался, что переживает за родных, оставшихся на родине.
Аспиранты предложили создать онлайн-карту заражений. Гарднер, которая исследует влияние транспортных систем на распространение болезней, их поддержала. Всего за день Гарднер и двое ее учеников разработали сайт, на котором разместили черную карту с красными точками, обновляющуюся в режиме реального времени. Сайт был запущен 22 января. Дун, будучи специалистом по географии и картографии, вручную вводил в систему данные, тратя на это от 13 до 15 часов в сутки после занятий.
«Мы думали, что будет очень круто, если несколько десятков или, к примеру, сто исследователей когда-нибудь захотят им [сайтом] воспользоваться», — рассказала Гарднер WSJ. Дун также надеялся, что впоследствии сможет использовать этот опыт для диссертации.
В марте, по данным SimilarWeb, сайт, созданный учеными, вошел в сотню самых посещаемых в мире. За месяц он набрал около 1 миллиарда визитов — больше, чем сайты социальной сети LinkedIn, телеканала CNN и крупнейшего в мире интернет-аукциона eBay.
4000 точек на экране
Изначально для сбора данных создатели проекта использовали другие агрегаторы данных, новости и Twitter. Основным источником информации в первое время был сайт DXY.cn — сообщество китайских медиков.
По мере того, как вирус распространялся за пределами Китая и росло число посетителей сайта, процесс работы стал более сложным. Помимо подсчетов по странам, исследователи начали отдельно собирать официальные данные о заболевших и умерших в городах и штатах США. По словам Гарднер, данные отслеживаются примерно по 7000 точек. Команду пришлось расширить — для этого привлекли других людей из университета.
Процесс по максимуму автоматизировали — теперь команда проекта, работающая удаленно, большую часть времени просто следит за поступающими данными. Информация на сайт поступает из десятков источников. Для выявления сомнительных данных используется «система обнаружения аномалий», говорит Гарднер.
Сбор данных усложняет то, что в некоторых странах мира стали менять официальные данные постфактум. В начале апреля Франция увеличила число зафиксированных летальных случаев более чем на 40%, указав ранее не учтенные смерти от вируса в домах престарелых. Менять данные об умерших также пришлось после того, как их пересчитали китайские власти.
Разная ситуация складывается и в разных штатах США. По данным университета, в Нью-Йорке проводится 6464 теста на 100 000 человек. А в Аризоне, например, только 1526 на 100 000. Когда речь идет о летальных исходах, некоторые штаты указывают в качестве предположительных смертей от вируса те, в случае с которыми умершие проявляли характерные симптомы, хотя так и не сдали тест. Другие штаты такие смерти в публичные доклады не включают.
Гарднер подчеркивает, что разрешение таких спорных вопросов — не задача ее команды. «Как я должна узнать, сколько предполагаемых случаев смерти среди всех 4000 точек на моем экране? Для меня это невозможно. Просто собирать данные, которые были опубликованы, — это уже достаточно сложно», — поясняет она.