May 14, 2017

Data Dive - 1

Мы всей семьей поучаствовали в хакафоне для дата-аналитиков. Если вы вдруг не знаете, хакафон – это такой аналог марафона для программистов. Хакафон обычно длится довольно долго – например одни выходные, на него обычно собирается много людей и перед ними ставится конкретная задача: например, написать программу, которая например будет помогать какой-нибудь экологической организации (ровно такой хакафон был тут недавно у нас в окрестностях).

В нашем случае речь шла про анализ данных: на выходные должны были собраться дата-аналитики и проанализировать данные для благотворительных организаций, у которых собрано много данных, но нет дата-аналитиков.

Наш хакафон называлcя Дата Дайв (DataDive), его создала и придумала еще одна благотворительная организация, которая называется Дата Каинд (DataKind). У них есть шесть филиалов в разных частях света – два в Америке, два в Европе и два в Азии. Они занимаются организацией разного рода волонтерских мероприятий для анализа данных.

Для того, чтобы попасть на Дата Дайв благотворительной организации нужно заполнить заявку, в которой описывается, какого типа данные у них есть и как анализ этих данных поможет организации. Потом Дата Каинд выбирает из этих заявок четыре организации, для которых участие в Дата Дайве будет наиболее полезным.

Сам DataDive длился одни выходные – он начинался в пятницу вечером, самое главное происходило весь день в субботу и завершался в воскресенье в первой половине дня.

Однако, главная часть анализа данных состоит в предварительной подготовке данных, некоторые иногда даже говорят, что подготовка данных занимает 80% времени, а анализ только 20% времени. И поэтому для того, чтобы такое мероприятие было успешным, тоже нужна была предварительная подготовка. И нужны специальные люди, которые бы готовили данные заранее. Для этого в DataDive участвуют специальные волонтеры, которые начинают работать с данными за два месяца до ДатаДайва. Их роль называется Дата Амбассадор (Data Ambassador, и по-моему, перевести это хорошо невозможно). Я как раз была одним из таких Дата Амбассадоров.

Для этого нужно было заполнить специальную волонтерскую заявку. Я не знаю, проходил ли специальный дополнительный отбор среди желающих, или просто взяли всех, кто подал заявки. Примерно за два с половиной месяца до Дата Дайва нам прислали письмо, со списком выбранных для Дата Дайва организаций и их заявками.

Я была одним из трех Дата Амабассадоров организации, которая называется Хабитат фор Хьюманити (Habitat for Humanity). Эта организация занимается тем, что организует волонтеров для того, чтобы строить и ремонтировать дома для бедных и неимущих, а также проводит для них образовательные семинары, например, о том, как работает ипотека. У этой организации есть много филиалов в разных странах мира, мы анализировали данные, касающиеся 1,300 филиалов, расположенных в Америке.

В этот момент мне было совершенно непонятно, что же мы будем делать, потому что вопросы, на которые эта организация хотела получить ответ, были очень абстрактные, например был вопрос «Что приводит к успеху филиала?», и при этом не было определено, что такое успех филиала, и когда мы спрашивали представителей организации, что они считают успехом филиала, они сами не были уверены в том, какой правильный ответ на этот вопрос. Вторая сложность, которая перед нами стояла, состояла в том, что многие вопросы опирались на данные, которые сама организация не могла нам предоставить. Хабитат фор Хьюманити предоставляла нам информацию о том, сколько какой филиал построил домов за каждый год своего существования, сколько семинаров он провел и т.п. А вопросы касались, например, того, влияют ли на работу филиала климатические условия или то, насколько много малоимущих живет в этом районе. Или сколько люди в данном районе жертвуют на благотворительность.

Таким образом, во время подготовки к Дата Дайву остальные Дата Амбассадоры, работавшие с другими тремя организациями, занимались подготовкой и очисткой данных, а нам пришлось заниматься этим довольно мало: на наше счастье, данные, которые нам выдала Хабитат фор Хьюманити, оказались в довольно хорошей форме и нам понадобилось только перевести несколько таблиц в другой формат и попросить перезагрузить из базы данных одну из таблиц, у которой в процессе выгрузки съехали поля.

Основными же нашими задачами в процессе подготовки стали: найти и скачать данные из разных внешних источников – данные о погоде в разных регионах Америки, данные переписи населения, из которых можно выяснить, какой средний доход и образование у жителей в разных регионах, данные о пожертвованиях в различные благотворительные организации, и найти такие вопросы, на которые можно было ответить при помощи данных, которые нам предоставили и тех, которые нам удалось раздобыть.

Перед самим Дата Дайвом, был специальный день, когда собрались только Дата Амбассадоры всех участвующих организаций и большую часть этого дня мы потратили на то, чтобы придумать такие вопросы, на которые в принципе можно было бы ответить при помощи наших данных. На этом этапе мы сформулировали три задачи, две из которых впоследствии войдут в список наших финальных задач. Задачи эти были такие: 1) изучить разные параметры, которые могут свидетельствовать об успешной работе филиала, такие как количество построенных домов, количество проведенных программ и т.п.; посмотреть на те филиалы, которые показывают высокие показатели по этим разным параметрам 2) собрать демографические данные переписи для каждого региона (здесь регионы – это такие небольшие участки, на которые жителей делят во время переписи, каждый обычно содержит приблизительно 4000 человек, такие образом в густонаселенных городах регионы очень маленькие по площади, а в менее населенных пригородах могут быть гораздо большего размера), и найти регионы со сходными параметрами, и определить в регионах какого типа уже есть филиалы Хабитат фор Хьюманити, которые проводят успешную работу, и порекомендовать этой организации рассмотреть регионы такого же типа, в которых пока не ведется работа.

Обе эти задачи потом преобразовались в процессе работы, но в таком виде они существовали в тот момент. Третья задача, которая у нас имелась к тому моменту касалась корреляции между участниками программ конкретного филиала, не выполнившими обязательств по ипотеке, и другими параметрами, характеризующими работу этого филиала. Эта задача исчезла из списка наших задач после того, как мы обсудили эти задачи с представителями Хабитат фор Хьюманити, и в этом же процессе у нас появились новые задачи.

Продолжение следует.