Обучение и развитие
Материалы консультаций Департамента исследований и методологии по анализу данных, которые прошли 24 и 26 мая
24 мая прошла консультация по формулировкам исследовательского вопроса для качественного социологического исследования в рамках мероприятий. Встречу провела Жанна Чернова, ведущий эксперт Департамента исследований и методологии.
- каким критериям должен отвечать хороший исследовательский вопрос в рамках качественной методологии и в зависимости от типа качественного исследования?
- какие существуют способы улучшения начальной рабочей формулировки исследовательского вопроса и каких ошибок стоит избегать?
На основе примеров, релевантных для работы инспекторов Счетной палаты, разбирались рекомендации о том, как на практике вносить корректировки в начальную рабочую формулировку исследовательского вопроса. Для этого использовались примеры проведенных в рамках мероприятий социологических исследований.
Запись встречи доступна по ссылке (https://cloud.ach.gov.ru/f/1920009).
26 мая прошла консультация по анализу данных, которую проводил Егор Жевленев, аналитик Департамента исследований и методологии
- обсудить собственные проекты и исследования по анализу данных
неформально пообщаться на вольные темы, связанные с аналитикой данных - обсудить возникающие сложности, процессы работы с данными и их анализом, поделиться тем, что наболело в ходе работы
На мероприятии были подняты следующие вопросы:
Можно ли алгоритмизировать подход к заполнению пропущенных значений в датасете? Короткий ответ - нет, нельзя. В этой задаче бесчисленное множество тонкостей, и вписать их все в единую блок-схему, алгоритм или методику невозможно. Стандартные методы заполнения пропусков (например, заполнение средним или наиболее часто встречающимся значением) пригодны далеко не всегда - в основном, когда пропуски данных полностью случайны и не имеют какого-то особого паттерна, а количество пропусков сравнительно невелико.
Можно ли опираться на смоделированные данные, и насколько обоснованными являются выводы, сделанные с их использованием? Нередко получается так, что если выбросить все пропущенные значения, то это внесет большее искажение в конечный результат, чем при заполнении пропусков на основе некоторого простого алгоритма (например, линейная модель на основании других известных переменных). Такой алгоритм должен иметь смысл, а его результаты - быть обоснованными и реалистичными.
В чем смысл предположения о том, что данные пропущены полностью случайно Это предположение означает, что пропуски нельзя объяснить, исходя из других переменных, фигурирующих в датасете, а для заполнения можно воспользоваться, например, эмпирическим распределением. Если же мы предполагаем, что пропуски не случайны, то их моделирование - отдельная задача, предполагающая знание «физики процесса»: почему предполагается, что эти пропуски не случайны, и как это можно исправить? Такая задача не имеет общего решения, и в каждом отдельно взятом случае должна решаться по-своему.
Запись встречи доступна по ссылке (https://cloud.ach.gov.ru/f/1921465).
Ждем вас на следующих консультациях по анализу данных как в онлайн, так и в офлайн-формате. Есть что обсудить - приходите!