May 27, 2022

Обучение и развитие

Материалы консультаций Департамента исследований и методологии по анализу данных, которые прошли 24 и 26 мая

24 мая прошла консультация по формулировкам исследовательского вопроса для качественного социологического исследования в рамках мероприятий. Встречу провела Жанна Чернова, ведущий эксперт Департамента исследований и методологии.

На встрече обсуждали:

  • каким критериям должен отвечать хороший исследовательский вопрос в рамках качественной методологии и в зависимости от типа качественного исследования?
  • какие существуют способы улучшения начальной рабочей формулировки исследовательского вопроса и каких ошибок стоит избегать?

На основе примеров, релевантных для работы инспекторов Счетной палаты, разбирались рекомендации о том, как на практике вносить корректировки в начальную рабочую формулировку исследовательского вопроса. Для этого использовались примеры проведенных в рамках мероприятий социологических исследований.

Запись встречи доступна по ссылке (https://cloud.ach.gov.ru/f/1920009).

26 мая прошла консультация по анализу данных, которую проводил Егор Жевленев, аналитик Департамента исследований и методологии

На таких встречах можно:

  • обсудить собственные проекты и исследования по анализу данных
    неформально пообщаться на вольные темы, связанные с аналитикой данных
  • обсудить возникающие сложности, процессы работы с данными и их анализом, поделиться тем, что наболело в ходе работы

На мероприятии были подняты следующие вопросы:

Можно ли алгоритмизировать подход к заполнению пропущенных значений в датасете? Короткий ответ - нет, нельзя. В этой задаче бесчисленное множество тонкостей, и вписать их все в единую блок-схему, алгоритм или методику невозможно. Стандартные методы заполнения пропусков (например, заполнение средним или наиболее часто встречающимся значением) пригодны далеко не всегда - в основном, когда пропуски данных полностью случайны и не имеют какого-то особого паттерна, а количество пропусков сравнительно невелико.

Можно ли опираться на смоделированные данные, и насколько обоснованными являются выводы, сделанные с их использованием? Нередко получается так, что если выбросить все пропущенные значения, то это внесет большее искажение в конечный результат, чем при заполнении пропусков на основе некоторого простого алгоритма (например, линейная модель на основании других известных переменных). Такой алгоритм должен иметь смысл, а его результаты - быть обоснованными и реалистичными.

В чем смысл предположения о том, что данные пропущены полностью случайно Это предположение означает, что пропуски нельзя объяснить, исходя из других переменных, фигурирующих в датасете, а для заполнения можно воспользоваться, например, эмпирическим распределением. Если же мы предполагаем, что пропуски не случайны, то их моделирование - отдельная задача, предполагающая знание «физики процесса»: почему предполагается, что эти пропуски не случайны, и как это можно исправить? Такая задача не имеет общего решения, и в каждом отдельно взятом случае должна решаться по-своему.

Запись встречи доступна по ссылке (https://cloud.ach.gov.ru/f/1921465).

Ждем вас на следующих консультациях по анализу данных как в онлайн, так и в офлайн-формате. Есть что обсудить - приходите!