Аналитические циклы
Техника, будь то Excel, SQL, языки программирования или BI-инструменты – это всё очень увлекательные вещи, но всякое серьезное дело начинается с методологии. К примеру, в менеджменте существуют функции управления, которые многим известны: планирование –> организация –> мотивация –> контроль. На эти функции можно посмотреть, как на такой цикл, который позволяет понять, что нужно делать для успешного руководства командами и в каком порядке.
В аналитике тоже существуют свои циклы, которые превращают аналитический процесс из кустарного производства в конвейерное. Про эти циклы, а точнее про два конкретных – PPDAC и CRISP-DM, сегодня и поговорим.
PPDAC (problem, plan, data, analysis, conclusion).
Впервые цикл предложен в статье «Научный метод, статистический метод и скорость света» [1] в 2000 году. Более прикладное описание, с аналитической точки зрения, этому фреймворку можно прочитать у Шпигельхалтера [2]
Посмотрим, как можно применить этот цикл в HR аналитике на простом примере.
1. Проблема – компания теряет прибыль из-за нехватки персонала. Предполагаем, что мы может отыскать причины этого исследовав текучесть.
2. План – разрабатываем план исследования. К примеру, мы решили, что будем измерять метрики текучести, удовлетворенности персонала и eNPS (наш выбор определен доступными исследованиями по этой теме).
3. Данные – организуем сбор данных, которые нам понадобятся для ответа на вопрос, на постоянной основе в HR системах, обеспечиваем их чистоту и полноту.
4. Анализ – строим дашборд, визуализируем динамику метрик в различных вариантах и разрезах, выдвигаем и проверяем гипотезы о связях текучести, удовлетворенности, eNPS.
5. Заключение – интерпретируем результаты, даём заказчику рекомендации по снижению текучести. Получив ответ на этот вопрос, у нас могут возникнуть новые вопросы и цикл вновь начинается с определения проблемы.
CRISP-DM (Cross-Industry Standard Process for Data Mining).
Подход детально описан, что удивительно, также в 2000 году [3]
Рассмотрим и этот цикл с точки зрения задач HR аналитики.
1. Бизнес-анализ – компания хочет увеличить продажи. Заказчик обращается к нам с вопросом - как мы можем помочь? На этом этапе мы выдвинули гипотезу, что продажи связаны с опытом сотрудников.
2. Анализ данных – мы собираем, оцениваем качество и анализируем имеющиеся у нас данные об опыте сотрудников и их продажах. Определяем – помогут ли эти данные ответить на поставленный бизнесом вопрос. Предварительные результаты могут нас вернуть и на стадию бизнес-анализа и, возможно, мы переформулируем нашу гипотезу.
3. Подготовка данных – самый длительный этап любого аналитического цикла, мы должны подготовить наши данные, то есть собрать финальный набор данных (датасет). Принять решение, что убрать, что оставить, произвести очистку, решить, что делать с аномалиями и пустотами, отформатировать данные и т.д. Жутко скучно, но без этого в аналитике никак 😊
4. Моделирование – наконец-то мы строим модель, пусть в нашем случае это будет регрессия, которая предсказывает потенциальный уровень продаж кандидата на основе его опыта.
5. Оценка решения – теперь мы смотрим насколько модель позволяет ответить на поставленный бизнесом вопрос. Здесь мы можем столкнуться с ситуацией, когда наше решение нерабочее и не помогает решить проблему, тогда мы возвращаемся на первый этап – бизнес-анализ, и цикл начинается вновь.
6. Внедрение – в том случае, если наша модель показала хорошие результаты, мы внедряем её. Допустим при загрузке резюме в трекинговую системы компании по работе с кандидатами мы сразу будем видеть возможный уровень продаж того или иного кандидата.
Использование любого из подходов позволит превратить вашу аналитическую работу в систему с понятными шагами и последовательностью.
[1] R. Jock Maclay, R. Wayne Oldford. Scientific Method, Statistical Method and the Speed of Light.
[2] Шпигельхалтер Д. Искусство статистики.
[3] Colin Shearer. The CRISP-DM Model: The New Blueprint for Data Mining.