Population Stability Index
Есть такая штука, называется Population Stability Index (PSI). PSI — это метрика оценивающая стабильность распределения данных. Использовать эту оценку можно по-разному. Этой оценкой активно пользуются в финтехе, как ключевой мерой дрифта признаков. Например, вы обучили модель риска во время экономического роста два года назад, а хотите применять эту модель на более актуальных данных, во время кризиса. Вам нужно оценить, насколько стабильно распределение ключевых признаков между двумя периодами и как это может повлиять на модель скоринга.
Допустим у нас имеется две выборки для некоторой оцениваемой переменной. Одна выборка это данные на которых обучалась модель (данные двух летней давности), вторая — более актуальные данные.
Как вы можете видеть выше, распределение тренировочной выборки (синий) немного сгладилось в распределении актуальной выборки (зеленый) и имеет более плоскую верхнюю часть кривой. Визуально видно, что распределение меняется, но хочется получить количественный способ измерить сдвиг, а не качественный — угадать, насколько я должен быть обеспокоен. Как раз PSI — это отличный способ измерить это.
Диапазон значений тренировочной выборки мы делим на 10 групп и подсчитываем количество значений в каждом сегменте для тренировочной и актуальной выборки, а затем делим на общее значение каждой из выборок, чтобы получить процент по каждому сегменту. В конечном итоге мы получаем распределение как мы могли видеть ранее, но дискретизированное.
PSI=∑((Actual - Expected)×ln(Actual/Expected))
Мы получаем окончательное значение PSI = 0,153, что указывает на то, что есть вероятность того, что наше распределение меняется. Как оценить ?
Оценить PSI
PSI < 0,1 - Без изменений. Вы можете продолжать использовать существующую модель.
PSI >=0, но менее 0,2 - Имеются несущественные изменения в распределении.
PSI >=0.2 - Требуется значительное изменение. В идеале, вы больше не должны использовать эту модель.
Материалы
https://www.lexjansen.com/EscapeEscapeHwuss/2017/47_Final_Paper_PDF.pdf