January 6, 2019

Нахождение выбросов

Помню, как-то давно я поднимал в канале ThinkCog тему нахождения выбросов. За мной тогда остался должок: литература и сопутствующая инфа. Возвращаю.

  1. Схиртладзе, Радкевич. Метрология, стандартизация и сертификация (со стр. 127 и далее)
  2. Тейлор. Введение в теорию ошибок (148 и далее, хотя всё интересно). Здесь хорошее объяснение критерия Шовене (самого простого, который переписать в код - минут 15).

Сами книги есть в канале + всегда можно обратиться ко мне.

По поводу пакетов: есть и на R, и на Python, но стандартных не нашел. Всё сделано умельцами в своих целях. Отсюда: проверяйте, на чем основан пакет, прежде чем использовать.

Для Python из наиболее понравившегося: расширение для sklearn, PyOD и outlier_utils.

Для R нашел функцию outlierTest в car, пакеты outliers, Anomalize и AnomalyDetection. Последние два заточены для временных рядов.

Тема, естественно, поднималась не только на уровне базовой статистики, но и для машинного обучения. Поэтому существует целый класс методов препроцессинга, которые можно применять, на самом деле, где угодно.

Ссылки для Python:

Ссылки для R:

Из опыта: если нужен метод, за который потом отвечать (на защите или просто перед совестью), берите попроще. Всё равно для корректной работы каждый требует настройки.

Удачной охоты на выбросы! :)