Инструменты исследовательского анализа данных (EDA)
Введение
Исследовательский анализ данных (EDA) — это подход анализа, в котором используются различные методы (графические и количественные) для полного погружения в данные и лучшего их понимания. Он является неотъемлемой частью стандартного ворклфлоу в любом data science проекте, который в общем виде можно представить в виде следующих этапов:
- Получение данных.
- Очистка и загрузка данных.
- Исследовательский анализ данных.
- Построение моделей.
- Оценка моделей.
- Визуализация и представление результатов.
- изучение взаимосвязи между переменными (направление и приблизительная сила влияния);
- наличие выбросов;
- выбор наиболее важных переменных;
- проверка основных гипотез.
А ниже мы рассмотрим классификацию основных его инструментов.
Классификация методов EDA
Методы EDA могут быть либо графическими, либо количественными. Каждый из этих методов, в свою очередь, может быть одномерным, либо многомерным (обычно просто двумерным). Количественные методы обычно включают в себя расчет сводных статистических данных. Графические методы обобщают данные в виде диаграмм и графиков. Одномерные методы рассматривают одну переменную (столбец данных) за раз, в то время как многомерные методы рассматривают две или более переменных одновременно, чтобы исследовать взаимосвязи. Таким образом, существует четыре типа методов EDA:
Неграфические и графические методы дополняют друг друга. Графические методы больше обеспечивают субъективный (экспертный) анализ, а количественные — объективны.
Одномерные неграфические инструменты
Одномерные неграфические методы EDA направлены на изучение распределения выборки и на выводы о генеральной совокупности. Обнаружение выбросов так же сюда входит. Для одномерных категориальных данных нас интересуют спектр принимаемых значений и их частотность. Одномерный EDA для количественных данных предполагает расчет мер центральной тенденции, разброса, асимметрии и поиск выбросов. Меры центральной тенденции включают среднее значение, медиану и моду. Наиболее распространенным показателем центральной тенденции является среднее значение, но при ненормальном распределении и при наличии выбросов, более предпочтительна медиана. Показатели разброса включают дисперсию, стандартное отклонение и межквартильный размах, они показывают как сильно значения отклоняются от своего среднего. Одномерный EDA также включает в себя расчёт коэффициента асимметрии и эксцесса.
Одномерный графические инструменты
Для графического анализа одномерных категориальных данных обычно используются столбчатые диаграммы. По ним мы можем оценить частоту (количество) значений для каждой категории в столбце. А для непрерывных величин обычно использую гистограммы, по которым можно легко оценить распределение признака, а также моды, разброс и выбросы. Гистограммы показывают сколько значений (или какая их доля) попадает в тот или иной интервал из общего диапазона значений. Как правило, таких интервалов выделяется от 5 до 30. Боксплоты так же хороши для этих задач, как и Q–Q plot.
Многомерные неграфические инструменты
Многомерные неграфические методы EDA обычно показывают взаимосвязь между двумя или более переменными в форме сводных таблиц и вычисляемых статистик. Для каждого значения категориального признака мы можем рассчитать статистику целевой переменной (например, среднее или медиану) и сравнить их между разными категориями. Для двух количественных переменных мы можем рассчитать ковариацию и/или корреляцию. Когда у нас много количественных переменных, то удобно построить матрицу корреляций.
Многомерные графические инструменты
Для категориальных многомерных величин наиболее часто используемым графическим методом является сгруппированная столбчатая диаграмма, где каждая группа столбцов — отдельный признак, а каждый столбец в ней — частота конкретного значения в нём. А для количественных переменных мы можем использовать диаграммы рассеяния, где одна переменная будет по оси Х
, другая — по оси y
, а каждая точка является объектом (строкой) в наборе данных. Как правило, факторная переменная располагается по оси X
. На такую визуализацию можно добавить дополнительные признаки в виде цвета/размера точек.
Заключение
EDA — это сложный и во многом субъективный подход. В этом посте классифицированы основные его методы, которые помогут вам максимально погрузиться в данные.
Источник: Data Science Central
Перевод и адаптация: Данил Гончаров