October 13, 2022

Инструменты исследовательского анализа данных (EDA)

Введение

Исследовательский анализ данных (EDA) — это подход анализа, в котором используются различные методы (графические и количественные) для полного погружения в данные и лучшего их понимания. Он является неотъемлемой частью стандартного ворклфлоу в любом data science проекте, который в общем виде можно представить в виде следующих этапов:

  1. Получение данных.
  2. Очистка и загрузка данных.
  3. Исследовательский анализ данных.
  4. Построение моделей.
  5. Оценка моделей.
  6. Визуализация и представление результатов.

Основные задачи EDA:

  • изучение взаимосвязи между переменными (направление и приблизительная сила влияния);
  • наличие выбросов;
  • выбор наиболее важных переменных;
  • проверка основных гипотез.

А ниже мы рассмотрим классификацию основных его инструментов.

Классификация методов EDA

Методы EDA могут быть либо графическими, либо количественными. Каждый из этих методов, в свою очередь, может быть одномерным, либо многомерным (обычно просто двумерным). Количественные методы обычно включают в себя расчет сводных статистических данных. Графические методы обобщают данные в виде диаграмм и графиков. Одномерные методы рассматривают одну переменную (столбец данных) за раз, в то время как многомерные методы рассматривают две или более переменных одновременно, чтобы исследовать взаимосвязи. Таким образом, существует четыре типа методов EDA:

Неграфические и графические методы дополняют друг друга. Графические методы больше обеспечивают субъективный (экспертный) анализ, а количественные — объективны.

Одномерные неграфические инструменты

Одномерные неграфические методы EDA направлены на изучение распределения выборки и на выводы о генеральной совокупности. Обнаружение выбросов так же сюда входит. Для одномерных категориальных данных нас интересуют спектр принимаемых значений и их частотность. Одномерный EDA для количественных данных предполагает расчет мер центральной тенденции, разброса, асимметрии и поиск выбросов. Меры центральной тенденции включают среднее значение, медиану и моду. Наиболее распространенным показателем центральной тенденции является среднее значение, но при ненормальном распределении и при наличии выбросов, более предпочтительна медиана. Показатели разброса включают дисперсию, стандартное отклонение и межквартильный размах, они показывают как сильно значения отклоняются от своего среднего. Одномерный EDA также включает в себя расчёт коэффициента асимметрии и эксцесса.

Одномерный графические инструменты

Для графического анализа одномерных категориальных данных обычно используются столбчатые диаграммы. По ним мы можем оценить частоту (количество) значений для каждой категории в столбце. А для непрерывных величин обычно использую гистограммы, по которым можно легко оценить распределение признака, а также моды, разброс и выбросы. Гистограммы показывают сколько значений (или какая их доля) попадает в тот или иной интервал из общего диапазона значений. Как правило, таких интервалов выделяется от 5 до 30. Боксплоты так же хороши для этих задач, как и Q–Q plot.

Многомерные неграфические инструменты

Многомерные неграфические методы EDA обычно показывают взаимосвязь между двумя или более переменными в форме сводных таблиц и вычисляемых статистик. Для каждого значения категориального признака мы можем рассчитать статистику целевой переменной (например, среднее или медиану) и сравнить их между разными категориями. Для двух количественных переменных мы можем рассчитать ковариацию и/или корреляцию. Когда у нас много количественных переменных, то удобно построить матрицу корреляций.

Многомерные графические инструменты

Для категориальных многомерных величин наиболее часто используемым графическим методом является сгруппированная столбчатая диаграмма, где каждая группа столбцов — отдельный признак, а каждый столбец в ней — частота конкретного значения в нём. А для количественных переменных мы можем использовать диаграммы рассеяния, где одна переменная будет по оси Х, другая — по оси y, а каждая точка является объектом (строкой) в наборе данных. Как правило, факторная переменная располагается по оси X. На такую визуализацию можно добавить дополнительные признаки в виде цвета/размера точек.

Заключение

EDA — это сложный и во многом субъективный подход. В этом посте классифицированы основные его методы, которые помогут вам максимально погрузиться в данные.

Спасибо за внимание!

Источник: Data Science Central

Перевод и адаптация: Данил Гончаров