September 22, 2021

Анализ датафрейма с первого взгляда

Рассмотрим базовые приемы, позволяющие получить первичные сведения о структуре данных, с которой вы столкнулись. Собранные таким образом сведения служат отправной точкой для более продвинутого анализа.

Работать будем с опросом пользователей сайта Kaggle, объединяющего специалистов по обработке данных и машинному обучению (2017 Kaggle ML & DS Survey, файл multipleChoiceResponses.csv).

Вывод формы датафрейма

Считаем и выведем форму таблицы данных с помощью метода shape:

Общая информация о таблице

Воспользуемся методом info (информация об индексе, колонках, статистика по типам значений, размере используемой памяти):

Вывод на экран части датафрейма

Можно осуществить с помощью методов head и tail с указанием количества строк (по умолчанию 5). Демонстрируется на картинке ниже, дополнительно использовал опцию, ограничивающую количество выводимых столбцов (детальнее здесь):

Получение индексов и колонок

Реализуется с помощью атрибутов index и columns:

Типы колонок

Хранятся в атрибуте dtypes датафрейма:

Количество уникальных и нулевых элементов в столбце

Первое получаем с помощью метода nunique, а второе - isnull (1 способ - суммирование значений True, второй - количество строк в датафрейме проиндексированном только незаполненными значениями):

Список уникальных значений

Если вы подозреваете, что в каком-то столбце хранятся дискретные значения, то для вывода их списка можно использовать метод value_counts:

Минимальное и максимальное значения

Возвращаются методами min и max: