Анализ датафрейма с первого взгляда
Рассмотрим базовые приемы, позволяющие получить первичные сведения о структуре данных, с которой вы столкнулись. Собранные таким образом сведения служат отправной точкой для более продвинутого анализа.
Работать будем с опросом пользователей сайта Kaggle, объединяющего специалистов по обработке данных и машинному обучению (2017 Kaggle ML & DS Survey, файл multipleChoiceResponses.csv).
Вывод формы датафрейма
Считаем и выведем форму таблицы данных с помощью метода shape:
Общая информация о таблице
Воспользуемся методом info (информация об индексе, колонках, статистика по типам значений, размере используемой памяти):
Вывод на экран части датафрейма
Можно осуществить с помощью методов head и tail с указанием количества строк (по умолчанию 5). Демонстрируется на картинке ниже, дополнительно использовал опцию, ограничивающую количество выводимых столбцов (детальнее здесь):
Получение индексов и колонок
Реализуется с помощью атрибутов index и columns:
Типы колонок
Хранятся в атрибуте dtypes датафрейма:
Количество уникальных и нулевых элементов в столбце
Первое получаем с помощью метода nunique, а второе - isnull (1 способ - суммирование значений True, второй - количество строк в датафрейме проиндексированном только незаполненными значениями):
Список уникальных значений
Если вы подозреваете, что в каком-то столбце хранятся дискретные значения, то для вывода их списка можно использовать метод value_counts: