November 13, 2022

Ключевые способы получения описательной информации о спарк датафрейме

Рассмотрим, как быстро собрать минимум информации о spark датафрейме, чтобы получить первичное представление о его содержимом. Загрузим датафрейм по ссылке:

sdf = spark.read.csv('titanic.csv', header=True, inferSchema=True)
sdf.show(5)

Итак, методом show мы вывели первые n строк.

Количество строк можно посчитать методом count:

sdf.count()

Для вывода названий колонок обратитесь к свойству columns:

sdf.columns

Колонки с их типами можно получить через атрибут dtypes:

sdf.dtypes

Аналогичная информация может выведена методом printSchema:

sdf.printSchema()

К схеме можно обратиться напрямую (подробнее о схеме читайте здесь):

sdf.schema

Для подсчета описательных статистик для числовых и строковых колонок воспользуйтесь методом summary:

sdf.summary()

Полезные ссылки:

  1. Создание схемы данных в Spark