November 13, 2022
Ключевые способы получения описательной информации о спарк датафрейме
Рассмотрим, как быстро собрать минимум информации о spark датафрейме, чтобы получить первичное представление о его содержимом. Загрузим датафрейм по ссылке:
sdf = spark.read.csv('titanic.csv', header=True, inferSchema=True) sdf.show(5)
Итак, методом show мы вывели первые n строк.
Количество строк можно посчитать методом count:
sdf.count()
Для вывода названий колонок обратитесь к свойству columns:
sdf.columns
Колонки с их типами можно получить через атрибут dtypes:
sdf.dtypes
Аналогичная информация может выведена методом printSchema:
sdf.printSchema()
К схеме можно обратиться напрямую (подробнее о схеме читайте здесь):
sdf.schema
Для подсчета описательных статистик для числовых и строковых колонок воспользуйтесь методом summary:
sdf.summary()