Pandas
September 23, 2023
Разведочный анализ данных с использованием библиотеки Pandas
В прошлой статье собрал данные с сайта о продаже автомобилей, и теперь хочу провести первичный анализ этих данных.
import pandas as pd # Загружаем данные из CSV data = pd.read_csv("path_to_file.csv")
2. Осмотр данных
# Первые 5 записей print(data.head()) # Основная информация о данных print(data.info()) # Описательная статистика print(data.desc
3. Проверка пропущенных значений
# Считаем количество пропущенных значений для каждой колонки print(data.isnull().sum())
4. Визуализация данных
import matplotlib.pyplot as plt import seaborn as sns f# График средней цены автомобилей по годам выпуска avg_price_per_year.plot(kind='bar') plt.title("Средняя цена автомобилей по годам") plt.ylabel("Средняя цена") plt.xlabel("Год выпуска") plt.show()
Ящик с усами. Ищу выбросы
data.plot(kind='box', subplots=True, layout=(4,4), sharex=False, sharey=False, figsize=(15,18)) plt.show()
Scatter plot
f plt.figure(figsize=(15, 10)) sns.stripplot(data=data, x="Year", y="price") plt.axhline(y=data['price'].quantile(0.25), color='green', label='Цена ниже рынка') plt.axhline(y=data['price'].quantile(0.5), color='blue', label='средняя цена по рынку') plt.axhline(y=data['price'].quantile(0.75),color='red', label='цена выше рынка') plt.axvline(x='2013', label='Медианный год') plt.axvline(x='2011', label='25% самых старых автомобилей' ) plt.axvline(x='2016',label='25% самых молодых автомобилей') plt.legend(loc="upper right") plt.show()
Эти базовые операции помогут быстро оценить собранные данные, увидеть основные тенденции и определить направления для дальнейшего анализа.
C полным кодом можно знакомиться на github