Pandas
September 23, 2023

Разведочный анализ данных с использованием библиотеки Pandas

В прошлой статье собрал данные с сайта о продаже автомобилей, и теперь хочу провести первичный анализ этих данных.

import pandas as pd

# Загружаем данные из CSV
data = pd.read_csv("path_to_file.csv")

2. Осмотр данных

# Первые 5 записей
print(data.head())

# Основная информация о данных
print(data.info())

# Описательная статистика
print(data.desc

3. Проверка пропущенных значений

# Считаем количество пропущенных значений для каждой колонки
print(data.isnull().sum())

4. Визуализация данных

import matplotlib.pyplot as plt
import seaborn as sns
f# График средней цены автомобилей по годам выпуска
avg_price_per_year.plot(kind='bar')
plt.title("Средняя цена автомобилей по годам")
plt.ylabel("Средняя цена")
plt.xlabel("Год выпуска")
plt.show()

Ящик с усами. Ищу выбросы

data.plot(kind='box', subplots=True, layout=(4,4), sharex=False, sharey=False, figsize=(15,18))
plt.show()

Scatter plot

f plt.figure(figsize=(15, 10))
sns.stripplot(data=data, x="Year", y="price")
plt.axhline(y=data['price'].quantile(0.25), color='green', label='Цена ниже рынка')
plt.axhline(y=data['price'].quantile(0.5), color='blue', label='средняя цена по рынку')
plt.axhline(y=data['price'].quantile(0.75),color='red', label='цена выше рынка')
plt.axvline(x='2013', label='Медианный год')
plt.axvline(x='2011', label='25% самых старых автомобилей' )
plt.axvline(x='2016',label='25% самых молодых автомобилей')
plt.legend(loc="upper right")
plt.show()

Эти базовые операции помогут быстро оценить собранные данные, увидеть основные тенденции и определить направления для дальнейшего анализа.

C полным кодом можно знакомиться на github