March 29, 2022

Отображение матрицы корреляций

Решение задачи проведем на примере датасета о цветках Ириса, который получим с помощью библиотеки Scikit-learn:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from sklearn.datasets import load_iris
df, _ = load_iris(return_X_y=True, as_frame=True)
df.head()

Имея датафрейм, можно составить матрицу корреляций с помощью метода corr:

corr_df  = df.corr()
corr_df.head()

Отобразить получившийся датафрейм удобно методом heatmap библиотеки Seaborn:

plt.figure(figsize=(10,6))
sns.heatmap(corr_df, annot=True, fmt='.2f', cmap='Blues', cbar=None)

Параметр annot задает отображение значений корреляций в ячейках, fmt - формат этих чисел, а cmap и cbar управляют цветовой гаммой и необходимостью отображения палитры.