Аналитика данных
October 5, 2023

Как определить корреляцию между переменными в данных?

Корреляция — это мера тесноты связи между двумя переменными. Например, если одна переменная меняется, то насколько сильно это повлияет на другую переменную?

Например, представь, у нас есть данные о том, сколько времени люди тратят на учебу и их оценки. Если время на учебу увеличивается, а оценки тоже увеличиваются, это может указывать на положительную корреляцию.

Коэффициент корреляции Пирсона измеряет степень линейной связи между двумя переменными. Он может быть от -1 до 1. 1 означает положительную линейную связь, -1 — отрицательную, и 0 — отсутствие связи.

Теперь посмотрим на пример кода для расчета коэффициента корреляции Пирсона в Python:

import numpy as np
# Предположим, у нас есть данные по времени учебы и оценкам
vremya_uchebi = [3, 5, 2, 8, 6]
ocenki = [80, 85, 75, 90, 88]
# Рассчитываем корреляцию Пирсона
korrelyaciya = np.corrcoef(vremya_uchebi, ocenki)[0, 1]
print("Коэффициент корреляции Пирсона:", korrelyaciya)

В этом примере мы импортировали библиотеку numpy для работы с массивами и функцию corrcoef для расчета корреляции Пирсона. После этого мы вывели коэффициент корреляции.

Результат выполнения кода:

Коэффициент корреляции Пирсона: 0.9704308540638877

Объяснение кода:

  1. import numpy as np: Импорт библиотеки numpy и присвоение ей псевдонима np, чтобы удобно было вызывать функции из этой библиотеки.
  2. vremya_uchebi = [3, 5, 2, 8, 6] и ocenki = [80, 85, 75, 90, 88]: Здесь мы создали два массива данных - один для времени учебы и один для оценок.
  3. korrelyaciya = np.corrcoef(vremya_uchebi, ocenki)[0, 1]: Рассчитываем коэффициент корреляции Пирсона между временем учебы и оценками.
  4. print("Коэффициент корреляции Пирсона:", korrelyaciya): Выводим результат в консоль.

Таким образом, весь этот код помогает рассчитать и вывести коэффициент корреляции Пирсона между временем учебы и оценками.