Аналитика данных
October 5, 2023

Как анализировать и визуализировать числовые данные?

Что такое гистограмма и для чего она нужна?

Гистограмма - это способ визуализации распределения числовых данных. С помощью гистограммы можно увидеть, сколько значений данных попадает в каждый интервал. Это помогает нам понять, как распределены наши данные.

Пример:
Допустим, у нас есть список возрастов людей: [18, 20, 22, 25, 28, 18, 30, 35, 40, 42]. Мы хотим увидеть, как часто встречаются разные возрасты в этом списке.

Построение гистограммы

Для начала, нам нужно поделить наш диапазон возрастов на интервалы. Давай возьмем интервалы по 10 лет: 10-19, 20-29, 30-39 и т.д.

Теперь, посчитаем, сколько значений попадает в каждый интервал:

  • 10-19: 0
  • 20-29: 4
  • 30-39: 3
  • 40-49: 2

Теперь мы можем нарисовать гистограмму, где по горизонтальной оси будут интервалы возрастов, а по вертикальной - количество людей в каждом интервале.

Пример кода на Python:

import matplotlib.pyplot as plt
# Возрасты
ages = [18, 20, 22, 25, 28, 18, 30, 35, 40, 42]
# Интервалы
age_intervals = [10, 20, 30, 40, 50]
# Строим гистограмму
plt.hist(ages, bins=age_intervals, edgecolor='black')
# Добавляем заголовок и подписи к осям
plt.title('Распределение возраста')
plt.xlabel('Возрастные интервалы')
plt.ylabel('Количество людей')
# Показываем гистограмму
plt.show()

Объяснение кода:

  1. import matplotlib.pyplot as plt: Здесь мы импортируем библиотеку matplotlib.pyplot и создаем псевдоним plt, чтобы было удобнее использовать функции этой библиотеки.
  2. ages = [18, 20, 22, 25, 28, 18, 30, 35, 40, 42]: Создается список ages, содержащий возрасты людей.
  3. age_intervals = [10, 20, 30, 40, 50]: Создается список age_intervals, который содержит интервалы для построения гистограммы. В данном случае, это интервалы возраста.
  4. plt.hist(ages, bins=age_intervals, edgecolor='black'): Строим гистограмму, используя функцию hist из библиотеки matplotlib.pyplot. Передаем данные о возрастах ages, а также интервалы age_intervals для построения гистограммы. edgecolor='black' устанавливает цвет границ столбцов гистограммы.
  5. plt.title('Распределение возраста'): Добавляем заголовок гистограммы.
  6. plt.xlabel('Возрастные интервалы'): Добавляем подпись к оси X, которая описывает интервалы возраста.
  7. plt.ylabel('Количество людей'): Добавляем подпись к оси Y, которая описывает количество людей в каждом интервале.
  8. plt.show(): Эта строка отображает построенную гистограмму.

Этот код создаст гистограмму, отображающую распределение возрастов в нашем примере.