Как анализировать и визуализировать числовые данные?
Что такое гистограмма и для чего она нужна?
Гистограмма - это способ визуализации распределения числовых данных. С помощью гистограммы можно увидеть, сколько значений данных попадает в каждый интервал. Это помогает нам понять, как распределены наши данные.
Пример:
Допустим, у нас есть список возрастов людей: [18, 20, 22, 25, 28, 18, 30, 35, 40, 42]. Мы хотим увидеть, как часто встречаются разные возрасты в этом списке.
Построение гистограммы
Для начала, нам нужно поделить наш диапазон возрастов на интервалы. Давай возьмем интервалы по 10 лет: 10-19, 20-29, 30-39 и т.д.
Теперь, посчитаем, сколько значений попадает в каждый интервал:
Теперь мы можем нарисовать гистограмму, где по горизонтальной оси будут интервалы возрастов, а по вертикальной - количество людей в каждом интервале.
import matplotlib.pyplot as plt
# Возрасты
ages = [18, 20, 22, 25, 28, 18, 30, 35, 40, 42]
# Интервалы
age_intervals = [10, 20, 30, 40, 50]
# Строим гистограмму
plt.hist(ages, bins=age_intervals, edgecolor='black')
# Добавляем заголовок и подписи к осям
plt.title('Распределение возраста')
plt.xlabel('Возрастные интервалы')
plt.ylabel('Количество людей')
# Показываем гистограмму
plt.show()import matplotlib.pyplot as plt: Здесь мы импортируем библиотекуmatplotlib.pyplotи создаем псевдонимplt, чтобы было удобнее использовать функции этой библиотеки.ages = [18, 20, 22, 25, 28, 18, 30, 35, 40, 42]: Создается списокages, содержащий возрасты людей.age_intervals = [10, 20, 30, 40, 50]: Создается списокage_intervals, который содержит интервалы для построения гистограммы. В данном случае, это интервалы возраста.plt.hist(ages, bins=age_intervals, edgecolor='black'): Строим гистограмму, используя функциюhistиз библиотекиmatplotlib.pyplot. Передаем данные о возрастахages, а также интервалыage_intervalsдля построения гистограммы.edgecolor='black'устанавливает цвет границ столбцов гистограммы.plt.title('Распределение возраста'): Добавляем заголовок гистограммы.plt.xlabel('Возрастные интервалы'): Добавляем подпись к оси X, которая описывает интервалы возраста.plt.ylabel('Количество людей'): Добавляем подпись к оси Y, которая описывает количество людей в каждом интервале.plt.show(): Эта строка отображает построенную гистограмму.
Этот код создаст гистограмму, отображающую распределение возрастов в нашем примере.