Аналитика данных
October 4, 2023

Как сгруппировать данные по определенному критерию и произвести агрегацию?

Давай разберемся с группировкой данных и агрегацией. Это как собирать и систематизировать информацию для того, чтобы потом удобно было работать с результатами.

Глава 1: Группировка данных

Представь, что у тебя есть коробка с разными фруктами, и ты хочешь их упорядочить по типам. Например, яблоки, бананы и апельсины. В этом случае, ты группируешь фрукты по их видам.

В программировании это делается аналогично. Допустим, у тебя есть таблица с данными о фруктах, и у каждого фрукта есть свой тип (яблоко, банан, апельсин). Ты можешь сгруппировать эти данные по типу фрукта, чтобы иметь отдельные группы для каждого вида.

Пример кода на Python для группировки данных по типу фрукта:

import pandas as pd
# Создаем таблицу с данными о фруктах
data = {'Фрукт': ['Яблоко', 'Банан', 'Яблоко', 'Апельсин', 'Банан'],
        'Количество': [10, 5, 8, 12, 6]}
df = pd.DataFrame(data)  # Создаем DataFrame
# Группируем данные по типу фрукта
grupirovannie_dannie = df.groupby('Фрукт').sum()
print(grupirovannie_dannie)

В результате выполнения этого кода у тебя будет таблица, в которой фрукты сгруппированы по типу, и для каждого типа посчитано общее количество.

Глава 2: Агрегация данных

Теперь представь, что ты хочешь узнать средний вес фруктов в каждой группе. Это как вычислить среднее значение по каждой категории.

Пример кода на Python для расчета среднего значения для каждого типа фрукта:

# Рассчитываем среднее значение по каждому типу фрукта
srednee_znachenie = df.groupby('Фрукт')['Количество'].mean()
print(srednee_znachenie)

Таким образом, ты можешь группировать данные по какому-то признаку (типу фрукта, например) и производить агрегацию, то есть вычисление различных показателей (среднее значение, сумма и другие) для каждой группы.