August 3

Оценки средних и карьера Вики

Разные средние значения слева-направо: красное — среднее арифметическое, черное — винзоризованное среднее по границе 10%, синее — усеченное среднее по границе 10%, оранжевое — медиана средних Уолша, зеленое — медиана.

Моя знакомая бухгалтер Виктория считает, что среднее — это простая сумма величин, деленная на их количество. Поэтому ее нисколько не смущает, что средняя зарплата сотрудников института, учитывающая зарплаты замов и директора, раза в два-три выше, чем зарплата рядового трудяги.

На графике среднее арифметическое отмечено красным и является самой правой величиной.

Но мы с вами знаем, что так получается из-за наличия выбросов — экстремальных зарплат руководства. В этом случае медиана лучше опишет средний показатель.

На графике медиана отмечена зеленым и является самой левой величиной.

Помимо медианы, есть еще множество других средних величин. Давайте рассмотрим некоторые из них.

Усеченное среднее (англ. truncated mean, trimmed mean).

При его расчете мы не учитываем часть данных. Эту часть обычно выражают в процентах — от 5% до 25%. Для этого выборку сортируют, как и при расчете медианы, отбрасывают заданный процент данных с начала и с конца выборки, и вычисляют обычное среднее арифметическое остатка.

Усеченное среднее как раз позволяет избавиться от экстремальных выбросов и получить более-менее достоверную оценку средней величины.

На графике усеченное среднее по границе 10% отмечено синим.

Винзоризованное среднее (англ. winsorized mean).
Похоже на усеченное среднее. Как и при расчете последнего, мы отбрасываем процент данных с начала и с конца отсортированной выборки. Но после этого мы помещаем вместо отброшенных данных минимальные и максимальные из оставшихся значений — то есть повторяем их столько раз, сколько значений было отброшено. Заатем вычисляем среднее арифметическое. Такой прием также позволяет избавиться от влияния выбросов.

На графике винзоризованное среднее по границе 10% отмечено черным.

После того, как я рассказал Виктории об усеченном и винзоризованном среднем, она стала применять их в своих расчетах. В результате сотрудники стали больше доверять бухгалтерии, и Викторию повысили до первого зама главного бухгалтера.

Поздравим Вику с повышением и рассмотрим еще одну оценку среднего.

Медиана средних Уолша (англ. Walsh averages median); она же
медиана попарных средних (англ. pairwise averages median); она же
оценка Ходжеса-Лемана (англ. Hodges-Lehmann estimator).

Вычисляется просто: берем все пары значений данных, включая сочетания каждого значения с самим собой, и находим среднее арифметическое каждой пары. Медиана этих попарных средних и будет искомой величиной.

Достоинство метрики в том, что она не изменится, если поменять до 29% данных. То есть она устойчива к большому числу (трети) выбросов.

На графике медиана средних Уолша отмечена оранжевым.

Медиана попарных средних часто используется для оценки средней разницы между двумя выборками значений.

Если вернуться к бухгалтеру Вике, то с помощью медианы Ходжеса-Лемана она без труда определила, на сколько в среднем отличается зарплата в двух конкурирующих институтах, предложила директору поднять зарплату сотрудникам, чтобы они не убежали к конкурентам, после чего стала главным бухгалтером.

Это далеко не полный перечень оценок средней величины. Подробнее о них можно почитать на странице Вики (не бухгалтера).

https://en.wikipedia.org/wiki/Average#Summary_of_types