September 17, 2023

Базовая база для анализа данных

Если вы мечтаете с нуля погрузиться в анализ данных, но не знаете с чего начать - эта статья для вас!

В ней мы достаточно дружелюбно и с картинками объясним основные термины математической статистики, без которых не обходится ни одно исследование:

  • Генеральная совокупность и выборка
  • Меры центральной тенденции
  • Меры изменчивости
  • Нормальное распределение

❗️Дисклеймер для взрослых❗️

Это не учебник, а пособие для начинающих

Цель этой статьи - максимально понятным языком донести сложные вещи, поэтому формулировки могут быть не самыми строгими


Генеральная совокупность и выборка

Определим эти важные термины из математической статистики:

  • Генеральная совокупность - вся совокупность предметов, которые мы хотим исследовать
  • Выборка - часть или подмножество нашей совокупности

Рассмотрим на примере

Представим, что мы собрали данные о баллах 300 участников регионального этапа ВОШ по экономике

Ответившие 300 человек будут нашей выборкой, а все жители города - генеральной совокупностью

Для хорошего исследования недостаточно просто собрать выборку - нужно, чтобы она была репрезентативной!

  • Репрезентативная выборка - такая выборка, по которой можно делать выводы о генеральной совокупности
  • Смещенная выборка - противоположная репрезентативной, по ней нельзя делать выводы

Как получить репрезентативную выборку?

Часто достаточно случайного отбора участников исследования.

Ведь тогда у каждого представителя генеральной совокупности будет равный шанс попасть в выборку, от чего результаты будут пропорциональными

Из за чего выборка смещается?

Например, если бы мы опрашивали только Москвичей, то получили бы смещенную выборку

Важно❗️

Выборка должна состоять из наблюдений, которые никак не влияют друг на друга - мы не можем опросить группу друзей или позволять людям смотреть, как действует другой испытуемый


Меры центральной тенденции

Под этой страшной фразой прячутся, скорее всего, известные вам термины - среднее, медиана и мода

Перед аналитиками постоянно стоит задача как-то описать данные, сравнить их, получить определенную информацию из них (и, желательно, одним числом)

Для таких целей прекрасно подходят меры центральной тенденции!

Разберемся с каждой по отдельности

Среднее — частное суммы значений и их количества

Медиана — это значение, которое делит отсортированные значения признака на две равные части

Если значений четное число, то берется среднее между двумя значениями, которые делят значения признака на две равные части

Мода — самое популярное значение в данных

Аномальные значения

Давайте посмотрим, как ведут себя среднее и медиана при добавлении аномальных значений

Возьмем выборку, добавим в неё миллион и далее сравним, как изменится медиана и среднее

Как можно заметить, среднее намного чувствительнее к выбросам, чем медиана, что часто приводит к неправильным выводам

Например, такие неправильные выводы получаются при характеристике зарплат по России

Cпециалисты из Москвы, которых не более 10% относительно всей России, сильно завышают среднюю зарплату, так как их доходы сильно выше региональных

Это создает видимость высоких зарплат, когда фактически в остальной России ситуация другая

Именно поэтому хорошие зарплатные рейтинги основываются на медиане!


Меры изменчивости

Для полноты картины, кроме среднего/медианы нам бы хотелось понять, как разбросаны наши значения в данных, для этого существуют меры изменчивости!

Меры изменчивости – показатели, измеряющие разброс значений переменной

Существует множество способов их измерить, мы рассмотрим самые базовые: размах, дисперсия и стандартное отклонение, и посчитаем их на одном примере набора данных

Начнем с самого простого - размаха

Размах - разность максимального и минимального значения выборки

Плюс размаха в том,что его очень легко считать. Правда, на этом его плюсы закончились

Дисперсия - мера разброса значений случайной величины относительно её математического ожидания

На первый взгляд, определение может показаться сложным, поэтому разберем его для нашего случая

  • Случайная величина - наш набор данных
  • Математическое ожидание - то же, что среднее

Простыми словами, дисперсия это мера разброса значений нашего набора данных, относительно его среднего значения

Дисперсия обозначается маленькой сигмой в квадрате и рассчитывается по следующей формуле

Простыми словами - среднее квадратов отклонений наших данных от их среднего.

Посчитаем дисперсию для нашего примера

Получили, что в средний квадрат отклонения наших данных равен 50

Может показаться, что она немного завышена, потому что мы возводили в квадраты отклонения. Поэтому, давайте понизим размерность метрики с помощью квадратного корня

Такая величина называется стандартное отклонение

Стандартное отклонение - корень из дисперсии

Другое дело! В разы проще запомнить, чем эти меры разброса)

Чем больше стандартное отклонение, тем больше наблюдений находится далеко от среднего.

Получили, что наши данные в среднем отклоняются от среднего на ~7.07, Остается только один вопрос - почему нельзя было просто использовать модули


Нормальное распределение

Распределения могут подчиняться разным законам и самое известное — нормальное распределение

Большое количество величин в нашем мире распределены нормально:

  • Баллы за олимпиаду или ЕГЭ
  • Рост людей и так далее

Нормальное распределение — это распределение, у которого отклонения от среднего равновероятны и подчинены определенному вероятностному закону

Главное, что чем дальше от среднего, тем менее вероятно встретить такое значение.

Важным свойством нормального распределения является то, что 98.8% наблюдений лежат в окрестности 3 сигм

Это свойство также называют Правилом трех сигм


Итоги

В этой статье вы познакомились с такими понятиями, как:

  • Генеральная совокупность и выборка
  • Меры центральной тенденции
  • Меры изменчивости
  • Нормальное распределение

Желаем удачи во всех ваших начинаниях, ваш труд обязательно окупится!


Понравилась статья? Подписывайтесь на нас в телеграме!

Еще больше аналитики и Data Science в сфере образования по ссылке: https://t.me/AD_olimp