Базовая база для анализа данных
Если вы мечтаете с нуля погрузиться в анализ данных, но не знаете с чего начать - эта статья для вас!
В ней мы достаточно дружелюбно и с картинками объясним основные термины математической статистики, без которых не обходится ни одно исследование:
- Генеральная совокупность и выборка
- Меры центральной тенденции
- Меры изменчивости
- Нормальное распределение
❗️Дисклеймер для взрослых❗️
Это не учебник, а пособие для начинающих
Цель этой статьи - максимально понятным языком донести сложные вещи, поэтому формулировки могут быть не самыми строгими
Генеральная совокупность и выборка
Определим эти важные термины из математической статистики:
- Генеральная совокупность - вся совокупность предметов, которые мы хотим исследовать
- Выборка - часть или подмножество нашей совокупности
Представим, что мы собрали данные о баллах 300 участников регионального этапа ВОШ по экономике
Ответившие 300 человек будут нашей выборкой, а все жители города - генеральной совокупностью
Для хорошего исследования недостаточно просто собрать выборку - нужно, чтобы она была репрезентативной!
- Репрезентативная выборка - такая выборка, по которой можно делать выводы о генеральной совокупности
- Смещенная выборка - противоположная репрезентативной, по ней нельзя делать выводы
Часто достаточно случайного отбора участников исследования.
Ведь тогда у каждого представителя генеральной совокупности будет равный шанс попасть в выборку, от чего результаты будут пропорциональными
Например, если бы мы опрашивали только Москвичей, то получили бы смещенную выборку
Важно❗️
Выборка должна состоять из наблюдений, которые никак не влияют друг на друга - мы не можем опросить группу друзей или позволять людям смотреть, как действует другой испытуемый
Меры центральной тенденции
Под этой страшной фразой прячутся, скорее всего, известные вам термины - среднее, медиана и мода
Перед аналитиками постоянно стоит задача как-то описать данные, сравнить их, получить определенную информацию из них (и, желательно, одним числом)
Для таких целей прекрасно подходят меры центральной тенденции!
Разберемся с каждой по отдельности
Медиана — это значение, которое делит отсортированные значения признака на две равные части
Если значений четное число, то берется среднее между двумя значениями, которые делят значения признака на две равные части
Аномальные значения
Давайте посмотрим, как ведут себя среднее и медиана при добавлении аномальных значений
Возьмем выборку, добавим в неё миллион и далее сравним, как изменится медиана и среднее
Как можно заметить, среднее намного чувствительнее к выбросам, чем медиана, что часто приводит к неправильным выводам
Например, такие неправильные выводы получаются при характеристике зарплат по России
Cпециалисты из Москвы, которых не более 10% относительно всей России, сильно завышают среднюю зарплату, так как их доходы сильно выше региональных
Это создает видимость высоких зарплат, когда фактически в остальной России ситуация другая
Именно поэтому хорошие зарплатные рейтинги основываются на медиане!
Меры изменчивости
Для полноты картины, кроме среднего/медианы нам бы хотелось понять, как разбросаны наши значения в данных, для этого существуют меры изменчивости!
Меры изменчивости – показатели, измеряющие разброс значений переменной
Существует множество способов их измерить, мы рассмотрим самые базовые: размах, дисперсия и стандартное отклонение, и посчитаем их на одном примере набора данных
Начнем с самого простого - размаха
Размах - разность максимального и минимального значения выборки
Плюс размаха в том,что его очень легко считать. Правда, на этом его плюсы закончились
Дисперсия - мера разброса значений случайной величины относительно её математического ожидания
На первый взгляд, определение может показаться сложным, поэтому разберем его для нашего случая
Простыми словами, дисперсия это мера разброса значений нашего набора данных, относительно его среднего значения
Дисперсия обозначается маленькой сигмой в квадрате и рассчитывается по следующей формуле
Простыми словами - среднее квадратов отклонений наших данных от их среднего.
Посчитаем дисперсию для нашего примера
Получили, что в средний квадрат отклонения наших данных равен 50
Может показаться, что она немного завышена, потому что мы возводили в квадраты отклонения. Поэтому, давайте понизим размерность метрики с помощью квадратного корня
Такая величина называется стандартное отклонение
Другое дело! В разы проще запомнить, чем эти меры разброса)
Чем больше стандартное отклонение, тем больше наблюдений находится далеко от среднего.
Получили, что наши данные в среднем отклоняются от среднего на ~7.07, Остается только один вопрос - почему нельзя было просто использовать модули
Нормальное распределение
Распределения могут подчиняться разным законам и самое известное — нормальное распределение
Большое количество величин в нашем мире распределены нормально:
Нормальное распределение — это распределение, у которого отклонения от среднего равновероятны и подчинены определенному вероятностному закону
Главное, что чем дальше от среднего, тем менее вероятно встретить такое значение.
Важным свойством нормального распределения является то, что 98.8% наблюдений лежат в окрестности 3 сигм
Итоги
В этой статье вы познакомились с такими понятиями, как:
- Генеральная совокупность и выборка
- Меры центральной тенденции
- Меры изменчивости
- Нормальное распределение
Желаем удачи во всех ваших начинаниях, ваш труд обязательно окупится!
Понравилась статья? Подписывайтесь на нас в телеграме!
Еще больше аналитики и Data Science в сфере образования по ссылке: https://t.me/AD_olimp