Базовая база для анализа данных
Генеральная совокупность и выборка
Представьте, что вы собрали данные у 1000 жителей Санкт-Петербурга об их зарплатах. Ответившие 1000 человек будут вашей выборкой, а все жители города - генеральной совокупностью. Сразу встает вопрос о том, можно ли делать по такой выборке выводы о всех жителях. Если можно, то такая выборка будет называться репрезентативной. А если, например, мы бы опрашивали только жителей Петроградского района, то выборка была бы смещена.
В идеале выборка должна состоять из наблюдений, которые никак не влияют друг на друга. То есть мы не можем опросить группу друзей или позволять людям смотреть, как действует другой человек.
Меры центральной тенденции
Перед нами постоянно стоит задача как-то описать данные, сравнить их, получить определенную информацию из них. Каждый слышал про них: среднее, медиана и мода. Со средним все понятно, а вот на остальных давайте остановимся подробнее.
Медиана — это значение, которое делит отсортированные значения признака на две равные части.
Давайте посмотрим, как ведет себя медиана и среднее при добавлении аномальных значений.
Чувствуете? Среднее обожает улетать в небеса из-за аномальных значений, из-за чего можно делать неправильные выводы. Например, неправильные выводы получаются при характеристике зарплат по России. Так специалисты из Москвы, которых должно быть не более 10%, сильно завышают средние зарплаты, так как их доходы сильно выше региональных, что создает видимость высоких зарплат, но фактически в остальной России ситуация плохая. Поэтому хорошие зарплатные рейтинги основываются на медиане.
Мода — самое популярное значение в данных. Может быть как количественной, так и качественной переменной. Мод может быть несколько. Например, в этом массиве [1, 1, 2, 2, 3] две моды: 1 и 2.
Количественную переменную можно выразить числом. Например, рост, вес, количество чего-либо, возраст и тд. Качественные переменные же выражают свойства предмета: имя, пол, класс обучения, университет.
Меры изменчивости
Для полноты картины кроме среднего/медианы нам бы хотелось знать, как далеко от них разбросаны наши значения в данных.
Умным дядькам пришла идея рассматривать отклонения от среднего, то есть разность между конкретным значением и его средним. Но наши отклонения, конечно, могут быть как положительные, так и отрицательные, а значит для определенных наборов данных наша мера изменчивости была бы у 0, что по смыслу неправда. Например, для такого набора данных: [100, 200, 200, 300] со средним 200 сумма отклонений от среднего была бы равна 0, но, согласитесь, данные обладают явно более выраженной изменчивостью.
Поэтому решили возводить отклонения в квадрат, а потом их усреднять. Такую метрику назвали дисперсия.
Дисперсия показывает среднее квадратов отклонений от среднего.
Буква mu - среднее, X - значение признака, N - число наблюдений.
Посчитаем дисперсию для такого массива: [1, 1, 4, 6, 8]. Среднее будет 4, количество наблюдений 5.
Дисперсия = ((1-4)^2 + (1-4)^2 + (4-4)^2 + (6-4)^2 + (8-4)^2) / 5 = (3+3+0+4+16)/5=5,2
5.2 — вполне приемлемая оценка для изменчивости массива выше, но все же неидеальная. Не кажется ли вам, что она слишком завышена?
Действительно, из-за возведения отклонений в квадрат размерность нашей метрики выше, чем у исходность данных.
Как вы думаете, как можно было бы решить данную проблему?
Давайте понизим размерность метрики с помощью квадратного корня. Такую величину мы назовем стандартное отклонение.
Чем больше стандартное отклонение, тем больше наблюдений находится далеко от среднего.
А если наши данные, например, рейтинг успеваемости студентов ВШЭ, а наша задача раздавать лучшие курсы только лучшим студентам пропорционально количеству обучающихся на программе?
На помощь придут проценты. Пусть если наш студент особо отличившийся, то ниже него по баллам будет находиться 90% остальных студентов, а выше — 10%. Таким образом, мы подошли к новому понятию — перцентиль.
Допустим, мы хотим узнать число, которое делит данные так, что меньше него 30% наблюдений, а больше 70%. Такое число мы назовем 30-ым перцентилем.
Получается, что в нашем абстрактном примере с ВШЭ студенту, чтобы получить лучший курс, нужно иметь перцентиль не меньше 90.
Есть и такие смежные понятия, как квартиль и квантиль. Квантиль по своему смыслу работает, как перцентиль, только нормируется от 0 до 1. Квартилями же называют значения, которые делят наблюдения на четверти, то есть это 25-ый, 50-ый, 75-ый и 100-ый перцентили.
Что показывает график распределения?
Большое количество графиков в нашем канале является графиками распределения. Например, этот:
График распределения показывает плотность вероятности данного значения переменной. Чем выше значение, тем вероятнее встретить данное значение.
На картинке выше показан график плотности вероятности, но есть и более простой для осознания график — гистограмма. Если наложить на него график плотности, то рисунок будет очень схож.
Гистограмма показывает частоту попадания значений переменной в определенные интервалы значений, что делает ее очень наглядной и удобной формой визуализации распределения.
Виды распределений. Нормальное распределение.
Распределения могут подчиняться разным законам: нормального распределения, распределения хи-квадрат, распределения Фишера и другие. Распределения таких видов имеют формально заданные формы. Самое известное распределение — нормальное.
Нормальное распределение — это распределение, у которого отклонения от среднего равновероятны и подчинены определенному вероятностному закону.
Большое количество величин в нашем мире распределены нормально: рост людей, баллы егэ, зарплаты и тд. Главное, что чем дальше от среднего, тем менее вероятно встретить такое значение. Например, если значение отклонилось от среднего более, чем на 2 стандартных отклонения, то вероятность встретить его всего 5%.