February 12, 2019

ГС партван

Подкинули мне тут интересную задачку: необходимо по фану рассчитать вероятность попадания в Госсовет РТ исходя из минимума исходных данных. Вобщем аналог тупорылых тестов на политическую принадлежность и прочие малозначимые выдумки для развлечения офисного планктона во время тяжелых трудовых будней.

Сразу скажу, что в школе нас этому не обучили пока, поэтому все будет ниже будет сугубо представления дилетанта, вооружившегося википедей и гуглом. В связи с ограниченным количеством исходных данных, точность вычислений плюс минус километр.


Исходными данными являлись декларации наших депутатов госсовета. На сайте опубликованы декларации за 2017 год, из них 2 человека я так понял прошли в госсовет недавно и у них деклараций пока нет. 98 человек не такая уж и хорошая выборка, но что имеем. Будем считать, что избранники народа это достаточно показательный срез общества.

Для начала надо немного пояснить, о чем тут вообще будет рассказано. Статистика работает с большими массами, и все кто туда попадают обезличенные. То есть мы не будем показывать пальцем и говорить кто сколько получает. Во всяких статистиках удобно использовать функцию распределения вероятности в википедии сложно, поэтому на пальцах про гистаграммный метод. Вот у меня есть файлик с семейным доходом депутатов. Из него я вижу, что максимальный доход составляет что то около 6*10^8 рублей. Я делю этот диапазон на равные части и смотрю сколько человек попадает в каждую часть. Грубо, от 1 млн до 2 млн доход имеют столько-то человек, от 2-х до 3-х млн столько то и так далее (такое в школе на биологии делают).

В нашем случае диапазоны надо делать большими потому что данных мало. Собственно вот что получается если представить это на графике:

Тут по оси х годовой доход семьи, по у — сколько человек имеют такой доход. Графи на самом деле нифига непонятны, потому что нам пришлось увеличить ширину тех частей, на которые мы делили. Более понятные данные можно получить если такое же распределение построить относительно десятичного логарифма от дохода. Вспоминая бородатый анекдот про «это цены или номера телефонов», логарифм от дохода показывает сколько ноликов в доходе: 100 это два нолика, 1 млн — 6 ноликов.

Из этой картинки можно понять, что большая часть депутатов имеет доход порядка 10^7 рублей (10 млн). Отклонения от этой величины больно похож на купол нормального распределения

Так как мы нанесли на логарифмические координаты: то итоговое распределение доходов подчиняется логнормальному распределению.

Собственно уже позже я нашел вот эту книжку там прямо черным по белому:

Логнормальное распределение используется для описания распределения доходов, банковских вкладов, месячной зарплаты и т.д.

Ну и еще та данные, которыми я содержали даты рождения. Поэтому тут я нарисовал гистограмму логарифма доходов от возраста:

светлее свет — тем больше человек в данном возрасте с данными доходами. По этой картинке делать выводов не буду.

Про среднее

Использовать распределение величины более информативно, чем любимое чиновниками и сми среднее значение. Есть куча шуток про среднюю температуру по больнице, голубцы и прочая пошлятина. Однако кроме среднего есть еще парочка простых, но в то же время уточняющих вид распределения величин: медиана и мода. В нерусской википедии я нарыл годную картинку:

Мода показывает наиболее вероятное значение дохода. Медиана, это такая величина дохода, если мы разделим всех граждан, то половина из них будет получать доход больше. Вторая половина соответственно доход больше. Аналогия с весами, бы на одну чашу вставали у кого доход больше какой то величины, на другую чашу у кого меньше; и весы бы уравновесились. То эта величина и есть медиана. Среднее значение проще с точки зрения математики все сложить и поделить на количество человек. Ну или по аналогии с весами: единственное отличие в том что мы бы не сами на весы вставали, а сложили заработанные деньги. С одной стороны у кого больше средней, с другой у кого меньше. Ну тут естественно что тех у кого меньше доход тем больше чтобы весы уравновесились.

Для нашем случае проблематично определить моду, потому что ее надо из распределения находить, а у нас статистики мало. А все остальное найти не проблема: средний доход депутатов 4.153 10^7 рублей, медиана 1.00*10^7. Уже видно, что среднее значение от отличается от медианной в 4 раза. Например из недавнего интервью Гафурова о ЗП в КФУ и средней зарплаты в 70 к, то вероятнее всего если туда устроиться работать получать будете раза в 4 меньше.

У логнормального распределения есть два параметра, тесть числа которые характеризуют поведение кривой распределения. Формулы приводить не буду, можете найти их тут .

Скажу лишь грубые интерпретации этих чисел: параметр мю показывает столько ноликов будет в медианном доходе, сигма показывает насколько сильно происходит расслоение на бедных и богатых. Исходя из медианы и среднего значения я нашел такие значения мю = 16.123 (там в формуле натуральный логарифм, если перейти к десятичному для подсчета ноликов то их будет 7), сигма = 1.684184.

Теперь можно построить распределение которое мы получили по нашим параметрам:

видно, что пики доходов депутатов не совпадает с пиком который мы построили. Интересно что мода данного распределения 589729 р. То есть получилось, что наиболее вероятно в семье из двух человек с детям (они ж доходы не получают, так что без разницы сколько их) зарпалта в месяц 25к рублей, что для 2017 года таки полагаю вполне реальные циферки.

Ну и естественный вывод, что таки доходы депутатов в среднем чуть больше чем на порядок выше.