Методичка на выборы

Добрый день. Я тут на зимних каникулах решил продолжить рисерч. В режиме слоупока я спарсил данные по выборам в Госсвет РТ, но меня тут грузили уроками. Поэтому руки до этих данных дошли только сейчас. Как и в предыдущие разы про Госсвет, показанные картинки и выводы являются личным моим мнением и не претендуют на достоверность. Вощим, к делу.
Так получилось, что кореша постарше (возрастом а не головой) и которые 18+, таки сходили на выборы. Из них никто не проголосовал за Едро, поэтому я немного охренел от результатов и решил выяснить «а как там все на самом деле». Сели мы с Юлькой, начали смотреть на циферки и делать всякие разные выводы.
Немного по структуру данных, которые я вытаскивал. Голосование проходит на УИКах (участковые избирательные комиссии), потом для каждого района (в больших городах еще делят на комиссии) все суммируется, потом уже все суммируется для РТ в целом. Примерно то что можно вытянуть выглядит вот так.


Для начала посмотрим на количество голосующих человек на каждом УИКе.

Рисунок 1. Гисторамма распределения количество УИКв от количества зарегистрированных на нем человек.

Видно,что пик приходится на участки размером 300-500 человек. С 700 человек распределение существенно не меняется.

Ну а теперь представим, что папка дал мне задание обеспечить максимальное количество голосов для Едра. Не будем вдаваться в техническую реализацию, но существует 2 варианта: нарисовать голоса за Едро и посчитать голоса от других партий как за Едро. Вот эти два варианта мы и будем рассматривать.

Все мы видели видосики в ютубах как моя (или не моя) математичка подходит к ящичку и проталкивает туда стопочку бланков. Мне не ясна их мотивация, скорее всего спустил директор, а директору спустил еще кто-то, не важно. Ща будем думать к чему это приводит. Естесно, что математичка вбросит ну раз какое-то количество листков, ну два… Но вбросить несколько тыщ листов уже проблематично, во первых зодолбаешься там галки рисовать. Во вторых задолбаешься их засовывать. К чему это приводит — количество вбрасываемых бюллетеней не может быть очень большое. Я вообще склонен считать, что они примерно одинаковое. Размеры УИКов разные, поэтому одинаковое количество вброшенных бюллетеней будет по разному влиять на долю. На небольших УИКах такие выбросы будут сильно увеличивать явку и увеличивать долю голосов за Едро.
Давайте глянем, подтверждается ли моя догадка.

Рисунок 2. Зависимость доли проголосовавших (в %) за Едро от явки (в %) на избирательный участок, цветом обозначено количество человек на избирательном участке

Даже без линии тренда видно, что с увеличением явки существенно возрастает процент проголосовавших за Едро. Цветом обозначено количество человек на УИКе, видно, что верхний правый угол, где большинство проголосовавших за Едро синее, тоесть это участки с небольшим количеством человек.
Также зависимость между явкой и количеством проголосовавших пожно проследить через коэффициент корреляции.

На следующем рисунке те же яйца, только в профиль.

Рисунок 3 Зависимость процента явки от количества человек на участке, цветом показана доля проголосовавших за Едро.

Вывод из рисунка 3 такой же – левый красный угол.
Ну и посмотрим на другие партии:

Пенсионеры
КПРФ
Фейлокомунисты
ЭсЭры
Партия Роста
ЛДПР

У этих посанов вообще все плохо, с ростом явки доля проголосовавших за них снижается.
Ну и до кучи я разбил УИКи на размеры и провел анализ отдельно. Вот например гистограммы явки избирателей:

Рисунок 4. Гистограмма распределения количества УИКов от процентной явки избирателей для УИКов с количеством человек до 500
То же самое но в диапазоне от 500 до 1000 человек
1000-1500 человек
1500-2000 человек
2000-2500
2500-3000
3500-4000

Из этой кучи графиков понятно, что на больших участках доля явки уже имеет более равномерное распределение. И не так режет глаза как первый график.
Ну и процент проголосовавших за едро от явки:

Рисунок 5 Доля проголосовавших за Едро от явки избирателе в % для УИКов с количеством человек до 500
То же самое для УИКов от 2000 до 2500 человек

Все показывать не буду, но тенденция понятная, доля проголосовавших снижается.

Ну для самых маленьких, кто не учился в школе. Допустим вот живет у нас 75% тех кто голосует за Едро. Но чисто по статистике не могут они жить все рядом около небольших УИКов и все вместе поголовно ходить голосовать. Мы не выбираем место жительства из политических предпочтений, и место жительства никак не должно оказывать влияния на то за кого я голосую. Много слышал про «а ты видел какая явка в районе?» и бла бла бла. Ну не должно это так работать. Даже если явка есть, то какого хрен они все голосуют за Едро?
Если исходить из моих представлений распределение доли проголосовавших не должно зависеть от явки, распределение должно быть близко к нормальному.

Рисунок 6 нормальное распределение со средними значениями в области официальных результатов

Вот по типу рисунка 6 все должно быть, только разброс больше ибо случайный процесс и еще размеры УИКов разный. Кстати коэффицнет корреляции для данной картинки -0.008, тесть доля голосов не зависит от явки.

Собсно из этой предпосылки я буду исходить, чтобы исправить ситуацию необходимо как то снять голоса, чтобы убрать линейную зависимость на рисунке 2, у снизить коэффициент корреляции. Я опробовал множество вариантов, суть происходящего не меняется, я просто покажу на одном из наиболее адекватных примеров. Необходимо снять голоса вбросов, для этого я снимал голоса с Едра пропорционально двум факторам: рандомному числу (ибо все у нас случайно, я хз кто там сколько вбросил) и построеной на рисунке 2 линии тренда. Получилось как то так. Для данных с явкой ниже 70 я не вносил изменения.

Рисунок 7 Зависимость % голосов за едро от явки с использованием модифицированных данных из которых «я убрал вбросы»

Видно, что то синее пятно в углу размазалось до явки почти в 40%. Все остальные варианты которые я попробовал приводили к такому же результату – данные просто сдвигались влево снижая явку. В принципе стало лучше, что также видно по коэффициенту кореляции. Но я думал, что снижении явки Едра как то снизит его долю и изменит ниспадающий тренд для остальных недопартий, но нифига.
Причиной того является правильный подсчет голосов. Голоса из других партий просто перебрасываются в Едро. И без обратной переброски голосов в другие партии равномерного распределения не получить. Такой метод существенно проще ибо не надо палиться на камеру, то же мне сказали знающие люди.
Поэтому для УИКов, в которых доля голосов превышала 70% я перекинул рандомно от 5 до 45 % голосов равномерно другим партиям.

Рисунок 8 Зависимость % голосов за едро от явки по данным «без выбросов и перекидывании голосов»

Вот рисунок 8 и коэффициент корреляции у меня бы не вызвал подозрения. Кстати я перекидывал равновероятно в связи с чем самое днище из партии роста получили аж положительную корреляцию. Это в принципе неправильно и надо менять пропорции, но мне пофиг кто там что получил.
вот такая теперь партия роста.
Ну и по скорректированным данным явка составляет 57% и вот такое распределение голосов.

Что надо делать чтобы всякие школьники не ковырялись в данных и не докапывались до нелепых цифр.


  1. Не наебывать, ахахаа. Но чую я в свете непопулярных решений партии на всех фронтах, беззубости госовета всяких отморозков угрожающих депутатством и еще куче причин нихера не получится не наебывать.
  2. Лучше планировать сколько и куда вбрасывать, эти цветастые пятна со 100% голосованием за едро это какой-то пиздец. Вбрасывать надо пропорционально количеству челяди зареганой на ЦИКе. Если известно что оппы ставят хороших наблюдателей – надо проводить работу в данном районе. Ну там падики почистить, каких-нибудь тимуровцев из юнармии нагнать пусть подметают, ходят чаи пенсам носят и прочее. Нехай там дочки-сыночки но не только же им по селигерам развлекаться.
  3. Из пункта выше, надо вообще как то заранее планировать насколько придется наебывать. Я уже виду картину маслом, как главарь банды дает указание узнать рейтинг едра. Исполнитель такой «ай ай, если я им данные плохие про едро принесу они потом мне не дадут работу», или на местах уже «если плохие циферки принесем значит подумают что мы просто так в носу ковыряем». Я думаю там ситуация не лучше чем в росстате, они там тоже любят формулы на ходу менять.
  4. Бесплатный транспорт таки хорошо, но что за днище концерты? Привезите металлику! Дешманская картоха это конечно хорошо, но я бы раздавал бесплатно. А еще бесплатное пивко, благо белый кремль и все такое. Ну и голосовать могут только с 18 так что все нормас.

Хотел было написать инструктаж для оппов но лень…

Есть еще пара идей что посчитать из того что я напарсил ну и однокласник у меня сегодня подушил питона и спарсил дату по одномандатным округам, так что ту би континуед

Рисерч выполнен школьником с юлькой, при поддержке института ЭКСТРАСЕНСЕКСОПОЛИТОЛОГИИ РТ