О Нумерологии - продолжение

После моего предыдущего разоблачения гребенок Чурова армянское радио спрашивают мне пишут, по смыслу примерно такое:

Алексей, а почему вы взяли ширину бина (ячейки гистограммы) 0.1%, там же будет сплошной шум, на фоне которого ничего не видно. Открыватели гребенки Чурова брали 0.5% и у них все получилось, а пика на 66.7% - наоборот, не получилось.

Отвечаем:

I. Я, собственно, ловил именно пик на 2/3 (66.66(6)%), как имеющий (скорее всего) естественное происхождение, потому и взял такой бин.

При ширине бина гистограммы в 0.5% поймать пик на 66.7% очень трудно, ибо и сам пик на 66.7 и провалы перед ним и после него на 66.5, 66.6, 66.8 и 66.9 попадут в один бин гистограммы и взаимоуничтожатся. Потому то у открывателей гребенки и не получилось пика на 66.7.

II. Но я не гордый, данные с бином 0.1 уже в Экселе, их можно просто поскладывать по 5 штук и получить гистограмму с бином 0.5. Вопрос только в том, как располагать бины гистограммы, ведь есть варианты:

  1. "Надпись - слева от бина". Т.е. бину "50%" соответствует диапазон 50.0%-50.49(9)%. Это - обычный способ построения гистограмм и, скорее всего, "гребенка Чурова" получена именно так.
  2. "Бин - слева от своей надписи". Т.е. бину 50% точно отвечают значения от 49.5000(0)1 до 50.0.
  3. "Надпись - посередине бина". Т.е. бин "50%" охватывает диапазон, скажем, от 49.8 до 50.29(9) (лучше было бы от 49.75 до 50.249(9), симметричнее, но у меня исходные данные уже насчитаны с шагом 0.1 и быстро так не сделать).
Я, повторяю, не гордый и опробовал все три способа. И вот что получилось для диапазона 45-55% голосов за ЕР:
По оси X - количество голосов за ЕР в процентах.

По оси Y - количество УИК с таким числом голосов. Для синей линии (та же, что на графике в в предыдущем посте) с шириной бина 0.1% - просто число УИК в этом бине, для всех остальных - поделено на 5, чтобы вертикальный масштаб был одинаковым (при бине 0.5 в каждый бин попадает впятеро больше комиссий, чем при бине 0.1%, который в 5 раз уже).

Итак, что мы видим:

  • Синяя линяя - это гистограмма через 0.1%, мы видим большой провал на уровнях 49.8, 49.9 и 50.1 и, соответственно, пик на 50.0.
  • Фиолетовая линия - это "гребенка Чурова" на отметке 50%. Вроде бы, действительно, перед 50% - провал, на 50 - пик, дальше небольшое падение.
  • Болотная линия с красными квадратиками - второй вариант построения гистограммы через 0.5%, видим пик на ровно 50 и провалы по обе стороны, втч. провал слева.
  • Зеленая линия с зелеными квадратиками - центрированная гистограмма. Я, если честно, на ней вообще никаких чудес не вижу.

Так почему же на зеленой линии скачков нет, а на остальных - есть? А очень просто, результаты голосования "около 50" тяготеют к "ровно 50%" (ровно 50 дадут 10 из 20 или 100 из 200 или 853 из 1706; а получить диапазон 49.9-49.999 можно куда меньшим числом способов). На гистограмме с нарезкой 0.1 мы видим провал шириной 0.2% перед пиком и шириной 0.1 после пика, собственно пик собрал всех соседей в себя. На гистограмме с нарезкой 0.0001 мы увидели бы массу нулевых значений, никакой участок не способен дать 49.9994 ровно, для этого там должно быть слишком много избирателей, столько не бывает у нас.

Если мы проводим границу ячейки гистограмму точно по границе 50% (неважно, справа или слева), то в одну ячейку попадут пик и один или два провала, а во вторую - только провал (или два). "Гребенка Чурова" - это два провала на 49.8 и 49.9 в ячейке 49.5-49.999(9) и пик на 50.0 + провал на 50.1 в ячейке 50.0-50.4999. Болотная линия - это два провала ниже 50+ пик на 50.0 ровно в ячейке 49.5000(1)-50.0 и провал на 50.01 в следующей. А зеленый график - объединил пик и провалы вместе и выяснилось, что они взаимоуничтожились.

Повторю зеленый график (центрированная гистограмма) отдельно в том же масштабе для наглядности:

Есть тут странности или "следы вброса до 50%"? Я их не вижу. Совсем.

Ну то есть если и были какие-то "накрутки до круглого процента 50%", то в значимом количестве они были только для диапазона 49.8-49.999(9), т.е. микроскопические и никак ни на что не повлияли. Но скорее всего "накрутила" все целая арифметика, сама, в силу устройства. А то ведь придется предполагать и обратные накрутки, в минус, с 50.1 до 50.0.

Да, мы видим что на 49 и 49.5 ниже чем на 50, но аналогично на 47.5 и 48 - ниже чем на 48.5. Я бы сказал, что все в пределах разброса.

Мораль

  • Тему с "гребенкой Чурова" как "НЕОПРОВЕРЖИМЫМ СВИДЕТЕЛЬСТВОМ ФАЛЬСИФИКАЦИЙ" я предлагаю считать закрытой как минимум для 50% пика. Да, там есть пики дальше (60, 75), но я надеюсь, что их обработают без меня тем же способом.

    И если высоченный пик на 50% исчез без следа после аккуратной обработки, то скорее всего и менее высокие пики на 60, 75 и т.п. окажутся или микроскопическими, или вовсе отсутствующими.

  • Обработчикам данных с выборов надлежит быть аккуратнее. Выборы - штука принципиально целочисленная и неучет этого обстоятельства может больно укусить.

Update: прислали ссылку: если зафильтровать мелкие участки за дробность и нарисовать правильно бины, то остаются пики на 75 и 95% вот этот график. Цифра 200 по оси Х, насколько я понял, это не проценты, а номер бина для перехода к процентам надо на два поделить. Там же есть пики помельче, на 70, 65 и, отчего-то, 52%, но они разумные. А на 75% и 95% - да, похоже креативно подливали (что, впрочем, мы и так знаем про Чечню и про всякий Кавказ, где 75+-капелька - очень часты).

Comments

Спасибо за всю серию статей.

Я вообще не представляю, как УИК на местах может нарисовать круглые проценты? Они же сообщают в центр не проценты, а число проголосовавших, и если фальсифицируют (как пишут в интернете), то подправляют число голосов в протоколах.

Вопрос: ну неужели кто-то в УИК сидит с калькулятором и высчитывает, сколько голосов нужно нарисовать ЕР, чтобы получилось ровно 60.0% ?!?

не, ну если им дали команду "тяните до 66.6, ибо это число зверя!", то могли и с калькулятором.

... Что, в свою очередь, демонстрирует куда большую проблему: если уж население, которое знает, что такое "бин" и может написать фамилию "Гаусс" без ошибок, не в состоянии наморщить лоб и понять, что результат любого статистического исследования является результатом как очевидных, так и неочевидных закономерностей и обстоятельств, то о каком вообще ответственном выборе можно говорить? То, что люди хватаются за эту самую гребенку, всего лишь способ подтвердить околонаучно тезис "если я не голосовал за ..., и мои друзья - тоже, то почему ... выиграло?", который некоторые даже не стесняются высказывать.

Как я уже писал: в день когда случилась первая истерика с ленточками в онлайне (в прошлый четверг, кажется) и они лезли отовсюду, как в тексте, так и в виде кляксы на аватарках и т.п. - я вышел в люди, поехал побухать с друзьями, на метро. И в метро их (ленточек) не было.

Все-таки FB-шечка-ЖЖ-шечка-ВК-онтакточка - это довольно узкий круг. Да, в нем может быть мало за этих, но жизнь то богаче.

Ну вот да, "бытовая статистика". Люди очень склонны воспринимать привычное, как всеобщую норму. Даже если образование и профессия учат их совсем иному, потому что проф. деятельность - это как-бы отдельный мир. Я всем всегда привожу чудный пример: на, четвертый курс в мою группу перевелась отличница-медалистка из другого города. У нее за плечами были курсы теории электроцепей, физики, электроники. И после сдачи лаб по охране труда (куда включалось физическое объяснение принципа устройства электроустановок для защиты людей от удара током, который она прекрасно рассказала преподу и даже ответила на доп. вопросы на понимание) в коридоре она с полной серьезностью сказала: "А вы знаете, что нужно сделать с человеком, если его все же ударило током? Его нужно присыпать землей, чтобы из него ушло электричество." Шуткой это не было. Наука и теоретическое мышление - отдельно, быт и эмпирическое - отдельно, как показывает практика.

Обработали. Никуда пики не делись.

http://kobak.livejournal.com/102646.html

Ага, да, 75 и 95 из некоторых республик. См. апдейт с другим вариантом той же идеи - там нету пика на 65.

картинка кажется прошла почти незамеченной, а она на мой взгляд показательна. Гистограмма по количеству избирателей (проголосовавших?), а не по количеству участков с определенным процентом Едра. Плюс исключены мелкие участки. То есть минимизировано влияние деления целого на целое

Пик на 50% почти не заметен, зато пики на 65% и далее каждые 5 процентов (плюс пик на 74%) хорошо видны

http://peregrins.com/elect/all_edro_w.png
(полностью пост - http://eugenyboger.livejournal.com/4664.html)

Ну подожди, по оси X - % голосов за ЕР. Это же "процент голосов на участке"? Собственно, а где еще....

То есть деление целочисленное - никуда не делось. Гистограмма взвешена на размер участка, а не на их количество, а вот границы бинов надо бы проводить вдумчиво, а не как обычно (а провели бы вдумчиво - на 50 не было бы ступеньки)

Целочисленное деление осталось, но минимизировано. Потому как исключены участки менее 100 человек (где максимальная вероятность целых процентов) и потому как на этом графике вес участка с 100-200 избирателями (на котором также достаточно велика вероятность целых процентов) в 15 раз ниже веса участка с 1500-3000, на котором вероятность целых процентов уже пренебрежимо мала (при 1500 голосовавших в каждый бин 0,5% попадает по 7,5 исходов плюс/минус 0,5)

ступенька на 50% тут есть, но она невелика - в относительных значениях сильно меньше, чем на 65%
более того, обрати внимание - тут не короткий пик, а именно ступенька с максимум от 50,0% до 51,5% и повышенной частотой влоть до 54%. Следующее из этого бездоказательное утверждение - на уровень в 50% ЕдРо натягивали в продвинутых городах, где интеллектуальный уровень людей в ТИКах и УИКах существенно выше, чем в глухомани, и они понимали, что 50,1% выглядит подозрительно - поэтому многие тянули до 51-53% или даже до 55-56%

https://lh4.googleusercontent.com/-pYCAs7LrNxA/TuYcPl73CAI/AAAAAAAADP4/4...

Как и следовало ожидать, пропали пики, перед которыми были провалы, их питавшие. Где провалов не было - пики остались.

Именно так. Интересно, кстати, что этих чуровских пиков нет на выборке по участкам с числом бюллетеней менее 800. Ну, точнее, на 95% что-то есть, но в остальном - никакого волшебства. А вот если обработать остальные участки (800+), то гребенка Чурова вылезает во всей красе:

http://www.ljplus.ru/img4/a/l/algen/Grebenka_Churova.png

Оно и естественно: проще и эффективнее организовать подтасовку на крупных участках, чемс возиться с мелочевкой по всей стране.

75% не из "некоторых" республик, а отовсюду: от Москвы до Якутска. Без Бакирии, конечно не обошлось, но она не доминирует. Южных чечено-дагетнаских республик нет вообще - они на такую мелочь, как 75% не размениваются.

95% - вот тут южан побольше, но тоже далеко не поголовно.

65% - нк как же нету, когда есть. В 135-136 бинах совершенно четкий вспеск. На графике по крупным участкам там подскок в 1,5 раза, на со 140 на до 210 пунктов. В то время как дисперсия должна быть на уровне 12. То есть тут почти 6 сигм да еще и в двух бинах подряд.

Леха, а не пробовли бутстрап ?
Для проверки устойчивости статистических выводов в условиях невозможности повторения экспериментов, как у нас в астрономии, обычно используется бутстрап анализ. Грубо говоря, случайным образом (или еще каким) выбрасываем точки и повторяем анализ, если статистика надежная, то картина не меняется, если вдруг все начинает плыть, то грош цена исходным данным и нечего разводить науку. Повторив эту процедуру 10000 мы имеем, таким образом, 10000 разных реализаций, соотв. можем оценить всякие статистические величины и их ошибки, что весьма важно.