О гауссиане

А еще в текущем моменте меня удивляет, с каким энтузиазмом образованные люди пересылают друг другу ссылки про математическое доказательство существования диавола гауссиану известно в каких графиках.

Ну включите ум, ну откуда там гауссиане взяться?

Update (для тех кому лень задуматься):

  1. Гауссиана симметрична, т.е. неправильно (для статистики по выборам) ведет себя, к примеру, около нуля. Ну вот допустим есть партия А со средним по стране 3% и выплесками до 10%. Столько, сколько выплесков на +7, столько же должно быть и на -7. Т.е. до -4%.
  2. Логнормальное распределение ведет себя приемлемо около нуля, но опять будут выплески "за 100%", причем они будут в логарифмах т.е. по величине - гигантские.
  3. На взгляд, не похоже, что можно подобрать такие ~10 гауссиан (7 партий + испорченые + потеряли + что еще там бывает), чтобы их сумма в каждом участке была бы ровно единицей (100%).
  4. Распределения с несколькими пиками вполне могут быть, если есть несколько социальных групп, голосующих сильно по-разному. См. Израиль.
Да, я не пытаюсь опровергнуть (или доказать) приписки, нечестный счет и все такое. Просто гауссиана к этому месту гарантировано неприменимма.

Update: продолжение тут

Comments

А что не так?

всё так. формулировка неверна. т.е. никаких доказательств, основываясь только на виде распределения делать нельзя. а зная наших чинушей - они скажут, что это лженаука и "подозрительную" разницу в распределениях для разных партий даже во внимание принимать не будут :)

Отношение определяет не один график, а совокупность факторов: и тех что были до выборов и тех, что после. Лично меня очень завели новости в СМИ (не интернетных). Типа: нашли тигренка - самое интересное что произошло. А бронетехника на тверской - ну кого это может заинтересовать, в самом деле?

Да, отношение определено уже давно, гауссовское распределение виновато или какое-то другое :)

Вместе с тем, вчера вот в ФБ и вообще вокруг (в интернетах) началась истерика про белые ленты. Днем.
А вечером я поехал в народ побухать на корпоративе одной дружественной компании. На метро. Туда - в час пик, вечером - тоже не пусто еще было.
Так ведь ни одной ленточки не видел. Совсем ни одной, специально высматривал.

Ну и? Я тоже белые ленты не нацеплю ибо тупак какой-то.

Я к тому, что "новостная картина" (точнее, бурление) в интернетах и вне их - сильно отличаются. Очень сильно.

Я вижу 3 картины: "телевизор", "интернеты", "рассказы очевидцев". Они сильно отличаются и мне не нравится отличие картины "телевизор" от картины "рассказы очевидцев".

Нет, я допускаю, что меня окружают вруны, а телевизор глаголет истину, такая вероятность есть.

А мне не нравятся все три (попарных) отличия.

У меня как у налогоплательщика есть 2 вопроса: почему бронетехника на тверской и почему об этом не сообщают по федеральным каналам.

см. апдейт.

Должно быть распределение без хвостов (т.е. НЕ гаусс), причем такое, чтобы сумма ~10 (или вообще лююбого количества, на самом деле) могла бы дать единицу.

Там 2 графика, в каком ошибка? И на сколько я понимаю, изобличающий график не должен и не имеет гауссианы

Ошибка не в графиках (которые, какбэ, первичные данные), а в интерпретации. Вот из Каганова, например
===
В нормальном распределении такой график всегда имеет форму колокола. Всегда. Во всех случаях, когда действует не один фактор, а множество. Что бы ни измерялось на больших количествах. Постройте график, сколько миллионов мужчин в стране имеют рост 165, 170, 175 см. и т.д. и тоже получите симметричный колокол с верхушкой, соответствующей самому типичному росту в стране:
====

Оно для роста, кстати, тоже не работает.

а почему бы там не взяться распределению, схожему с распределениями в других странах или хотя бы у других партий, в другое время? или есть теория, каким такое распределение должно быть в идеале?

говорят логарифм от гаусины.

ага, спасибо за ссылку с ликбезом, интересно

И если у какой-то партии среднее скажем 80% с минимальными значениями вниз вдвое (40%), то пик вверх будет тоже вдвое, до 160?

я не настоящий сварщик.

Логнормальное - это нормальное, но для логарифма величины. И в этих координатах - симметричное. Т.е. выбросов вдвое вверх (на единичку в двоичных логарифмах) будет столько же, сколько вдвое вниз (тоже на единичку).

но не в логорифмических координатах -- не симметричное, верно?

Ну естественно. Потому что в нуле честно упрется в нуль (точнее, ровно нуля не будет, будет всегда чуть больше)

То есть я даже раскрою свой вопрос (так как статистику последний раз видел в на экзамене по матану): откуда берутся пики на "красивых" цифрах и почему голоса за одну партию распределяются иначе, чем за все остальные?

ответ на второй вопрос ищется не в матане, а в социологии.

http://svshift.livejournal.com/108187.html?style=mine

пики частично могут объясняться эффектами округления -- на участке в 20 рыл любой расклад будет кратен 5%. но это частично

Ну как бэ не будучи социологом, но работая по долгу службы с людьми я тебе могу ответственно сказать:

- по ссылке очень эмоциональный стиль изложения, который очень зашумляет мысль, которую хотел донести автор текста. Самое интересное с моей точки зрения: пики на красивых цифрах, он объяснить не может.
- явка более 90% у нас как раз там, где ее любой социолог легко объяснит понятно как. Из общения с людьми на местах я знаю, что на выборы понятно где реально ходит около 10% населения. Может врут, конечно.
- если таки открыть PDF'ы, на которые он приводит ссылки, то графики там похожи на те, которые хотят в Эсквайре, а не на те, которые показали ЕР. На мой неискушенный взгляд.

Ну и из опыта коллег, которые ходили наблюдателями, я могу сделать некоторые выводы сам, без графиков.

по ссылке очень эмоциональный стиль изложения, который очень зашумляет мысль, которую хотел донести автор текста. Самое интересное с моей точки зрения: пики на красивых цифрах, он объяснить не может.

пилять, все кончится тем, что я сам высосу цифры с сайта, что бы посмотреть детали.

явка более 90% у нас как раз там, где ее любой социолог легко объяснит понятно как. Из общения с людьми на местах я знаю, что на выборы понятно где реально ходит около 10% населения. Может врут, конечно.

ничего не понял. в войсках ходит реально на выборы 10%? или что?

если таки открыть PDF'ы, на которые он приводит ссылки, то графики там похожи на те, которые хотят в Эсквайре, а не на те, которые показали ЕР. На мой неискушенный взгляд.

искушенный взгляд -- это очень существенно.
смотреть надо уметь.
я это по своей области знаю.

Ну и из опыта коллег, которые ходили наблюдателями, я могу сделать некоторые выводы сам, без графиков.

и какие?

> ничего не понял. в войсках ходит реально на выборы 10%? или что?

В войсках реально на выборы ходит около 0%. В больницах тоже: коллега рассказывает, что ее тете просто пришли и сообщили радостную весть как все отделение уже проголосовало. В чечне реальная явка по словам очевидцев около 10%. Ну и так далее.

> и какие?

Вряд ли все мои коллеги и знакомые, которые сходили работать наблюдателями и сообщали о вбросах врут или попали именно туда, где были нарушения (а в остальных местах их не было). Скорее всего они видели типичную картину.

Вряд ли все мои коллеги и знакомые, которые сходили работать наблюдателями и сообщали о вбросах врут или попали именно туда, где были нарушения (а в остальных местах их не было).

так что они сообщают?

Скорее всего они видели типичную картину.

и как она выглядит?

Ты меня зазергать требованиями все новых подробностей хочешь?

Я знаю то, что знаю: люди, которым у меня нет основания не верить сообщили мне о вбросах. Некоторым вбросы удалось предотвратить, некоторым нет. Ты можешь тут меня 3 раза переспорить, но они мне это рассказывают и я склонен им верить. Возможно я окружен врунами, ОК.

Ты меня зазергать требованиями все новых подробностей хочешь?

да я от тебя вообще ничего пока не услышал.
ни-че-го.
тебе рассказывали знакомые. а что расскаывали -- не говоришь.

Я знаю то, что знаю: люди, которым у меня нет основания не верить сообщили мне о вбросах. Некоторым вбросы удалось предотвратить, некоторым нет. Ты можешь тут меня 3 раза переспорить, но они мне это рассказывают и я склонен им верить. Возможно я окружен врунами, ОК.

общественность жаждет жареных фактов, а ты только дразнишься и утаиваешь.

Чего тебе рассказывать? Рассказываю: знакомые (не из интернетов) участвовали в выборах наблюдателями. Видели вбросы, боролись с ними с разным успехом. Чего тебе еще надо? Номера комиссий? Фото-видео? Извини, не будет.

ну хотя бы сколько видели, сколько забороли, сколько не сумели и почему.

ну и заодно, вот тут http://vkontakte.ru/wall-32871530_28 описывается как человек заставил персчитать. твои знакомые вообще почесались?

пики частично могут объясняться эффектами округления -- на участке в 20 рыл любой расклад будет кратен 5%. но это частично

ну так эту мысль легко проверить

Ну давайте, покажите нам логнормальное распределение с двумя горбами:)

Логнормальное не подходит, будет хвост за 100%

Понятно, что для суждения о распределении нужна адекватная модель. Но гауссиана хороша именно тем, что примерно описывает ситуацию _отсутствия_ модели. При любом раскладе горб будет плюс-минус гауссов. Ну ЦПТ потому что. А если кто ищет строгого гаусса на таких данных ну буратино значит.

Хорошую модель, которая описывает выборы, я бы и сам почитал с удовольствием.

А где ты видишь "сумму независимых случайных величин"?

Я так понимаю, что основная претензия не в распределении голосов за ЕР по участкам, а в (линейной?) зависимости голосов за ЕР от явки.

Это - нормально. Т.е. вот гипотеза (которая выглядит разумно): избиратели "не партии власти" - более мотивированы дойти до участка. А у сторонников партии власти - мотивация сильно меньше. Кто-то дойдет, кто-то нет.

Тогда было бы наоборот больше явка, меньший процент за ЕдРо.

Да нет.
Ну вот представь, у нас есть 10% за А, 10% за Б, 10% за В, а остальные 70 в душе за Ы.
Избиратели А,Б и В на выборы придут в любом случае, их партии важен каждый голос. А избиратели Ы - как фишка ляжет.

Если Ы - не дойдут, то будет 33-33-33 при явке 30. Если дойдут все, то 10-10-10-70 при явке 100.

А. Пожалуй.

Так наоборот же вышло: чем больше пришло, тем больше за ЕР, нет?

Фраза "сторонник партии власти" в голове не укладывается.
примерно как "сторонник глобального потепления" или "сторонник поедания медвежат врослыми самцами белых медведей".

Почему бы не предположить, что 70% - сторонники ну там Яблока, но понимают, что власть нарисует себе любую цифру и не хотят тратить время?

Если рассуждать в терминах "нормальных выборов", то у "партии власти" - самая внятная экономическая программа, например. Она, хотя бы, есть.

Ну и как она исполняется последние 11 лет - ВПП удвоили, автомобили стали экспортировать, Кудрин героя соц.труда получил, Тутубалин купил смартфон Электроника-52С?

Власть существует сама по себе и для себя. Шоу с выборами - исключительно чтобы не арестовали счета в швейцарскиъ банках. Это, вроде, должен понимать любой человек, с уровнем интеллекта достаточным для освоения инструкции к холодильнику.

С моей личной колокольни оно выглядит так: я плачу 6% налогов, имею с государства устраивающий меня уровень сервиса, тенденция последних 11 лет меня устраивает куда больше, чем предыдущих десяти.

> Ну вот допустим есть партия А со средним по стране 3% и выплесками до 10%. Столько, сколько выплесков на +7, столько же должно быть и на -7. Т.е. до -4%.

Пожалуйста, раскрой эту мысль: то есть если в регионе А у нас +10%, то должен существовать регион Б с -10%?

Гауссиана - симметрична.
Отклонений на "две сигмы" в плюс - столько же, сколько на две сигмы в минус.

Извини, не понимаю мысли.

Ну я даже не знаю.
http://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%B9%D0%BB:Normal_distributio...

Симметричный график. Сколько отклонилось вправо ("на 2"), столько же и влево.

Ну да, это понятно. Понятно, что в реальности так не бывает: вон, видео по запросу "распределение гаусса" тоже показывает гауссиану "второй свежести".

В реальности есть проверка статистических гипотез. Но для начала неплохо бы иметь правдоподобную гипотезу. Гауссиана таковой не является.

Смотри вот город Шахты, график строил коллега за соседним столом, он там вырос:

Мы видим, что на половине участков (всего их 97 что-ли) максимальный результат и эти участки соседствуют с участками, на которых процент низкий. То есть люди из соседних дворов проголосовали очень по-разному, хотя Шахты - маленький город. Мне кажется это странным. Возможно я неправ.

Если бы была гауссиана, то был бы хвост до 120-130% или около того.

То что на выборах были нарушения - очевидно, они бывают везде. Достаточно ли они массовые, чтобы игру переиграть - уж точно не на митингах решать, там выборка еще более смещенная, чем в г. Шахты.

> Достаточно ли они массовые, чтобы игру переиграть - уж точно не на митингах решать

вот и спрашивается, почему вместо открытого диалога (хоть в каком-то виде) о том, как пересчитывать, что пересчитывать и в каких случаях, идет какая-то лажа?

Что еще более непонятно - механизмы выборов совершенствуются от раза к разу. Но, давно известные дырки с каруселями и вбросами че-то не затыкаются. О фишке с открепительными лично мне известно с 1999-го. С тех пор, вроде бы нет никакой проблемы протянуть онлайн в каждый участок, и обеспечить онлайн регистрацию явки. В итоге можно сделать так,
1. что бы открепительные *бумажки* были совсем без надобности - куда пришел, туда пришел, номер паспорта попал в базу, пометился "проголосовал"
2. считаем количество ведомостей в урне, смотрим сколько человек прошло через участок - не сходится - был левый вброс.

Вернее, это всё как раз понятно - движения в эту сторону нет потому, что дырки в механизме - это часть механизма управления.

Форма "открытого диалога" - это с наблюдатель с копией протокола - в суд (или в избирком более высокого уровня). И что-то я не вижу массового потока таких, хотя вроде и протоколы есть и на сайте цика - другие данные.

А так - любая электронная процедура (т.е. без формальной процедуры пересчета бумажек на большом столе) - потенциально легче фальсифицируется организаторами. "По паспорту" карусели будут куда проще, если существует секретная кнопка, позволяющая регистрацию в базе обнулить.

Туда же идут все простые способы проверки постфактум "ваш голос был правильно учтен" - как только это будет, так сразу торговля голосами приобретет невиданный размах.

говорят, что суды идут, да. А то, что не видно массового потока - это меня тоже удивляет. С другой стороны, есть рассказы, что протокол забирают и сваливают, и никакой особой управы на это нет.

Формальный пересчет бумажек убирать не нужно, да. Но оперативные электронные методы руления процессом и дополнительный контроль тоже ведь не внедряются.

Секретная кнопка при наличии нескольких партий не очень получится (или за неё передерутся :)))

Когда у каждого человека голос будет один, прямая покупка голоса окажется сильно дороже, чем сейчас вброс бюллетеней или подделка протокола за счет низкой явки и так далее. Сейчас это решается с людьми в комиссиях (председатель, кто-то из членов), плюс добровольцы в автобусе - небольшое количество людей дает большое количество голосов.

Конечно, как и в любом случае защиты, идеальной её нельзя сделать, но поднять цену пролома - можно. Сейчас цена не очень высокая, в виду того, что разнообразных дырок много, и опираются они на небольшое количество людей.

Вопрос же не в контроле как таковом, а именно в доказательствах для суда. Пока это копия протокола, оформленная по всей форме, задача заключается в получении этой копии, а не в чем-то еще.

А так - идей много можно накидать. Но идея обойтись без бланков строгой отчетности (открепительных и заверенных списков избирателей), только по паспортам, мне кажется удивительной

насколько я понимаю:
- основная точка отказа члены комиссии.
- сам протокол оформляется настолько, насколько это "нужно для суда". А вот уже проверить, что оформленные по всем правилам данные соответствуют действительности, довольно сложно.

В общем, глобально мысль я бы сформулировал так - нужны технические дублирующего механизмы контроля процесса на каждом этапе. С какой достоверностью они будут контролировать - решаемо, какие выводы из расхождения будут делать - тоже решаемо.

В суд, конечно, с документами и подписями, но есть подозрение, что сам факт наличия дополнительного технического контроля сильно поубавит количество желающих подделывать бумажки.

Как там, про гибдд рассказыали "денег я могу взять, но нужно делиться с тем парнем, который из компьютера фото удалит". А "те парни" - тоже под наблюдением всех участников выборов.

Ну я какбэ возражаю не тебе конкретно, а такой общепринятой в программистских кругах (Сегалович, скажем, недавно высказывался) точке зрения, что технический контроль решает все проблемы.
А на деле - решают все не процедуры, а люди. В данном случае - наблюдатели, которые должны быть умелые и стойкие.

Вместе с тем, я удивлен, что в интернете не появилась уже гора признаний "я член избирательной комиссии и видел ТАКОЕ!". Этих членов же - полмиллиона минимум (100 тыс участков, по ~5 человек в комиссии) и они при массовых нарушениях действительно должны были видеть такое.

да-да-да, именно люди. Но столько стойких людей найти - сложно. Поэтому основная идея, людей вооружить техническими средствами контроля, как минимум будет сильнее играть психологический момент - "обмануть машину сложно, всё много раз дублируется, поймают на нестыковках и накажут больно".

А стойких и грамотных - это еще сложнее ;(

Но глобально на вопрос ответ уже получен:
http://www.gazeta.ru/politics/elections2011/2011/12/09_a_3921406.shtml

"Но, несмотря на это, в финале заседания решение о признании выборов состоявшимися было принято членами ЦИК единогласно (15 голосами), то есть поддержали решение и члены оппозиции."

С глобальным ответом надо понимать, что всем основным участникам (помимо ЕР) такой результат более выгоден (чем более радикальные предложения). Сейчас они нарастили долю в думе преизрядно и уже с удовольствием делят портфели.

Перевыборы, что с тем же составом участников, что с предлагаемым "все партии разрешить и таки перевыборы" - это лотерея, которая может больно фигануть по любому (всем) участникам.

Вот они и предпочитают синицу в руках.

На самом деле, меня вот какой вопрос еще взволновал.

Допустим, мы обнаружили проблему. Ну, для простоты, выдано бюллютней на участке 100, а в урне нашлось 200. Дальше то что? Перевыборы по этому участку?

в законе N 51-ФЗ от 2005 г (как я понимаю более нового нет?), в статье 79 расписана процедура подсчета. Для переносных урн голосования сразу четко сказано, что если в списке меньше, чем в урне - вся урна считается недействительной. Для стационарных есть процедура проверки соотношений (79.21) разницу вносят в специальные строки 16 и 17 (утраченные и неучтенные), но сразу ничего не происходит. Всё так и уходит наверх, в ТИК.

А там уже могут решить чего делать, но я не нашел четких формулировок ни о признании недействительными, ни о повторном голосовании.

и эти люди...

Гауссиана в классическом виде , минусплюс бесконечность, симметрична. Как только ее нормируют на некоторый конечный отрезок - она соответствующим образом искажается, но не меняет своего характерного вида. Может быть отнормирована симметрично (типа 0.5 максимум и симметрично до 1 и 0), может несимметрично (от 0 до 1, но максимум на каких-нибудь 0.3). Ошибки округления-квантования - это выбросы около 0 и 1, нормально, и даже крупные выбросы на точно 0 и 1 вполне обьяснимы, но не такая кривая растяжка.

Как отнормировать бесконечное на конечное?

тебя в гугле забанили с первого курса выгоняли что ли? Да хоть арктангенсом, хотя это мягко говоря идиотская функция, в теорвере ни в анзак.

И какой э.... вид будет иметь гауссиана после этого в линейных координатах?

мерзопакостно-неинтегрируемый, да, но ровненько колокол, сходящийся к СТРОГО нулю в 0 и 1. Я ж говорю, арктангенс неприятная функция, просто первая что в голову пришла.

Есть стандартные функции нормировки, симметричные и нет, которые вполне интегрируются и все такое, но лень искать а вспомнить через 20 лет конечно не могу.

ну вот к примеру Мексика Польша Болгария Швеция http://esquire.ru/elections

С натяжкой гауссианой является самый средний график. Остальные - сильно несимметричны.

относительно отчественных - почти идеально симметричны;-]

Не бывает гауссианы второй свежести.

бывает в первом приближении

вот смотрите, самый правый из эсквайрного примера - это шведы, у оторых всегда с явкой хорошо и мы видим, что пик-похожий=на-пик-гауссианы ближе к 80 процентам

а у едра - совсем не так, и с кпрф/ср/лдпр - таже фигня, они не слева пиком-похожим-на-пик-гауссианы, но размазаны по нулю почти также, как едро по 100

Гауссиана с максимумом в 83% и с не-нулем в 50 имела бы правый не-нуль в районе 116. Потому что симметричная.
А у распределения явки есть естественные пределы, явка не может быть меньше нуля и не может быть больше 100%.
Вывод: гауссиана не подходит.

Логнормальное: максимум в 83% и не-нуль в 50 - полуразмах в 1.66 раза. Значит второй не нуль будет в 83*1.66 = 137%.
Вывод: логнормальное распределение тоже не подходит.

Нормировка оси X на арктангенс, как тут предлагают выше по каментам, рвет мне башню. Но и арктангенс и любая нормировка бесконечной оси X на конечный отрезок 0...100 будет на краях иметь бесконечно малые значения функции. А на практике представить себе небольшие (единицы-десятки избирателей) и со 100%-й явкой и с нулевой вполне могу. Ну вот суда в море или подлодки на боевом дежурстве, там и 100% вполне реальны (капитан велел, все и волеизъявили) и 0% - тоже (забыли всю халабуду на берегу и выборы не провели).

Да, позитивна на эту тему у меня нет. Я не знаю, какое должно быть распределение даже для явки, не говоря уже об итогах по партиям. В блоге у меня клевещут о мультиномиальном распределении, модель то подходящая, ибо описывает *все*, но какие должны быть коэффициенты именно для выборов - я не знаю. А это распределение (с разными коэффициентами) может дать и несколько пиков запросто.

:-)

Да вы чё все? логарифмы какие-то... в приближении однородно размазанных по поверхности избирателей должно быть http://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BD%...

хотя очевидно что приближение неадекватное.

Так там же вроде про явку был разговор? Причем тут кто за кого проголосовал.
По абсциссам явка от нуля до ста процентов, по ординатам количество участков с данной явкой. Чем не гауссиана?

Много ли участков с отрицательной явкой?

А по гауссиане они должны быть тоже.

А кто, простите, вам запрещает сдвинуть её вправо? *_* назовите этого негодяя

Так придется сдвинуть на бесконечность почти!

Понимаете, участков то - 100 тысяч. Т.е. отклонение в 4-5 сигм мы должны наблюдать вживую просто, регулярно и на каждых выборах.

Прочитал про дурную наследственность.
Я действительно, наверное, чего-то не понимаю *_*
Случайная величина "отношение явившихся проголосовать на данный участок к количеству в списке данного участка", или "явка избирателей для данного участка" - какие у вас основания подозревать её в ненормальности распределения? Интуитивно - вполне себе нормальное распраделение. И взгляд на "чистую" статистику по явкам (примеры и т.н. других стран) вроде как подтверждает это предположение.

Оно ясно, что бесконечных хвостов у нее не будет, и симметричность тоже до миллиметров совпадать не будет. Но это же статистика, черт ее подери, этого же и не требуется.

Ну ладно, если не нравится "интуитивно" и "вроде как", есть формальные тесты на нормальность распределения по выборке. Берем данные и смотрим.

Никак не пойму, в чем сложность, и зачем нам отрицательная явка. В конце концов, на некоторых участках с отрицательной явкой, нам придется терпеть дробных людей. Чтобы этого не произошло, надо кусок гауссианы брать, а не всю. Вся-то она кому когда нужна была?

Почему нормальное? Почему не пуассоновское, почему не биномиальное? Распределений - много. Есть, в том числе, и с целым числом исходов.

Пожалуй, вы правы, гауссиану не следует брать с потолка.
Нужно взять "чистые" данные и проверить их на нормальность распределения с помощью существующего для этого аппарата. Где брать чистые данные - вопрос другой, но без этого любые рассуждения - просто схоластика.

С третьего раза я (кажется) понял, почему вы говорите об отрицательной явке :)

Рассмотрим вариант измерения физической величины с помощью прибора. Результат измерений - величина случайная, распределенная по Гауссу. Но если мы измеряем, например, массу, то трудно себе представить, чтобы мы получили отрицательные значения в качестве результата измерений.
Тем не менее, формально хвост там есть, куда бы ему деться. Но однако это совершенно не мешает результату измерений продолжать быть распределенным по Гауссу. Так ведь?

В физике и химии, чтобы не допустить отрицательных величин и сохранить "нормальность" распределения (которое ничем не обосновано обычно в таких случаях, просто с ним удобно работать) - используют логнормальное распределение. Считают что логарифм массы (или концентрации, чего-то) распределен нормально. Это работает неплохо скажем для химических примесей.

Но использование именно гауссианы - обычно ничем не обосновано в таких случаях

Я занимался "химией и физикой". Как правило сигма там всё-таки много меньше измеряемых величин, соответственно никто этой "проблемой" особо не заморачивается.

Использовать логарифм тут - это нумерология, ничем не обоснованная. Уж лучше просто обрубить хвосты на нескольких сигмах.

В геохимии, где изучаемые величины очень малы ("содержание никеля в почве"), а сигмы - велики (массовый полуколичественный спектральный анализ с сигмой в полпорядка запросто) - используют логнормальное распределение.
Ничем не обоснованное, естественно, но простая гауссиана в линейной шкале - тоже ничем не обоснована.

О физике, кстати: фотонный шум (который на фотодетекторах) прост и незатейлив "дисперсия равна сигналу", по Пуассону. То есть сигмы очень даже велики при небольшом сигнале.
Но там модель взята не с потолка, а вот прямо из физики процесса - и все работает. И никакая не гауссиана.

Здесь есть модель.

И вполне гауссиана, уже при n = 10 не глаз не отличить

Ну как не отличить, зависит же от p.
Функция плотности вероятности тем несимметричнее, чем дальше p от 0.5

И его книга ``Чёрный лебедь''

Он толстенную книгу написал про то, что в мире все болеют гауссианой, а много где, особенно в социальной и экономической науках, она соверешнно неприменима.

Да даже не в этом дело, просто ЦПТ, afair, ничего не говорит об асимптотике хвостов распределения. Так что на 1-2 сигмы гауссиана может быть хоть в цирке показывай, а хвосты будут "несимметричные", и это нормально и ничего не опровергает и не доказывает.

А причем тут ЦПТ (про "сумму независимых случайных величин")?

Как причём? Так это и есть сумма примерно независимых и примерно случайных величин

"ЭТО" - это в данном контексте ЧТО? Явка? Результаты голосования за партии?

В обоих случаях - нет. Вот для результатов: пусть у нас есть две партии (2-й тур президентских выборов), сумма двух результатов по каждому из участков будет ровно 100% (испорченные бюлютни - выбрасываем и не учитываем). Хотя каждый отдельно "независимый и случайный...."

Это не говоря про банальное: не независимые и не случайные.

Независимы - голоса отдельных людей друг от друга.

С чего вы взяли?

Вот эта история с прошлых выборов "Митрохин на своем участке всей семьей проголосовал за Яблоко, т.е. подал 3 /допустим/ голоса, а при пересчете нашелся только один"

Эти три голоса - не были независимы.

все-таки более точная цитата -

Митрохин ходил на выборы Мосгордумы всей семьей, и семья проголосовала за Яблоко . Затем они проверили официальные результаты на сайте ЦИК РФ и убедились, что за Яблоко на этом участке было подано ноль голосов. Митрохин справедливо поднял скандал. Сделали пересчет, обнаружилось 16 неучтенных ранее голосов за партию Яблоко .

Т.е. декларировалось 0 а обнаружилось 16, и доля голосов его семьи тут несущественна. Но к основной теме о применимости Гауссианы это никакого отношения не имеет.

Независимыми событиями как раз должны быть результаты на разных географически близких избирательных участках. И всякие sqrt(N) тут никто не отменял. В масштабах же страны суммарные графики могут быть сколь угодно сложные. Просто первичных данных настолько много что артефакты нарушений сквозят из многих дыр.

Это и вопрос консенсуса в обществе - тысячи наблюдателей видели своими глазами явные нарушения, рассказали своим друзьям, и опубликовали в сети сотни свидетельств. Личным знакомым доверяешь как-то больше чем абстрактным СМИ. Вирусный маркетинг почти )

Давайте вернемся к исходному посту. Там написано следущее (переработано с учетом обсуждения в каментах):

1) Гауссиана неприменима в силу неограниченности. Даже распределение Пуассона, на взгляд, применимо больше (и модель процесса для явки - вроде бы подходящая). Если уж что-то анализировать, то с разумной моделью.

2) Приписки, нечестный счет и т.п. - я вообще не обсуждаю. Их, очевидно, сколько-то было. Сколько - я не знаю. Возможно - больше чем обычно, возможно - стало меньше (а на прошлых выборах не было такой информационной сверхпроводимости и видеокамеры в каждом телефоне). Документально подтвержденных проблем (в протоколах не то, что на сайте ЦИК) на текущий момент на сайте Голоса - 24. Из ~100k участков. Я имею в виду такое подтверждение, которое несомненно годится для суда.

3) Статистические странности бывают разные. Пила на круглых процентах - очевидная странность. Общий график ЕР - неочевидная. Ну то есть очевидно что это не гауссиана, но гауссианы и не должно быть, см. пункт 1.

А история про Митрохина - это просто иллюстрация отсутствия "независимости". Если бы они семьей разбежались бы по разным участкам (как я с женой, у нас прописка разная), то голоса остались бы зависимыми.

Надо сначала доказать их независимость. Потом -- случайность. А потом прикладывать ЦПТ. Почему-то эти два шага всё время забывают, считая эти два очень жёстких условия само сбой разумеющимися. А люди, знаете, существа коллективные, и их поступки нихуя не независимы друг от друга.

Я что хочу сказать. Ну вот человеку говорят - не гауссиана. А он отвечает - а как там может быть гауссиана, если она за пределами [0%, 100%] не равна нулю? Я и отвечал в том смысле, что теории, которые предписывают там быть гауссиане, ничего не утверждают про поведение хвостов.

Я вполне допустаю, что там не может быть гауссианы, но вовсе не потому что она в нуле какая-то не такая.

А какие теории предписывают там быть Гауссиане?

#comment-21612

Я на него уже отвечал (как и другие), но в этой массе найти трудно и я повторюсь.

1) Только для явки: "легко себе представить" избирательные участки, на которых явка будет 100% или 0%. Суда в море: забыли урну на берегу, не голосовали, явка 0. Подводная лодка на дежурстве: капитан сказал и куда ты с этой лодки денешься? Это - нормальная ситуация, без фальсификаций. Это стремление к краям будет на любых маленьких участках, где "все друг друга знают" и действуют совместно. И везде, где голосование - редкое развлечение (больницы).

2) Нормированная гауссиана в 0 и 100 будет нулевой, указанный выше случай она не опишет.

3) Там в самом низу для явки предлагают биномиальное распределение. Которое *не* гауссиана (хотя и достаточно близко в некоторых случаях).

4) Но явка - не независимые события. Повторю тот же пример - голосовать ходят или всей семьей (на один участок же), или всей семьей не ходят. Исключения конечно же есть и возможны и многочисленны, но этот эффект "не-независимости" конечно же есть. Собственно, лодка на дежурстве или кишлак в горах, куда только раз в 4 года добирается - это те самые случаи не-независимости, большие чем одна семья.

Я и не утверждаю что это хорошее приближение. Просто пример "гауссианы" (биномиальное распределение не гауссиана, но оно к ней стремится и при отклонении не намного больше сигмы быстро становится на неё похожим).

Края. 0 и 100 (и около) - будут отклоняться от "гауссианы" очень сильно даже и в нормальном случае.

Я же уточнил: "при отклонении не намного больше сигмы".

Ну естественно, для гауссианы есть развитый аппарат, понятно куда сигму прикладывать и все такое.

А для других распределений все заметно хуже разработано.

Проблема в том, что на основании решения таких ``экспертов'' Инвестируются огромные деньги (в том числе -- деньги людей, которые не готовы рисковать и которых убеждают, что риска нет, потому что риск-менеджмент и всё такое -- типа пенсионных фондов), принимают социальные и политические решения, etc. На совершенно сломанных моделях. Которые не могут показать ни-че-го.

Но это уже оффтопик относительно темы изначального поста.

Слушай, ну у меня со статистикой и тервером дурная наследственность и я какбэ в курсе.

А предыдущий мой коммент он (на базе дурной наследственности) рассказывает отчего оно так. То есть эксперты бы и рады были более качественной модели, но у них ее нет.

То есть эксперты бы и рады были более качественной модели, но у них ее нет.

Ну то есть, грабитель был бы рад другой работе, но у него её нет. Как-то так.
Это ужасный аргумент. Точнее, это не аргумент вообще. Признайтесь, что ничего не знаете -- и будет честно. А с умным видом говорить про риск- и портфолио-менеджмент пользуясь заведомо негодной моделью -- это, прости, проходит по статье о мошенничестве, и никак иначе.

Впрочем, многие и них ещё к тому же и себя, кажется, обманывают. Судя по их реакции на того же Талеба.

Отец мой, упомянутый выше, утверждает, что уровень экономико-статистических книжек западных - в части статистики крайне низкий. Не всех, но подавляющего их количества (он их читал т.к. новое время заставило, экономика всех гораздо больше интересует, чем количество планктона или уровень Каспия). У меня нет оснований не верить.

Т.е. да, эксперты обманывают сами себя.

Что касается Талеба, то я Черного Лебедя до конца не дочитал, а еще какую-то ("Одураченные случайностью", если не путаю название) - кажется дочитал. Ну там очевидные такие соображения, особой науки тоже ведь нету.

Ну, за теорию портфолио дали нобелевку вообще-то... Это, правда, может говорить об уровне нобелевки, а не об уровне науки...

Да, те , кто читал обе книги, говорят, что они очень пересекаются. Соображения, видимо, для западного мира неочевидные (у меня возникла о чёрном лебеде такая ассоциация -- как о книжке о паттернах от банды четырёх ``оказывается, я разговариваю прозой! А я и не знал!'' -- Но и Талеб и Банда Четырёх произвели фурор в целом). Ну и да, оно о том, что науки как раз и нет/не может быть, а все считают, что есть.

Это который Блэк-Шоулс? Да, со слов - это одно из немногих исключений в смысле качества аппарата.

А наука вероятно может быть какая-то. Вот, прости господи, странный аттрактор - предсказаний (погоды на долгий срок) нет и доказано что быть не может - а наука есть. Есть "теория катастроф" (которую я, впрочем, в 10-м классе не осилил даже понять про что, а с тех пор не возвращался). Ну а есть, сошлюсь на тот же авторитет эконометрика, да.

Да, Б-Ш. Талеб (трейдер биржевой успешный, между прочим, переживший все кризисы без потерь) утверждает, что это полная ересь, не имеющая ничего общего с действительностью... Ну, тут я с чужих слов пою.

Из аннотации на Озоне я так понял, что твой отец скорее с Талебом :)))))

Ну и к теории катастроф В ФИЗИКЕ Талеб ка краз относится благосклонно -- пишет, что это одно из немногих мест, где люди как раз настойчиво выкидывают Гаусса оттуда, где ему не место.

Глобально, наверное, да - "неподходящая модель", а детально - насколько я помню нет, все-таки редкие события - это другая область.

BTW, в финансы пришли "кванты", которые как раз обучены математической науке и начали увлеченно торговать друг с другом знаком 5-й производной (немного утрирую) и другими "производными инструментами". При том, что сама по себе идея опциона/фьютчерса (как видов страховки) - здравая достаточно.

Блин, ну так на редких событиях всё и строится -- о том и книга, что раз каждый человек несколько раз за жизнь наблюдает такое событие -- то мы обязаны его учитывать или будем проигрывать в ноль несколько раз за жизнь!
Если бы они были редкие и незначительные -- и чёрт бы с ним! Но проблема в том, что редкие они как, грубо говоря, 6 сигм, а отклонение от матожидания у них такое, как будто они 100 сигм, т.е. не просто редкие, а невозможные за миллионы жизней вселенной. И в этом-то по словам Талеба и есть проблема этих моделей.

Ну вот он квантом и был изначально :)

Ну а что значит "учитывать"? Учесть можно нечто, что можно оценить заранее хоть как-то. Если нельзя, то единственная оценка - "мы все умрем".

Ну вот условный "глобальный финансовый коллапс" - не кажется таким уж абсолютно невероятным, если почитать экономистов-параноиков. Но застраховаться от (полных) потерь в этом случае невозможно т.к. непонятно что будет представлять ценность после - тушенка, патроны к калашу или прекрасные 12-летние блондинки. И если тушенку/патроны еще можно запасти заранее, то блондинки плохо хранятся.

Ну что значит учитывать -- честно говорить клиенту, что никакие риски оценить нельзя, если ему нужно безрисково -- пусть покупает золото, землю и недвижку. Как-то так.
Тот же Талеб считает, что надо вкладывать много-много мелких ставок в супер-рискованное и большие куски в госаблигации, потому что всё одно надёжней нету. Как результат в случае очень маловероятного но крупного события ты выигрывашь (на мелкой ставке) а в случае наоборот (если уж речь не про 3-тью мировую) -- остаёшься с малыми потерями и при своих в остальном. А вот вся середина, которую так любят портфолио-менеджеры -- чушь. Она рухнет в кризис но не принесёт даже при наилучших раскладах много (принципиально больше облигаций). Как-то так я его понял.

Ну то есть ответ заключается в том, что рынка капитала существовать не может, ибо вкладывать туда нельзя. Давать деньги можно только государствам (и то не всяким) и стартапам (высокий риск, высокий мультипликатор при успехе).

Это какбэ убивает насмерть весь обычный рынок кредитования, от ипотеки до производства.

Нет, есть ещё люди, которые согласны на вот такой расклад рисков, какой есть в реальной жизни. Но им надо этот расклад объяснить, а не врать про то, что рисков нет, потому что есть теория портфолио с нобелевкой на перевес, и риск-менеджеры по 200 тыщ в год получающие а, значит, ошибаться не могущие.

Основной point Талеба -- надо знать на что идёшь и не думать, что мир предсказуем и управляем. Не надо обманывать себя и клиентов. Всё в мире весело и страшно, а не спокойно и предсказуемо. Не живите в мире иллюзий, поддерживаемых гауссианой.

Не, ну с этой мыслью грех спорить. И на самом деле классическая статистика этому учит, как минимум в том родительском учебнике, который вышел в конце 80-х (или начале 90-х, забыл), в той части, которая "практическая" - про работу с редкими событиями было довольно много написано. На примере Чернобыля, на примере блэкаутов в энергосетях. Возможно, впрочем, что я путаю что-то т.к. все эти тексты читал в черновиках, а не в изданном виде :)

Господа и дамы (надеюсь) - критики,

Вы напрасно так сердито на аффотра нападаете, он дело, в принципе, говорит. В том смысле, что тут есть место для дискуссии.

И самое главное: никакой статистический анализ не может в принципе дать доказательств "фальсификаций". Пищу для размышлений, хороших и разных, - может, а доказательств - нет.

Если чё, я тот самый аффтар графиГов, которые тут обсуждаются. Тот есть я так думаю, поскольку сам график не приводятся.

У меня еще много чего есть, здесь: http://oude-rus.livejournal.com

ps простите, затрахался вводит капчу.

Я взвился не против конкретных графиков (коих появилось за последние дни много), сколько против их интерпретации ("тут должна быть гауссиана, она всегда бывает, колокол, симметричный").

ну тут я не соглашусь, что отклонение в таком виде, в каком показано - это норма

Чтобы говорить о норме, нужно иметь модель, про которую известноЮ что в "нормальном" случае она работает.

А я просто пытаюсь сказать, что гауссиана - не является такой моделью.

Ну там приближённая гауссиана. Надо посмотреть, есть ли у математиков статьи о таких вещах.

Ну да, функция распределения какая-то другая, не гауссиана. О чем я, собственно, и написал в посте. Следовательно, смотреть на эти кривые как на гауссианы - не следует, данный аппарат неприменим.

Строго говоря, там не гаусианное, а биноминальное распределение. Оно позволяет строить "гаусианы со смещённым центром, не выходящие за пределы", ну и вообще очень похоже на гаусиану.

Во-вторых, изучается плотность распределения процента за партию от явки. Если мы скажем, что процент явки зависит от территории - то да, будет не гаусиана.

Биномиальное для явки - при условии "независимости". А независимости - нет.
Даже если вычеркнуть военные части, многие семьи или ходят в участок всей семьей, или не ходят вовсе.

Процент явки, очевидно, зависит от территории, от погоды, от фазы луны, результатов соц-опросов и от общей политизированности населения на данной территории в данное время.

Вот если провести перевыборы в следующие выходные - явка будет выше в тех регионах, где распиаренных нарушений было больше.

Есть статистически достоверная корреляция между явкой и процентом за партию власти.

Первая гипотеза - это вбросы неиспользованных бюллютений и приписки.

Какая еще есть гипотеза, это объясняющая?

Она тут выше в каментах.

Грубо говоря, пусть в регионе есть "основная" партия, которая всегда побеждает и все про это знают. И неосновные.
Избиратели неосновных, зная что "важен каждый голос" - до урн дойдут независимо от погоды. Избиратели неосновной - менее мотивированы, они "и так знают, что выиграют".

В числах: пусть есть А и Б с уровнем поддержки 15% и В с уровнем поддержки 70. Избиратели А и Б до урн доходят всегда, т.е. минимальная явка - 30.
Ну вот при явке 30 результат будет 50-50-0 (за А-Б-В), а при явке 100 - 15-15-70.

Допустим, правда. Каждый гражданин является лежебокой с вероятностью 0,8 или физкультурником с вероятностью 0,2.

Физкультурник приходит на участок всегда. Лежебока - с вероятностью 0,2.

Тогда, действительно, если на участке 100 процентов явки, то там только 20 физкультурников, просто так повезло, что все лежебоки туда припёрлись. Ну, а если 20 процентов - то все эти голоса будут "за физкультурников", и ни один лежебока туда не дошёл.

Но в наблюдаемых данных есть еще один момент - процент других партий падает от явки. А вот это как?

Ну конечно он падает, смотрите мой пример: 50-50-0 vs 15-15-70

Если все сторонники одной партии голосуют гарантированно, а другой - как пойдет, то чем выше явка, тем меньше процент у первой. А число голосов - постоянное.

Ох. Я всю ночь вспоминал теорию вероятности.

Пока единственный довод - собрать "близкие" участки, и оценить степень дисперсии на них. Мне кажется очень подозрительной ситуация, когда у одной и той же партии в соседних участках, за которые голосуют одни и те же дома в разных районах, сильно разные результаты.

Да, мне тоже. У нас (Коньково) все тихо (там где посмотрел), а в Тропарево-Никулино просто йобаный стыд на некоторых участках.

Но нормальное распределение не имеет к этому никакого отношения.

>у одной и той же партии в соседних участках, за которые голосуют одни и те же дома в разных районах,

ну разные же все-таки дома раз они в разных районах
разная может быть и агитация, где-то все обклеено одним набором плакатов, где-то другим.

да и кстати, вот насчет домов. я живу в доме, т.н. "коммерческом", где нет бесплатных государственных (или бесплатно приватизированных) квартир, а рядом есть дома где есть такие квартиры, или дома целиком состоящие из таких квартир. таким образом состав избирателей различных партий у соседних домов может заметно отличаться.

вот взять подъезды - одни подъезды чистенькие и регулярно убранные а другие грязные и обшарпанные. и это могут быть два территориально соседних дома. наверное и состав избирателей как-то отличается в них, почему ж нет?

вот в целом по районам например москвы - наверное более консистентная картина должна быть, хотя и тут - вряд ли состав избирателей в центральном и скажем южном районах очень похож.

Нет, не единственный. Можно взять не процент голосов, проголосовавших за какую либо партию от пришедших избирателей, а от всех изберателей, зарегистрированных на участке. Тогда если опозиционеры приходят все, то это отношение не должно проседать от явки. А оно проседает. У СР так вообще с 10% до 3-х.

Да, все верно, никакая статистика ничего не доказывает (как и выпадение орла 100 раз подряд не означает, что монета кривая).

А с другой стороны, когда отдельный УИК выпадает от окружающих в 3-4 раза вверх по ЕР или в 10(!) раз вниз по яблоку - лично я бы удивился и пошел бы искать тот самый "коммерческий" дом для начала.

>Да, все верно, никакая статистика ничего не доказывает

Этого я как раз не имел в виду. Что-то статистика доказывает, но совместно с вразумительной моделью, которой [у нас] нет.

>А с другой стороны, когда отдельный УИК выпадает от окружающих в 3-4 раза вверх по ЕР или в 10(!) раз вниз по яблоку

3-4 и 10(!) - это впечатляющие вроде бы цифры. Хорошо, вот 3-4 раза и 10 -- это повод усомниться, а сколько не повод. И почему? :-)) 3-4 раза по ЕР и 10 по Яблоку -- это сколько сигм?

>лично я бы удивился и пошел бы искать тот самый "коммерческий" дом для начала.
ну вот конкретно в моем случае (УИК) - яблоко 11%, а через один УИК (по номеру) - 20% и что это значит статистически - я не понимаю. явка одинаковая, все остальное (количество по открепительным, количество испорченных и т.п.) - тоже.

а на ещё соседнем УИК - у яблока 5%, при явке заметно бОльшей (74% против 48%) чем на описанных двух.
при этом по процентам разница больше в два раза, а по избирателям - в 1.4 только.

навевает конечно на мысли, но непонятно на какие :-))
вариант что избиратели ЕР - ленивее чем избиратели Яблока и что на самом деле они одинаковы по ленивости, но был вброс за ЕР - имхо один не лучше другого.

Тут смотри какая еще есть штука (про доказательства)

1) Предположим, что воля избирателей вообще по всем участкам строго одинакова и весь разброс - за счет вброса, выброса и подтасовок.

2) Тогда если отдельные избирательные комиссии действовали "случайно и независимо" (пусть даже примерно с одним знаком, не имеет значения), то результат их деятельности ты от естественного разброса не отличишь.

1) Предположим, что воля избирателей вообще по всем участкам строго одинакова и весь разброс - за счет вброса, выброса и подтасовок.

2) Тогда если отдельные избирательные комиссии действовали "случайно и независимо" (пусть даже примерно с одним знаком, не имеет значения), то результат их деятельности ты от естественного разброса не отличишь.

Отличишь - как раз по зависимости результатов от явки :) Ведь если у избирателей одинаковая воля голосовать, то и явка будет одинаковая.

Другой вопрос, что если предположить, опять же, что избиратели ЕР ленивые, то вбросы за ЕР как раз отражают реальные настроения народа, то есть если бы ленивые избиратели ЕР пришли и проголосовали, то это бы ничего не изменило - именно за них и был вброс...

Вообще я не вполне понял, как сочетаются тут условия "воля по всем участкам строго одинакова" в первом пункте предположения и "естественный разброс" во втором пункте? Или ты имеешь в виду, что сколько за ЕР есть избирателей, столько (в процентном отношении) за них и вбрасывали комиссий и так же было по тому же Яблоку (т.е. что сами комиссии представляют такое же распределение по политическим предпочтениям, а вбрасывают все - кто за одних, кто за других)?

Ты предполагаешь, что комиссии работают в пользу только одной партии.

Есть довольно убедительные спекуляции, что как минимум за коммунистов тоже подливали.

>Ты предполагаешь, что комиссии работают в пользу только одной партии.

>Есть довольно убедительные спекуляции, что как минимум за коммунистов тоже подливали.

А ну так если распределение по подливаниям в комиссиях такое же как распределение избирателей, то конечно отличить вбросы будет как раз очень просто. Вброс - это максимально, сколько позволяет совесть страх. То есть скажем при 50% явке добросить 20%.

При добросе к ЕР (например за неё 30% избирателей) 20% получится 50% (больше в 1.7 раз), а при добросе к Яблоку (допустим за него 15%) тех же 20% получится 35% (больше в 2.3 раза).

Тут фишка в том, что вброс, это, скажем так, фиксированный прирост в голосах. Ну то есть предположить, что лояльная партии Х комиссия вбросит не всё что сможет (посчитает безопасным) вбросить, а сообразуясь скажем с предвыборными опросами это как то... странно.

Так что нет, при предположении о единой избирательной воле на любом участке, вбросы (за более слабые партии) статистически определяются легко.

Вообще теория про ленивых избирателей ЕР - объясняет всё и даже оправдывает вбросы... Видимо Медведев примерно это и имел в виду говоря что результаты выборов соответствуют реальной воле народа :-)))

Ты забываешь, что доброс за одну партию - ухудшает результаты у остальных (на этом участке, но и в целом по стране - тоже).

Но наверное да, стабильная полка снизу легко детектируется.

Теорию вероятности не знаю (сдал и забыл). Но попалась такая ссылка:
[code]
http://ru.wikisource.org/wiki/%D0%AD%D0%A1%D0%91%D0%95/%D0%A1%D1%82%D0%B...
[/code]
Искать по фразе: "вероятность, вычисленная на основании наблюдений 10 благоприятных случаев из 100 и на основании 100 из 1000"
Да оно старое, бумажного экземпляра у меня нет (но мы же джентельмены), и я не нашел где реальные данные для проверки.
Не поленился и набрал в экселе (ну а чем холера отличается, и отрицательные люди появляются - все против 5?).
И получается, что при 5 процентах и волеизъявителях числом:
1000 от 30 до 69 за вкладываются в эти 5 процентов (3-7 процентов).
10000 от 438 до 561 (4.4-5.6 процентов).
100000 4807 - 5193 (4.8 - 5.2).
Может вопрос и в количестве наблюдений(голосовавших по участкам) тоже?

PS искал статью, что есть цифры (не числа), которые встречаются чаще других.

На 100k участков мы должны видеть отклонения за 4-5 сигм достаточно часто (заметно чаще нуля)

Ну вот если верить той ссылке и участок - 100 наблюдаемых случаев (голосовавших)
за 5 процентов от -1 до 11 (Т.е. от ни одного за - до 11 процентов за, все честные могут быть без всяких вбросов, а при этом разница ух... во сколько раз). И во сколько сигм мы попадаем? Я честно не понимаю, как от абсолютных цифр переходить к процентам и какая при этом арифметика получится. Тут ведь наверняка 3мя действиями (отнять и поделить) не обойдешься.

Ну вот если у тебя разброс +6 от среднего, то для *гауссианы* должен быть и -6 от среднего. Она симметричная. Мораль: не гауссиана.

Ну то есть не то чтобы *должен*, но для 100к участков и того же Яблока (среднее по стране 3%, есть выбросы в +20, в симметричном случае должно быть и -14%) не получить *ни одного минуса* :) было бы странно.

Вообще, для явки модель - это сумма биномиальных распределений (если в обществе есть группы с существенно разной "вероятностью голосования"), а для результатов по партиям - не знаю.

Я не про гауссиану, а про зависимость от размера участка. ("вероятность, вычисленная на основании наблюдений 10 благоприятных случаев из 100 и на основании 100 из 1000")

И я не понимаю такой смелый переход от абсолютных чисел к процентам. Неужели нет ни одного участка где у apple нет ни одного голоса? Должны быть. :-) (Мое понимание отрицательных людей... Если есть достаточное число маленьких участков, числом в 100 и менее голосовавших, вероятность такого голосования достаточно отличается от 0. Без всякой пред-выборной и вовремя-выборной агитации и работы. Как пирог нарезать.. Ну и как учитывать такие участки?)

А вообще, как тут уже не один раз говорили - сначала модель, потом уже все остальное.

Как я уже много где написал, случаи вроде нашего Тропарева-Никулина, где на одном участке 24 за ЕР, а в соседних домах - 91 (с очевидным урезанием всех, иначе не хватит) - просто йобаный стыд.

Но для установления факта стыда - никакая обработка не нужна, все видно и так. А вот более тонкие эффекты, скажем за ЕР не 91, а вот 45 - все едино не будут детектироваться без хорошей модели.

Но отношение поданных голосов за неосновные партии к общему количеству избирателей, не пришедших, а зарегистрированных на участке, должно быть постоянно от явки. Все же пришли. А оно все равно падает, я проверял.

Алексей, я посмотрел зависимость не от явки, а от количества приписанных к участку людей.

Она уж точно должна быть близкой к гауссу, при любом раскладе (иначе получается, что к каким-то участкам приписано больше сторонников партии, чем к другим). А - нет.

Ну подождите
1) почему к Гауссу?
2) Что в разных регионах голосуют по-разному - вас не удивляет? Почему в локальных условиях не может быть больших вариаций? Ну вот то самое Тропарево-Никулино, про которое я уже все, кажется, знаю - там Яблоко боролось с беспредельщиками с парковкой, почему не быть резкому пику "за" в этих трех домах?

Гаусиана - потому, что маловероятно что любители одной партии приписаны неравномерно к участкам.

По "яблоку" - гаусина. У гаусианы тоже будет выход за три сигмы, вот эти три дома и будут в них.

Линии по участками проходят достаточно условно. Иногда два соседних дома приписаны к разным участкам. Из ваших трёх домов вполне может один приписан к участку А, а два других - к участку Б.

Пытались уже делить "на город и деревню", "на области" - хвост не исчезает.

Естественно, возможно еще модель, когда на какой-то участок подвозят изберателей, "давление".

Почему Гауссиана, почему не биномиальное?

Ну, биноминальное, если строго.

Но они очень похожи. Я когда фильтрацию дебандинга писал, много изучал этот вопрос, гаус очень хорошо аппроксимирует биноминальное. Да, блин, три "box blur" уже визуально будут очень похожи.

То есть, "хвоста" там быть не должно.

Они похожи при p=0.5

При p=0.1 - биномиальное очень сильно несимметрично.

Алексей, попробуйте сделать такое биноминальное, которое будет похоже на "чуровское" :-)

Ну предложите хоть какую-то модель, которая бы объясняла сильную неравномерность прихода избирателей одной партии на участки. Модель в строгом мат плане, то есть - чтобы можно было построить программу - эмулятор.

Покопался в гугле, нашел график: (отрицательная) корреляция между явкой и голосами за Керри, а говорят - не бывает.

Я считал не между явкой, а между количеством приписанных к участку.

turnout - это именно явка. Ну ладно, Огайо - какой-то клинический случай (потому там и много данных), вот Канада: Голубенькая - больше всех голосов т.е. "правящая партия", очевидная корреляция между явкой (ось Х) и долей голосов (ось У)

Вы меня простите, но на этом графике дисперсия больше корреляции, т.е. - нефига не очевидно с первого взгляда. Если бы кто-то этих линий не провёл.

А у нас под 45 градусов идёт.

Но, опять же - я про Фому, а мне в ответ про Емелю. Там между количеством приписанным к участку и голосами корреляция есть?

Данные "размер участка - голоса" - я просто не понимаю как спросить, чтобы вылез сразу готовый график.
А тратить электроны души на анализ чужих сырых данных (где их взять) - не готов.

Данные размер участка-голоса - это просто данные с учётом некой абстрактной партии "не ходил голосовать".

Сырые тут http://kartaitogov.ru/

Все данные могут, с неким скрипом, быть обработаны в Excel 2007, это csv файл. 95 тыс. строк

Не, я про другие страны.

Т.е. готовые графики по всяким странным метрикам (возраст, образование, доходы) - явка - находятся в количестве. Причем зависимость явки от доходов в штатах - там чуть не в два раза разница между беднейшими и богатейшими (и богатые ходят активнее).
Если при этом есть богатые и бедные районы - то будет зависимость и в координатах явка-партия и район-явка и все что хочешь (ну и эффекты от мажоритарки, конечно).

Еще раз, зависимость - кол-во изберателей - партия - можно как-то объяснить?

Я думаю, что есть какие-то ограничения, которые говорят что зависимость "явка - партия" может быть, но не может быть слишком сильной.

Маленькое уточнение. Судя по легенде, голубой цвет - это Блок Квебека, т.е. франкоязычные сепаратисты. Их конечно можно считать местной (в пределах провинции) партией власти, но все же это особый случай

Ну и R-квадрат, равный аж 0,07, на "очевидную корреляцию" не тянет. В этом смысле британский кейс про зависимость результатов от явки намного более впечатляющ

А керри - тянет на корреляцию?

Поинт в том, что если покопаться, то выяснится что такие случаи бывают даже в пределах одной местности (Огайо) т.е. корреляция не является признаком подтасовок.

И "гауссиана" английская - тоже доставляет.

График по Керри в Огайо - это, ИМХО, какой-то треш. Я правильно понимаю, что там нарисован (притом без указания R-квадрат) тренд зависимости явки от ранга графства по голосованию за Керри? Бредовой вариант представления данных. По моим ощущениям, если бы там был отрисован стандартный X-Y график, то мы увидели бы достаточное хаотичное множество точек без четких зависимостей

Но я не спорю. Зависимость от явки может быть даже и внутри одного города (в пределах одного региона она есть практически всегда). Вопрос только в форме облака точек. Для Великобритании мы видим классический пример эллипса (есть зависимость от явки). По хорошим участкам в Москве мы видим вообще шар (нет зависимости от явки). А вот по Москве в целом мы видим "насекомое" с двумя скоплениями точек, притом второе еще и вытянуто по горизонтали - такие противоестественные конфигурации и показывают наличие масштабных фальсификаций

"Комета", которую мы видим на графике "явка-ЕдРо" по России в целом и по многим отдельным регионам, тоже вызывает вопросы - но для аккуратного анализа надо конечно разделять городские и сельские ТИКи и участки

Огайо - я так понимаю, что отсортировали по голосам (процентам) за Кэрри и посмотрели есть ли тренд по второй оси.

Про наши скорбные дела: из графиков по Москве следует, что есть две социальные группы, которые примерно одинаково относятся не к ЕР, а разница в поведении у них "пойду, проголосую за ЕР" или "не пойду на выборы". Что это за соц-группы мы не знаем, вариантов много
1) это - работники избирательных комиссий (т.е. фальсификаторы)
1б) карусели
2) это - жители домов, в которых за последние 3 года поменяли лифт (или снесли гаражи или построили парковки)
2b) это - вообще жители новостроек (или пятиэтажек).

Я не вижу никакого способа отличить эти два способа статистикой. Т.е. понятно, что версия про избиркомы - напрашивается и много в каких случаях как-то подтверждена, где документами, где показаниями знакомых свидетелей (которым лично я верю), где-то через 6 рукопожатий. Но таких - не так и много.

про Огайо: да, у меня такое же понимание. Такой подход мне кажется странным, а разброс отдельных значений относительно линии тренда не убеждает меня в наличии сильной связи

про Москву: есть еще например экзит-полл ФОМа, который "удивительным" образом совпадает с предпочтениями того "облака" участков, где преобладает вариант "не пойду на выборы"

Но даже если говорить только о данных по участкам, то "социальная" версия на мой взгляд не выдерживает критики:
1) на электоральное поведение граждан влияет множество факторов и их комбинаций. Условно: где-то и лифты поменяли, и площадки сделали, и там большой рост позитива, а где-то сделали только одно из двух, и там маленький рост, а где-то ничего не сделали, и там негатив. Если же учесть, что в действительности у нас не 2 фактора (лифты и площадки), а десятки и сотни факторов (притом их стоит умножать на количество избирателей, потому как на каждого один и тот же фактор влияет по-разному), то мы должны получить достаточно однородное "облако" с большой плотностью точек вблизи центра и редкими отклонениями. В Москве же мы видим два облака (и ни одного примера подобного распределения участков по явке - два пика с глубоким провалом между ними - мы до сих пор в других странах не увидели и не нашли)
2) раньше (до 2007 г.) подобного эффекта - резкого разделения участков по двум типам электорального поведения - в Москве не наблюдалось
3) у нас нет никаких свидетельств того, что аналогичные глубокие различия между участками (кварталами) наблюдаются по другим параметрам. Например, выбору марки автомобиля, выбору модели телефона и т.д. (Подозреваю, что и доли Яндекса и Гугла по районам Москвы отличаются в пределах плюс-минус 5% - было бы конечно интересно увидеть точные цифры). Но разве не странно, что кварталы так отличаются друг от друга по политическому выбору и так мало - по выбору в других областях?
4) начиная с 93-го года и вплоть до 2004 г. районы Москвы показывали высокую преемственность результатов голосований - одни районы постоянно давали больший процент коммунистам, Яблоку и, с оговорками, ДемВыбору и его наследникам, другие районы - партии власти (НДР, Единство) и Жириновскому. И эта география голосований выглядела логичной при сопоставлении с представлениями о престижности района, составе населения и т.д. Начиная с 2007 г., электоральная география Москвы выглядит все менее объяснимой с точки зрения социальных факторов - и на этих выборах дошла до абсурда, когда Арбат оказывается наименее "яблочным" районом Москвы
5) Москва очевидно более однородный объект, чем Московская область (в Москве нет сельских районов, нет малых поселков, нет районов, из которых до места работы ехать 3 часа в одну сторону) - однако график "явка-ЕдРо" для Подмосковья более однородный, чем для Москвы
6) более того, Москва и более однородный объект, чем другие крупные города - в Москве нет районов частной застройки, в Москве нет естественных границ (как Ока в Нижнем), в Москве велика мобильность как в течение дня (мало живущих в заводских домах рядом с заводом), так и в глобальном смысле - доля переехавших (и понаехавших) за последние 20 лет куда выше, чем в других городах. Наконец, в Москве нет крупных заводов - или они малозначимы в структуре занятости - а большинство работает в небольших коллективах, что также снижает вероятность мощных отклонений в электоральных предпочтениях. Однако и по сравнению со многими другим городами облако "явка-ЕдРо" в Москве намного менее однородное

Ты забываешь, что участки - маленькие, там буквально 3-5 средних-больших домов.

То есть не по марке машины, а по средней стоимости и по их количеству на лицо - между соседними УИК может быть гигантская разница.

Ну и я не понимаю, что такого случилось после 2004 года, если до того разница внутри города была, а в 2007 и позже ее не стало. Разница погребена под результатами работы комиссий? Ну, вполне может быть, да.

В Москве, насколько я помню, около 30 тысяч жилых домов - то есть в среднем по 10 домов на участок. В новых районах дома конечно больше, и соответственно вероятность выделения "особых" участков с новыми дорогими домами выше

Но только пока никаких конкретных примеров - мол, эти два соседние участка отличаются тем, что вот здесь новый дом и поэтому участок проголосовал так-то - не прозвучало. Только общие предположения, что может быть на разных участках разный контингент...

По Сети гуляет показательная картинка про Гольяново. Перепады там очень большие, а новой застройки относительно мало

Не, ну Тропарево-Никулино (которое у меня под боком и я понимаю что там и как) с ЕР-91% на одном участке и что-то в районе 1.3 за Яблоко - это очевидный клинический случай и таких много.

Но чтобы статистикой такие случаи выделять в менее очевидных случаях (а иначе - нахрена эта статистика вообще нужна) - нужно сформировать чистую выборку и довольно большую.

чистая выборка - это КОИБы. На выборах в МГД 2 года назад и со сканерами похоже научились "работать", но в этот раз кажется такого не было

Сканеры, как я понимаю, защищают только от креативного переписывания результата.
А от карусели, от вброса самой комиссией - нет.

Вместе с тем, поделить участки на гарантированно грязные, гарантированно чистые - и посмотреть на статистическую устойчивость внутри этих групп - было бы крайне полезно.

А не размахивать, возвращаясь к исходному посту, гауссом как панацеей.

Согласен, гауссом размахивать не стоило. Хотя эмпирические данные свидетельствуют о том, что распределение кейсов (участков, округов) по явке, по крайней мере для относительно однородных совокупностей (например, Москва или Великобритания), все же близки к Гауссу

А про сканеры - во-первых, сканер и от вброса отчасти защищает, потому как туда нельзя засунуть сразу несколько бюллетеней. Во-вторых, судя по тем данным, которые есть, основным способом фальсификаций все-таки являлись не вбросы и не карусели, а творческий "подсчет" бюллетеней и вписывание в протокол цифр от балды (или исправление исходных цифр на потолочные)

Я, впрочем, понял, как правильно науку применить к.

Разбиваем участки на группы
а) наблюдателей не выгоняли, есть протокол, результаты протокола совпадают с публикацией - хорошие
б) совсем плохие - выгнали наблюдателей без протокола, результаты протокола у наблюдателей - расходятся (сильно) с официальными данными.
в) все остальные.

И смотрим распределение по ним отдельно.
И если в группе а) наблюдается что-то похожее на общемосковское, то одно дело; если группы а) и б) резко отличаются и могут (в сумме) образовать общемосковское распределение - другое дело.

Судя по протоколам от наблюдателей, не всегда им удавалось предотвратить искажения при подсчете бюллетеней или вброс. То есть наблюдатель говорит, что вроде все ок, - а результаты заметно отличаются от "первой" московской нормы

Есть более интересный вариант сравнения - участки со сканерами (КОИБами) и без. В Зеленограде практически на всех участках были КОИБы - и там у ЕдРа меньше 30%, а у Яблока больше 10%, хотя вообще-то Зеленоград - один из наименее "либеральных" и оппозиционных районов города. Все-таки это уже не совсем Москва

Если наблюдатель говорит что все ОК - значит все ОК, первая группа. Ну, допустим, вычеркнем наблюдателей от ЕР, как пристрастных.

Почему не быть и естественному (крупному) разбросу то?

Потому что пока разброс маленький, он выглядит естественным - и похожим на то, что было раньше. Как только разброс большой (больше +/- 10 п.п. от среднего за ЕдРО) - вместо логичного облака мы видим хаос. Или хаос, согнанный к 50%

Мне сдается, что по числу приписанных будет еще веселее, маленькие участки - там где плотность населения ниже.

Если покопаться в гугле, то найдется очевидные графики "явка - доходы" (или "доходы - за кого голосуют"), во многих странах люди с высокими доходами и живут отдельно (и у нас - тоже, хотя это и меньше выражено)

Я могу исключить малые участки, думаю, ничего не изменится.

Ну вы же смотрите корреляцию "размер участка - голоса", как можно из нее исключать маленькие участки? Или вы меня запутали.

Да легко можно.

Смотрите, основная идея - если взять похожие участки, то в них должен быть гаус (ох, ну, биномнальное, но буду называть его гаусом). Любое негаусово распределение должно иметь под собой какую-то модель, почему избиратель за партию старательно прётся на какие-то участки, а другие - избегает.

Гаус - это когда избиратель партии случайно-равномерно приписан к похожим участкам. Это кажется логичным.

Я не против. Пусть будет модель без гауса. Давайте выберем все участки, которые с высоким процентом, и посмотрим - что же их объяединяет? Есть какая-то у них общая черта?

Боюсь что без демографии (пол, возраст, доход, "рабочий-колхозник") - не выйдет.

Еще раз, у нас пол, возраст и доход как-то приписываются к одним участками, а не к другим?

Доход - точно (элитный дом/новостройка/старый дом). Возраст - я думаю что в новостройках без муниципальной части - средний возраст ощутимо меньше. Пол - в общаге медицинского пол очень сильно смещен (у меня она в двух домах, я с этими медичками в одном автобусе езжу).

С укрупнением - разница в доходах остается точно, в образовании - тоже, в поле и возрасте - стирается.

Почему в других партиях разницы нет?

Я глобальный анализ не проводил, но там где подтасовки для меня очевидны - там я видел убыль голосов у Яблока и СР.

Так как вы анализируете весь набор данных - то разница у вас должна быть.

Я полагаю, что основная махинация была "голоса к партии за счёт непришедших на выборы, фиктивно увеличивая явку".

Потому, что это шло не на всех участках (и, даже, не во всех областях) - имеем не гаусианну.

Всё остальное носило менее явный характер, и хотя бы поэтому меньше отразилось.

На всякий случай продублирую, всосал WF debanding

http://alextutubalin.livejournal.com/270990.html?thread=3564174#t3635086

(рука все время чесалась назвать его WTF debanding)

То есть, поясню

Если мы говорим о хвосте в масштабах страны, то это значит что в масштабах всей страны партия власти очень неравномерно работала с домами, приписанными к разным участкам. Где-то вела сильную агитацию, а где-то слабую.

Что сторонники партии власти живут кластерно, кучкуясь в определённых территориях, где их больше по сравнению с общим фоном.

И такая неравномерная картина - по всей стране (есть общий "песок", а на нём крупные зёрна стороников, причём - точно по границам избирательных участков).

Это что, может быть так???

Не, ну конечно это все пятнами, что за вопрос. Мичуринский проспект - с одной стороны ФДС, с другой - "Шуваловский квартал". Кардинально разное будет.