Опять про wordstat

Яндекс поправил проблему с Wordstat, о которой я писал на позапрошлой неделе, настало облегчение.

Но сам пример с икея/икеа настолько хорош, что заслуживает еще одной заметки.

На картинках ниже мы видим помесячное распределение частот для запросов "икея" (верхняя картинка) и "икеа" (нижняя).

Картина, надо сказать, очень любопытная:

  • "естественным" запросом (т.е. тем, который будет набирать большинство людей) я считаю запрос "икея" (который неправильный с точки зрения брэнд-бука компании :)
  • Однако из графиков следует, что до начала 2009 года никто этот запрос не задавал (не верю!).
  • В ноябре 2009 "икея" спрашивали в два раза чаще, чем в "икеа": 315 тысяч против 157 (верю!).
  • А в декабре 2009 относительные частоты резко изменились: "икея" спрашивают уже почти так же, как брендбучную "икеа", 258 тысяч против 230 (не верю!).
  • Эта тенденция продолжилась и в январе, в текущих данных (обновленных вчера, судя по надписи) месячная частота "икея" (229 тысяч) уже меньше частоты "икеа" (249 тысяч). Ладно бы по запросу "икея" ничего бы не находилось, тогда возможно пользователи бы "добровольно мигрировали" и стали бы набирать "правильно" (брэндбучно), так ведь находится икейский сайт, а что еще по такому запросу нужно?
  • Картинка по неделям еще более красивая: Внезапность, конечно, немного сглажена новогодними праздниками.

В некоторый момент (неизвестный мне сейчас, я не следил) после поиска "икея" яндекс стал подсказывать "быть может вы искали икеа" и понятно, что при этом частота запроса "икеа" вырастет. Но "икея" при этом - не изменится (при прочих равных), как спрашивали, так и будут спрашивать.

Если бы была просто склейка опечаточником, то неверное написание было бы где-то около нуля, и все уходило бы в "правильное" написание. Однако на графиках не видно и этого: предположим, что нулевая частота "икея" до 2009 года связана именно с такой склейкой, тогда начиная с начала 2009 года должен был бы быть провал по "каноническому" запросу "икеа" (т.к. ему в 2008 добавляли частоты, а потом перестали), но такого провала нет.

Мораль, к сожалению, совершенно неконструктивная:

  • Мы видим резкое изменение процедуры подсчета в начале 2009 года и в начале 2010.
  • Следовательно никаким историческим данным wordstat доверять a priori нельзя.
  • Кроме того, ясность на тему а что же показывает wordstat если и была какое-то время, то у меня лично - полностью испарилась.
  • В частности, изучение столь волнующих многих сезонных запросов, где нужны исторические данные, может стать интересным. Вот скажем календарь 2010 стал полулярным после нового года по причине изменения методики подсчета или по "естественным причинам"?

P.S. Ссылки для самостоятельного изучения:

  1. икеа по неделям
  2. икея по неделям
  3. икеа по месяцам
  4. икея по месяцам

Comments

По последнему вопросу определнную (но не абсолютную) ясность может дать такой тест: "календарь 2009" помесячно
"производственный календарь 2009" помесячно

По предпоследнему вопросу традиционный декабрьско-посленовогодний всплеск потребительских запросов легко нивелировал просадку статистики по "икеа", связанную с расклейкой статистики.

По предпредпоследнему вопросу - показывал и показывает теоретическое количество показов рекламы по условию. С учетом меняющихся методик (склеек, переколдовок и т.п.), что очевидно меньшее зло, нежели показывать неверный прогноз. Гармонические факторы на неравномерной выборке ретроспективно мониторить без поправки на неравномерность нельзя, что тоже очевидно. Но ж на то вы/мы и оналитеги, чтоб все учесть.

Нет Миш, извини, но "не верю".

Я тоже в обратном (относительно твоего) порядке:

Если смотреть по неделям, то 50 тысяч в неделю (почти ровно) перенеслись из "икея" в "икеа" (убавилось и добавилось почти одинаково). Это не имеет никакого отношения к реальным частотам запросов (они же - реальное число показов рекламы), если бы была подстановка икея -> икеа, это одно дело, но подстановки *нет* поэтому никаких причин, по котороым "икея" бы падала с одновременным ростном "икеа" не просматривается (в гипотезу, что кривая спроса была такая, что +50к у одного и -50к у другого - просто случайное совпадение верится с трудом. Особенно если смотреть прошлогодние новогодние праздники, где никакого большого горба в декабре или январе нет, есть небольшой).

Т.е. или раньше было "неверное предсказание" по "икея", или сейчас.

Оно вообще все выглядит странно - в январе-марте прошлого года "ниоткуда" наросло 100 с хреном тысяч, тогда как по второму запросу компенсирующее падение было - тысяч 15-20 (на глазок)

А с календарем тоже труба: как мы видим на икейском примере в начале 2009 методика тоже менялась.

реальным частотам запросов (они же - реальное число показов рекламы)

Во-первых, это не совсем верно, во-вторых, полагаю, склейка/переколдовка запросов и склейка/переколдовка условий показа суть разные вещи и разные механизмы используются. Нужно еще учитывать возможные грамматические корректировки: например, "икею", "икеи" раньше были формой от "икеа", стали от "икея":-0

"икеи" является формой "икея" (сравнивать: http://wordstat.yandex.ru/?cmd=words&page=1&text=%D0%B8%D0%BA%D0%B5%D1%8... http://wordstat.yandex.ru/?cmd=words&page=1&text=%D0%B8%D0%BA%D0%B5%D0%B...)

т.е. если бы у "икея" начался бы резкий рост - я бы поверил, но там как раз падение.

Не, я продолжаю придерживаться теории заговора о том, что это все игры с обработкой на стадии обработки статистики а не на стадии показа серпа.

т.е. если бы у "икея" начался бы резкий рост - я бы поверил, но там как раз падение
Ну да, перепутал наоборот)

В любом случае, причину (одну из?) следует искать в области "то, что раньше считалось директом (и/или япоиском?) как икея, теперь считается икеа"

склейка/переколдовка запросов и склейка/переколдовка условий показа суть разные вещи и разные механизмы используются

Да запросто. Только попадется въедливый рекламодатель и ему придется это объяснить. Про переколдовку легко объяснить "вот запрос, вот что мы ищем на самом деле", а если "переколдовка" показа рекламы идет по другим *невидимым* правилам, то это очень плохо (именно по причине невидимости, рекламодатель не может понять, на что палятся бабки)

это да

>> Оно вообще все выглядит странно - в январе-марте прошлого года "ниоткуда" наросло 100 с хреном тысяч, <<
до марта просто не было статистики по этому слову.

Кстати, за январь-февраль 2009-ого статистики тоже нет (см. табличное редставление).

Но сам пример с икея/икеа настолько хорош, что заслуживает еще одной заметки

Очень интересно будет её почитать. А ещё макдональдс/макдоналдс туда же.

Мне не кажется, что бигмачница - такой уж интересный поисковый запрос. А вот хёндэ-хуйндай - да, туда же.

что-то я не пойму в чём фурор.

1: "статистика" ведётся только по зарегистрированным словам.
Напр. слово "айкиа" не зарегистрировано, сотв. "статистика" по нему и не ведётся, хотя на запрос яндекс что-то находит (Статистика слов: айкиа 1 366.) и вторым пунктом даже уведомляет, что (цитирую) "В Штатах ее называют Айкиа".
...а заодно и уточняет: "Быть может, вы искали: акиа "

2. в то же время вместе с "икея" было зарегистрировано ещё два слова: "айкея" и "акеа" (а "айкия" - нет :-))
ни "айкея" ни "акеа" не сопровождаются WDYM, т.е. с точки зрения Яндекса они _никак_ не привязаны к "икеа"

3. характер "статистики" запросов (т.е. форма огибающей) "икея" ~= "акеа" и, соотв., "икеа" ~= "айкея".
т.е. скорей всего характер кривулек отображает реальный характер пользовательской активности а не особенности сбора "статистики".

-+-
..учитывая "помесячную" гранулярность "статистики" (после декабря 2008 сразу март 2009, напр.) трудно что-то говорить о характере запросов (кто во что "перетекает"). Гораздо интересней смотреть по неделям - после 20-ого декабря кол-во запросов "икея" резко падает, зато кол-во запросов "икеа" за декабрь резко и устойчиво возросло... наверное реклама оказалась эффективной и народец таки выучил правильное написание ,-)

после 20-ого декабря кол-во запросов "икея" резко падает, зато кол-во запросов "икеа" за декабрь резко и устойчиво возросло... наверное реклама оказалась эффективной и народец таки выучил правильное написание

Вот взял и *внезапно* выучил? А до этого несколько лет не мог? Такие процессы так быстро не происходят.

С такими частотами и такими скачками, единственная приемлемая гипотеза о склейке - это внутри самой изучаемой пары.

Лично я исходил из презумпции разумности:

Во-первых - откуда вообще взялась идея запрашивать "икея" ?
очевидно, это "фонетические" запросы от тех, кто в глаза не видел "фирменного" написания.
Т.е. если на вопрос "а где это вы такую цацу купили?" в ответ получили "в икее", то логично предположить, что "именительный падеж" даст нам "икея".

Далее, - если человек на запрос "икея" находит то, что искал и видит, что он зовётся "икеа", то в следующий раз он будет искать "икеа".
Логично ? - логично.

Если же человеку изначально мельтешить перед глазами логом "ИКЕА" (т.е. кормить ТВ рекламой), то он сразу научится спрашивать "икеа", минуя "детскую фазу" - "карова"/"икея".
Логично ? - логично.

-+-
>> С такими частотами и такими скачками, единственная приемлемая гипотеза о склейке - это внутри самой изучаемой пары. <<
ах единственная _приемлемая_!!!
...понимаю.
Тогда придётся признать, что они с гуглем в [преступном] сговоре:

http://www.google.com/trends?q=%D0%B8%D0%BA%D0%B5%D1%8F%2C+%D0%B8%D0%BA%...
("икеа" - красная, "икея" - синяя)

http://www.google.com/trends?q=%D0%B8%D0%BA%D0%B5%D1%8F%2C+%D0%B8%D0%BA%...

-+-
PS: если картинки не видны, то на странице http://www.google.com/trends выполнить запрос "икея, икеа" и далее по тексту.

Ну вы посмотрите на первый график, на неделю перед праздниками пользователи забыли слово "икея", потом вспомнили?

Это фаза венеры там.

что бы там ни было, но результаты "по гуглю" и "по яндексу" показывают сильную корреляцию... т.е. логично предположить, что существует _общая_ причина таких кривулек.

...лично я склонен полагать, что эта общая причина суть [агрессивная/эффективная] рекламная акция Икеи на ТВ. рекламу сняли - всё вернулось на круги своя

либо, всё-таки, гугель с яндексом нехило попалились ,-)

Нет там никакой "сильной корреляции", если еще и на ось времени смотреть.

"По яндексу" оно упало после нового года и не до нуля. А "по гуглу" - перед новым годом и до нуля. А потом вернулось.

Т.е. я понимаю, гугл далеко, поправка на скорость света, но не до такой же степени.

1: Я сказал "корреляция", а не "совпадение". хотя бы уже потому, что гугень выдаёт посуточную статистику, а яндекс - понедельную.

2.а: согласно гуглю, запросы "икея" прекратились после 20-ого декабря и возобновились 2-ого января с промежуточным "всплеском" 27-ого декабря (воскресенье)
2.б: по яндексу, за периоды "21.12 - 27.12" и "28.12 - 03.01" фиксируется резкий спад кол-ва запросов "икея".

Если учесть, что яндекс выдаёт "интеграл за неделю", то поведение кривуль (по времени в особенности) "тождественно с точностью до нормировочной константы". :-)

Не, ну 28 декабря - 3 января это такой прекрасный период для покупки мебели.....

Затем "икея-гугл" вернулась на прежнее место, а "икея-яндекс" еще больше упала (смотреть надо на отношение частот....).

>> Не, ну 28 декабря - 3 января это такой прекрасный период для покупки мебели..... <<
Суббота и воскресенье - самое то.

Посмотри статистику гугля по "ikea" и сам всё увидишь.
Кстати, "весь мир" 27-ого декабря [тоже] "днём с огнём" искал "ikea" - так гугель говорит ,-)

>> Затем "икея-гугл" вернулась на прежнее место, а "икея-яндекс" еще больше упала (смотреть надо на отношение частот....). <<
Это не отменяет простого наблюдаемого фак[т]а: в период с 20-ого декабря по 3-е января - когда, типа, "на яндексе начались безобразия" - статистика по гуглю и яндексу качествено совпадает.

т.е. одно из трёх (в произвольных пропорциях ,-))
*: яндекс поломался сам и сломал гугель
*: гугель сломал яндекс
*: сломалось что-то другое, а яндекс и гугель просто зафиксировали это.

Я еще раз призываю построить частное "икеа"/"икея" по яндексовским данным и сравнить их с гугловыми. И увидеть что
1) что-то другое действительно начало ломаться после 21 декабря
2) но на гугле оно починилось, а на яндексе - все еще поломаное.

Причем скачок почти в 7 раз.

Я смотрю на гугловый график - и есть ощущение что запрос "икея" просто периодически выпадает из обработки. Т.е. реально там не 0, просто упало меньше порога.

Однако по wordstat запрос "икея" до недавнего времени был более частотным.

у гугля отношение было обратным: ~2:1 в пользу "икеа"
(а у яндекса ~3:2 в пользу "икея")

Ага, именно было 3:2 в пользу икея а стало 4.5:1 в пользу икеа. И перелом произошел не мгновенно, а за две недели.

Для Москвы - числа другие (0.8:1 и 5.2:1), но сила эффекта такая же. Если бы это была массированная рекламная кампания Икеа, я бы ее заметил, как местный житель. Даже в угаре новогодних каникул.

И все эффекты на стороне яндекса (смена морфологии, смена процедуры обсчета) - не должны бы быть растянутыми по неделям, если конечно они специально не сглаживают нечто.

Нужно еще пару недельных данных, актуальные то вообще сегодня обновились, а недельные - только по 17-е, через пару недель вернемся к вопросу.

да у них просто пиздец в поиске в последнее время творится.
статистике не отражает просто ничего.
есть у меня сайтец масенький, я его собствеено не продвигаю, но если настроение плохое -- почему бы палочкой не полыкать?

ну и смотрим по нему статистику (в http://webmaster.yandex.ru)
"Информация о поисковых запросах отсутствует"

grep yandsearch:

94.51.74.250 [26/Jan/2010:17:45:23 +0300] "GET /pipermail/runog/2009-October.txt HTTP/1.1" 200 7942 "http://yandex.ru/yandsearch?p=1&text=glue%20record&lr=56"
178.49.253.75 [27/Jan/2010:15:11:31 +0300] "GET /pipermail/runog/2009-March/000218.html HTTP/1.1" 200 3355 "http://yandex.ru/yandsearch?clid=9582&text=quagga+distance&lr=65"
95.153.180.86 [31/Jan/2010:12:56:01 +0300] "GET /pipermail/runog/2009-September/000251.html HTTP/1.1" 200 4060 "http://yandex.ru/yandsearch?p=2&text=%D0%BD%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0%20%D0%90%D0%9F%D0%9A%D0%A8%20%D0%9A%D0%BE%D0%BD%D1%82%D0%B8%D0%BD%D0%B5%D0%BD%D1%82%20%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D0%B8%203&clid=41124&lr=35"
85.143.48.242 [01/Feb/2010:14:33:04 +0300] "GET /pipermail/runog/2009-September/000251.html HTTP/1.1" 200 4060 "http://yandex.ru/yandsearch?text=%22%D0%9A%D0%BE%D0%BD%D1%82%D0%B8%D0%BD%D0%B5%D0%BD%D1%82%22+ipfw+%D0%BD%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0&lr=56"

в общем, к 13 удару часов