Ссылочное ранжирование в Рунете, часть 4: трафик по тематикам

Очередная статья на тему SEO: Ссылочное ранжирование в Рунете, часть 4: тематический трафик.
Допустим, у нас есть данные о частотах запросов (а они есть), тогда по ним можно посчитать очень интересное.
  • Берем запросы и раскладываем их по тематикам. Да, полноты не добиться, но больше половины - разложим. Получим оценку поискового трафика по данной теме.
  • Поделим ссылочные бюджеты на этот трафик - получим оценку стоимости привлечения пользователей из поисковиков.

Все это проделано в статье.

Выводы, как обычно, довольно любопытные:

  • Если смотреть по тематике, а не по конкретному запросу, то стоимость привлечения клиентов через SEO в разы и порядки дешевле, чем привлечение их же контекстной рекламой.
  • Естественно, самые дорогие клиенты - в узких тематиках. Мало запросов, высокая конкуренция и так далее.
  • Судя по всему, продвижением по низкочастотным запросам занимаются мало, по многим крупным и интересным тематикам (Автомобили, например) количество уникальных текстов ссылок на порядок меньше количества формулировок запросов. При том, что текст ссылки может быть уникальным за счет названия сайта-клиента.

Зачитать текст

Тематические бюджеты: изменения и дополнения

Достаточно плодотворная дискуссия в ru_seo, плюс множество персональных обсуждений убедили меня в том, что статья про ссылочные бюджеты по тематикам нуждается в некоторой доработке.

Что и было сделано. Встречайте Ссылочное ранжирование в Рунете, часть 3b: тематические бюджеты с изменениями и дополнениями.

Изменения и дополнения:

  • Не учитываем ссылки с "мегапорталов" - сайтов с формальной ценой ссылки более $500
  • Помимо топовых бюджетов считается среднее для Top-10 бюджетов

Напоминаю, что относиться к этим данным следует весьма осторожно:

  • многие сайты продвигаются по многим темам сразу;
  • многие сайты продвигаются не только мордами;
  • большой бюджет на ссылки не гарантирует успеха в продвижении.

Эх, отечественная сетевая журналистика ....

CNews зажог.

Рунет: рынок ссылок набирает обороты
Цитаты:

Аналитическая компания Черный квадрат опубликовала результаты исследования рынка ссылок в рунете.
Специалисты компании считают, что этот рынок ....

.... Аналитики отмечают, что бюджеты ссылок в рунете неуклонно растут и этот процесс будет продолжаться в ближайшие годы.
Господа из холдинга РБК, пожалуйста запомните:
  • Я - адын. Не аналитики, не специалисты компании, а лично, без ансамбля, Алексей Тутубалин.
  • Написать такую новость, передрав у меня цифры, и не поставить ссылку на исследование и/или на сайт и/или на меня - это просто высший пилотаж отечественой нет-журналистики.

Йа обиделсо (а ссылку на вас выше поставил в <noindex>).

Торжество новых технологий

Справа - новый, на SiRF Star III, Слева - старый, на старом гарминовском чипсете. Окно - справа, сзади, других источников сигнала из космоса в комнате нет.
Приношу извинения за качество - смысл понятен, а мучаться убирая блики - лень

_MG_1124.jpg

В-общем, граждане, если вы хотите покупать GPS-приемник для использования в аутдоре, то либо готовьте 600 баксов, либо ждите пока свежеанонсированные eTrex-ы на SiRF III новом чипсете (говорят, что даже лучше SiRF III) доберутся до России.

Желающим мне рассказать, что все вокруг завалено тайваньскими изделиями для КПК и так далее спешу сообщить свой список требований к GPS:

  • Питание от пальчиковых батареек, двух пальчиков должно бы хватать на два ходовых дня. Потому как все эти встроенные LiIon от розетки в пихте не зарядишь. За неимением розетки.
  • Работа в юзерских координатах (c возможностью их задать, естественно). Карты у нас от советской власти достались, система координат 42-го года....
  • Либо большая память на текущий трек, либо сохраненный трек должен быть с высотами.

Ссылочное ранжирование в Рунете, часть 3: тематические бюджеты

Продолжаем палить SEO-темы: Ссылочное ранжирование в Рунете III: бюджеты по тематикам. Если в двух словах, то все просто:
  • Берем все морды, выделяем те, где ссылки что-то стоят (и этих ссылок не слишком много и не слишком мало). Стоимость каждой ссылки считаем по волшебной формуле.
  • Выкачиваем все страницы, на которые ведут эти ссылки.
  • Автоматически, с помощью секретной технологии Семантическое Зеркало, определяем тематики выкачаных страниц и тематики ведущих на них ссылок.
  • Распределяем цены ссылок по определившимся тематикам.
  • Сортируем по месячному бюджету, добавляем в суп сайты - лидеры тематик по бюджетам.

Подробности читать тут.

Получается достаточно любопытно. Скажем, я знал что на пластиковые окна тратятся тысячи в месяц, но семь килобаксов только на морды - это уже за гранью добра и зла.

ЖЖ, Коммерсант и Суп

Как многие знают, если вы залогинены в ЖЖ, то вы залогинены и в kommersant.ru

Я согласия на такое не давал, впрочем меня и не спросили.

ЖЖ-шный саппорт пишет, что это счастье - для всех, а не только для "кириллического сегмента", проверять нет сил.

С коммерсантом (и, по всей видимости, всеми российскими партнерами) проблема решилась просто - если заблокировать куки на account.livejournal.ru, то наступает счастье - вместо автологина красивое крутящееся колесико и все.

В Firefox 2.0: Tools - Options - Privacy - Cookies/Exceptions - добавить account.livejournal.ru

А саппорт я запросил про полный список партнеров, ждем-с

И о палатках....

В 2003-м году я очень хвалил басковскую палатку Shark Fin. На тот момент, это был очевидный лидер рынка: дешевая ($140), легкая, в-сравнении с конкурентами (3.2 кило в сборе), с силиконовой пропиткой верха т.е. не впитывающая воду и все такое прочее.

Времена меняются: за 2004-2006-й годы Баск преследовали проблемы с качеством, то дуги ломались, то швы расползались. Одновременно росла цена, сейчас Shark Fin II стоит уже $280.

Европейские и американские конкуренты за отчетный период сумели наладить регулярные поставки (по меньшей мере в Москву). Вследствие этого, на майских в Крыму была опробована Marmot EearlyLight .

Пять дней и три каньона

Крым, майские праздники-2007.
29 апреля (вечер) - 4 мая (день):

карта кликабельная, красная линия - пешком, синяя - переезды по населенке на такси.

Новый PageRank

Google начал публикацию новых значений toolbar Pagerank.

Несложная прикидка показала, что rank получили страницы, проиндексированные 2-3-го апреля и ранее. Более новые страницы - не получили. Вот например:

  • http://www.lexa.ru/nginx-ru/msg10113.html - 3 апреля, 00:59 - не получила PR
  • http://www.lexa.ru/nginx-ru/msg10112.html - 3 апреля, 00:28, PR3

Сильно оперативнее, чем в в прошлый раз, когда в начале января были учтены страницы за 12-13 ноября.

О пирамидальном сложении на параллельной архитектуре

На параллельных архитектурах часто приходится делать операцию reduce (складывать и умножать вектора, считать среднее и так далее). В отличие от однопоточной конструкции, где все тривиально, параллельная reduce разбивается на два этапа: сначала мы всеми исполняющими юнитами обрабатываем куски данных, а потом должны сложить (усреднить, поделить) результаты уже меньшим числом процессоров.

Для второго шага reduce обычно используется пирамидальная схема: сначала в N/2 потоков сложим N результатов попарно, затем сложим N/2 в N/4 и так далее. Число итераций равно, очевидно, log2N....

640 килобайт будет достаточно...

Вот смотрите:
  • Radeon X1800 - 512Mb памяти
  • Geforce 8800GTX - 768Mb
  • NVidia Quadro 5600 - 1.5Gb
  • AMD (ATI) Stream processor - 2Gb
А ведь еще 1-2 поколения и будет 64-битная адресация

Русский язык от Microsoft

Жена уже спалила тему, но опер велел про всех писать, ибо историю рассказали более подробную.

Компания Информатик в свое время выиграла тендер на поставку русской орфографии для MS Office и поставляет оную орфографию до сих пор. В рамках борьбы за политкорректность, Microsoft потребовала, чтобы при проверке правописания пользователю не предлагались offensive words. Как так - спросили разработчики - там же слова из словаря ? А убрать из словаря! - отвечают из MS. И убрали.

Теперь страничка ворда будет выглядеть как-то так:

microsoft_jjot.png
(надеюсь, все помнят, что подчеркиваются неправильные слова)

И, чтобы два раза не вставать, посмотрите как замечательно строятся гипотезы о словообразовании в одном новом поисковом стартапе: искать «ховать» в visualworlds.ru (слабонервным не ходить, ненормативная лексика). слово интить они тоже знают

3Ware жжот

Решил сделать из домашнего роутера еще и файлсервер. Заменил внутренний ether на гигабитный, добил дисков, поставил raid-контроллер. Контроллеру 3Ware 9650, велено сделать из 3-дискового stripe и еще одного диска - RAID5 (т.е. сначала сделали stripe, перелили туда содержимое старого диска, теперь старый диск подключаем как parity). Диски одинаковые, 200-гигабайтники, Seagate 7200.10. За сутки сделано 50% миграции. Я даже затрудняюсь сказать, как нужно программировать, чтобы такого результата добиться. Update Поребилдилось. Часов так за 45. Но текрам быстрее, создание файла большими блоками на RAID5 из 4-х дисков делалось со скоростью 105-120Mb/sec на текраме и только 80 Mb/sec на этой хреновине. Нужно считать 3 дорожки, подумать над ними и записать на 4 (диски одинаковые, результирующая емкость массива не меняется и так далее).

Даже если делать операцию посекторно, то секторов у нас всего - 1.6 млн (4 диска x 400 тыс. секторов), в половине объема - 800 тыс, получается что хреновина обрабатывает 10 секторов в секунду. Но извините, у нас seek time - 11 мс, а если оставлять голову на дорожке, то еще меньше (полоборота - 4 ms). И что мы делаем еще 90 миллисекунд ? Записываем в уголок состояние миграции ? Вообще, по шуму головок - очень похоже. И ведь хотел купить Текрам, но победили такие соображения:

  • Посмотрю на 3Ware, вдруг они стали хорошие (предыдущие варианты, 9500-я серия, текраму сильно проигрывает)
  • Текрам - PCIe-8x, а у меня есть свободный слот 4x
По первому вопросу: текрам ARC-1xxx - сильно лучше. Т.е. по производительности 3Ware кажется догнали, но по всему остальному - как был тихий ужас, так и остался. По второму вопросу получилось смешнее, хотя тут виноват не 3Ware. Мамка на 965-м чипсете, имеет 20 PCIe lanes, которые разведены на 16x слот и на слоты 1x и 4x. Так вот, выяснилось, что хотя в биосе есть выбор "работает 4x"/"работает 1x и 4x как 2x", этот выбор нифига не работает, когда в 4x-слоте что-то есть, слот 1x отключается (а там у меня ethernet). Пришлось ставить RAID в слот для видеокарты, видеокарту ставить простую PCI-ную (прощай идея поставить на эту машину MacOS) и вся красивая идея испортилась. Мамку зовут ASUS P5B-E Plus. Надо ли говорить, что драйвера от ее Marvell-овского ethernet-а, взятые с сайта marvell под FreeBSD 6.2 не работают ?

Ссылочное ранжирование в Рунете II: тексты ссылок, реципиенты ссылок

Продолжаю упражнения со ссылочной базой с "морд" сайтов рунета:
Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылок.

Рассмотрены:

  • получатели (реципиенты) ссылок с главных страниц;
  • наиболее частые тексты ссылок;
  • наиболее частые слова в текстах ссылок;
  • какие бюджеты тратятся на "морды"
  • какие тематики наиболее конкурентные
Обсуждать можно в коментах к этой записи.

Профили и профилирование

Эпсон, как известно, снял с производства бумагу Colorlife(у меня ее большой запас и вообще она мне нравится), соответственно, в поставке Epson 3800 профилей под эту бумагу нет.

Зато есть много других профилей, причем с такой странностью: охват всех глянцевых бумаг (Luster, Glossy, Semigloss) одинаков до копейки, охват всех матовых бумаг - меньше, но тоже одинаков до копейки. В реальной жизни так не бывает, разбираемся.

Для начала, строим профиль для Colorlife. Три страницы таблиц, сушим, спектрофотометр, Monaco Profiler, получаем...

О левом уклоне

Обработал данные о кликах в черный квадрат за прошедший год (более 220 тысяч кликов).

Получается любопытно:

  • ну, что кликают в углы - это и так было известно. Но что туда плохо попадают....:)
  • интереснее, на мой вкус, довольно сильная смещенность влево: почти 55% кликов идет в левую половину квадрата

Epson 3800

Все-таки далеко зашел прогресс. Принтер формата А2 один человек может донести от машины до лифта, поднявшись на два пролета по лестнице. И никакой грыжи.

Понравилось:

  • Родные профили (для Epson-овских бумаг, естественно) - вполне приличного качества.
  • Печать ч-б фото выше всяких похвал: абсолютная нейтральность, отличное разделение теней (L=2 от L=1 отличается !)
  • размеры и вес: принтер встал на место Canon S9000 (который A3). Нет, он пошире сантиметров на 10 и повыше, полки в шкафу пришлось переставлять, ну и все.
Удивляет:
    профили для разных бумаг (Premium Glossy и Semigloss; Archival Matte и Velvet) имеют одинаковый до копейки охват. Надо при случае перестроить.
Не нравится:
  • Видно, что экономили каждую копеечку. Скажем защелка передней панели - плохая, пришлось туда пару магнитиков приклеить на Моменте.
  • Ну и то, что переключение с Photo Black на Matte Black стоит примерно $2 - тоже нравится не может :)

О среднем downtime рунета

Лемма: в любой, произвольно выбранный, момент времени 1-2% сайтов Рунета не отвечают на запросы. То же относится и к серверам DNS.

Следствие: даже со скриптами бесконечной скорости, нельзя провести очередной сбор данных черного квадрата за один день. Чтобы собрать все нужно начать в понедельник и повторять ежедневно до пятницы. При этом, 98% будет собрано в понедельник.

Рунет в марте 2007 года

Выпустил в свет статью Рунет в марте 2007 года: домены, хостинг, география сайтов.

Написано полностью в формате предыдущего выпуска годовалой давности, поэтому цифирки можно сравнивать (что и сделано).

Краткие выводы:

  • никаких резких движений не произошло
  • сайты все больше перемещаются на хостинги с in-house
Из интересных фактов:
  • 22.7% Web-серверов - nginx
  • Мастерхост за год нарастил клиентскую базу почти втрое (остальные лидеры росли в лучшем случае чуть-чуть быстрее рынка)

Ссылочное ранжирование в Рунете

Написал очередную нетленную статью о ссылочном ранжировании в Рунете, включая покупку и продажу ссылок.

Рассмотрены:

  • общее состояние и динамика ссылочного ранжирования с главных страниц в Рунете за 2006 — начало 2007 года;
  • критерии, по которым можно отличить сайты с естественными ссылками от сайтов с платными ссылками;
  • оценена доля сайтов, занимающихся продажей ссылок, и общий оборот этого рынка.
Обсуждение лучше всего вести в комментариях к этой записи.

Программирование NVidia 8800: вести с веба

В University of Illinois at Urbana, куда я чуть было не уехал заниматься геологией 15 лет назад, в настоящее время читается курс ECE 498 AL : Programming Massively Parallel Microprocessors.

Опуская обычные охи "ну почему этому не учат на ВМК" - все в наших руках и я думаю, что через пару лет такие курсы будут и у нас, тема вкусная - хочу обратить внимание на слайды и транскрипты лекций, доступные вот тут. Читают приглашенные лекторы из...

Поисковый трафик в рунете

Берем, значит, статистику LiveInternet по всем сайтам и по пользователям из России. Для удобства, будем оперировать среднесуточными значениями за февраль.

Что мы видим:

  • Среднесуточное количество просмотров страниц: 32.7 миллиона.
  • Среднесуточная аудитория: 4.5 млн. человек.
  • Среднесуточное количество сессий: 12 млн.
Смотрим теперь статистику по переходам с поисков: количество переходов (строчка всего): 12 млн.

Получается, что 36% всех просмотров страниц - это переходы с поисковиков. Что-то много.

Считать сессии наверное неправильно: насколько я понимаю...

Рунет: растет, растет и растет.....

По результатам сбора данных для очередного выпуска черного квадрата, живых сайтов в рунете* уже более 600 тысяч**.

Полмиллиона отмечали в ноябре, значит за 4 месяца рост на 20% (т.е. более 70% годовых). Но если посмотреть на данные прошлого марта, то увидим реальный рост примерно на 60% (точно будет известно через неделю). Откуда следует, что в последние месяцы рост ускорился.

*как и всегда в черном квадрате, когда я пишу в рунете я имею в виду длинную формулировку сайты domain.tld или www.domain.tld, где domain.tld — домен 2-го уровня в .RU и .SU.

**на самом деле, в понедельник наскребется еще несколько тысяч, в выходные лежит обычно пара процентов сайтов.

Upd: Как и обещал, к вечеру понедельника их стало 605 тысяч. Ну не несколько процентов, а полпроцента. Но несколько тысяч.

NVidia 8800GTX: скорость чтения текстур

В предыдущей части мы рассматривали чтение из глобальной памяти Geforce 8800 напрямую ("как из массива C"). При этом отсутствует кэширование, но при оптимальной схеме доступа получается (согласно указаниям NVidia) наибольшая производительность.

В то же время, скорость доступа при неоптимальном паттерне очень маленькая. Для решения этой проблемы (помимо оптимизации паттерна) NVidia CUDA предлагает доступ к памяти как к текстуре. При этом работает двумерное кэширование (оптимизированное под локальный доступ), пиковые скорости должны получаться меньше, а наихудшие варианты - наоборот лучше....

NVidia 8800GTX: пропускная способность памяти (при использовании CUDA)

После чтения руководства по NVidia CUDA, остается ощущение сложности модели программирования: треды, блоки тредов, warp-ы, иерархическая память. Непонятно, какие параметры вычислительной задачи оптимальны и какие у них вообще допустимые значения. Само руководство точных рекомендаций не дает, дает лишь приблизительные.

Из общих соображений, понятно что самая медленная часть суперкомпьютера - память. С одной стороны, теоретическая пропускная способность (bandwidth) составляет 900MHz * 384 бита * 2 (DDR) = 86.4 GB/sec. С другой стороны, раздел 6.1.1.3 руководства говорит о 200-300 циклах memory latency (при, по всей видимости,случайном доступе).

К счастью, проблема легко изучается: если взять достаточно много данных (скажем, полгигабайта) и, например, сложить все 4-байтовые значения (как float), то основные затраты времени будут именно на чтение из памяти, а всей прочей арифметикой можно пренебречь (или подсчитать ее отдельно).

Pages

Subscribe to blog.lexa.ru: все статьи