Новый PageRank

Google начал публикацию новых значений toolbar Pagerank.

Несложная прикидка показала, что rank получили страницы, проиндексированные 2-3-го апреля и ранее. Более новые страницы - не получили. Вот например:

  • http://www.lexa.ru/nginx-ru/msg10113.html - 3 апреля, 00:59 - не получила PR
  • http://www.lexa.ru/nginx-ru/msg10112.html - 3 апреля, 00:28, PR3

Сильно оперативнее, чем в в прошлый раз, когда в начале января были учтены страницы за 12-13 ноября.

О пирамидальном сложении на параллельной архитектуре

На параллельных архитектурах часто приходится делать операцию reduce (складывать и умножать вектора, считать среднее и так далее). В отличие от однопоточной конструкции, где все тривиально, параллельная reduce разбивается на два этапа: сначала мы всеми исполняющими юнитами обрабатываем куски данных, а потом должны сложить (усреднить, поделить) результаты уже меньшим числом процессоров.

Для второго шага reduce обычно используется пирамидальная схема: сначала в N/2 потоков сложим N результатов попарно, затем сложим N/2 в N/4 и так далее. Число итераций равно, очевидно, log2N.

Возникает вопрос, «сколько данных складывать на каждой итерации?» Ведь можно складывать в N/4-N/16-N/256 кучек, можно по 1/8-64-512 и так далее. Из общих соображений, складывать по несколько лучше чем по два. Конечно, потоков получается меньше, но меньше и оверхед на создание-завершение потока.

640 килобайт будет достаточно...

Вот смотрите:
  • Radeon X1800 - 512Mb памяти
  • Geforce 8800GTX - 768Mb
  • NVidia Quadro 5600 - 1.5Gb
  • AMD (ATI) Stream processor - 2Gb
А ведь еще 1-2 поколения и будет 64-битная адресация

Русский язык от Microsoft

Жена уже спалила тему, но опер велел про всех писать, ибо историю рассказали более подробную.

Компания Информатик в свое время выиграла тендер на поставку русской орфографии для MS Office и поставляет оную орфографию до сих пор. В рамках борьбы за политкорректность, Microsoft потребовала, чтобы при проверке правописания пользователю не предлагались offensive words. Как так - спросили разработчики - там же слова из словаря ? А убрать из словаря! - отвечают из MS. И убрали.

Теперь страничка ворда будет выглядеть как-то так:

microsoft_jjot.png
(надеюсь, все помнят, что подчеркиваются неправильные слова)

И, чтобы два раза не вставать, посмотрите как замечательно строятся гипотезы о словообразовании в одном новом поисковом стартапе: искать «ховать» в visualworlds.ru (слабонервным не ходить, ненормативная лексика). слово интить они тоже знают

3Ware жжот

Решил сделать из домашнего роутера еще и файлсервер. Заменил внутренний ether на гигабитный, добил дисков, поставил raid-контроллер. Контроллеру 3Ware 9650, велено сделать из 3-дискового stripe и еще одного диска - RAID5 (т.е. сначала сделали stripe, перелили туда содержимое старого диска, теперь старый диск подключаем как parity). Диски одинаковые, 200-гигабайтники, Seagate 7200.10. За сутки сделано 50% миграции. Я даже затрудняюсь сказать, как нужно программировать, чтобы такого результата добиться. Update Поребилдилось. Часов так за 45. Но текрам быстрее, создание файла большими блоками на RAID5 из 4-х дисков делалось со скоростью 105-120Mb/sec на текраме и только 80 Mb/sec на этой хреновине.

Ссылочное ранжирование в Рунете II: тексты ссылок, реципиенты ссылок

Продолжаю упражнения со ссылочной базой с "морд" сайтов рунета:
Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылок.

Рассмотрены:

  • получатели (реципиенты) ссылок с главных страниц;
  • наиболее частые тексты ссылок;
  • наиболее частые слова в текстах ссылок;
  • какие бюджеты тратятся на "морды"
  • какие тематики наиболее конкурентные
Обсуждать можно в коментах к этой записи.

Профили и профилирование

Эпсон, как известно, снял с производства бумагу Colorlife(у меня ее большой запас и вообще она мне нравится), соответственно, в поставке Epson 3800 профилей под эту бумагу нет.

Зато есть много других профилей, причем с такой странностью: охват всех глянцевых бумаг (Luster, Glossy, Semigloss) одинаков до копейки, охват всех матовых бумаг - меньше, но тоже одинаков до копейки. В реальной жизни так не бывает, разбираемся.

Для начала, строим профиль для Colorlife. Три страницы таблиц, сушим, спектрофотометр, Monaco Profiler, получаем профиль, печатаем тест. Тестовый отпечаток показывает, что:

  • Цвета человеческого лица на Colorlife с моим профилем получаются лучше, чем на бумаге Premium Glossy с фирменным профилем. Фирменный дает желтушный оттенок кожи.
  • «Мой» желтый почище фирменного.
  • Нейтральность серой шкалы у обоих хорошая.
  • Формальный охват в тенях у Colorlife получается пошире, хотя реальных изображений на которых это проявляется - практически не бывает.

Ругаемся матом, печатаем таблицы для Premium Glossy, сушим, спектрофотометр, получаем свой профиль для Premium Glossy, тестовый отпечаток, сушим, смотрим:

  • У самодельного профиля охват в тенях больше и заметно, в полутонах и светах - шире чуть-чуть.
  • Желтушность с кожи ушла.
  • Синий (0,0,255) стал существенно более синим - а это была основная претензия к Epson 3800.
  • Чуть хуже стало разделение цветов в тенях, но оно у дистрибутивного профиля было черезмерным.

Выводы

  • Все и всегда нужно делать самому.
  • Верить производителю не надо :)

Под катом - картинки цветового охвата для полутонов и теней.

Update: С Premium Semigloss та же фигня, самодельный профиль лучше

О левом уклоне

Обработал данные о кликах в черный квадрат за прошедший год (более 220 тысяч кликов).

Получается любопытно:

  • ну, что кликают в углы - это и так было известно. Но что туда плохо попадают....:)
  • интереснее, на мой вкус, довольно сильная смещенность влево: почти 55% кликов идет в левую половину квадрата

Epson 3800

Все-таки далеко зашел прогресс. Принтер формата А2 один человек может донести от машины до лифта, поднявшись на два пролета по лестнице. И никакой грыжи.

Понравилось:

  • Родные профили (для Epson-овских бумаг, естественно) - вполне приличного качества.
  • Печать ч-б фото выше всяких похвал: абсолютная нейтральность, отличное разделение теней (L=2 от L=1 отличается !)
  • размеры и вес: принтер встал на место Canon S9000 (который A3). Нет, он пошире сантиметров на 10 и повыше, полки в шкафу пришлось переставлять, ну и все.
Удивляет:
    профили для разных бумаг (Premium Glossy и Semigloss; Archival Matte и Velvet) имеют одинаковый до копейки охват. Надо при случае перестроить.
Не нравится:
  • Видно, что экономили каждую копеечку. Скажем защелка передней панели - плохая, пришлось туда пару магнитиков приклеить на Моменте.
  • Ну и то, что переключение с Photo Black на Matte Black стоит примерно $2 - тоже нравится не может :)

О среднем downtime рунета

Лемма: в любой, произвольно выбранный, момент времени 1-2% сайтов Рунета не отвечают на запросы. То же относится и к серверам DNS.

Следствие: даже со скриптами бесконечной скорости, нельзя провести очередной сбор данных черного квадрата за один день. Чтобы собрать все нужно начать в понедельник и повторять ежедневно до пятницы. При этом, 98% будет собрано в понедельник.

Рунет в марте 2007 года

Выпустил в свет статью Рунет в марте 2007 года: домены, хостинг, география сайтов.

Написано полностью в формате предыдущего выпуска годовалой давности, поэтому цифирки можно сравнивать (что и сделано).

Краткие выводы:

  • никаких резких движений не произошло
  • сайты все больше перемещаются на хостинги с in-house
Из интересных фактов:
  • 22.7% Web-серверов - nginx
  • Мастерхост за год нарастил клиентскую базу почти втрое (остальные лидеры росли в лучшем случае чуть-чуть быстрее рынка)

Ссылочное ранжирование в Рунете

Написал очередную нетленную статью о ссылочном ранжировании в Рунете, включая покупку и продажу ссылок.

Рассмотрены:

  • общее состояние и динамика ссылочного ранжирования с главных страниц в Рунете за 2006 — начало 2007 года;
  • критерии, по которым можно отличить сайты с естественными ссылками от сайтов с платными ссылками;
  • оценена доля сайтов, занимающихся продажей ссылок, и общий оборот этого рынка.
Обсуждение лучше всего вести в комментариях к этой записи.

Pages

Subscribe to blog.lexa.ru: все статьи