Апрель 2007

Новый PageRank

Google начал публикацию новых значений toolbar Pagerank.

Несложная прикидка показала, что rank получили страницы, проиндексированные 2-3-го апреля и ранее. Более новые страницы - не получили. Вот например:

  • http://www.lexa.ru/nginx-ru/msg10113.html - 3 апреля, 00:59 - не получила PR
  • http://www.lexa.ru/nginx-ru/msg10112.html - 3 апреля, 00:28, PR3

Сильно оперативнее, чем в в прошлый раз, когда в начале января были учтены страницы за 12-13 ноября.

О пирамидальном сложении на параллельной архитектуре

На параллельных архитектурах часто приходится делать операцию reduce (складывать и умножать вектора, считать среднее и так далее). В отличие от однопоточной конструкции, где все тривиально, параллельная reduce разбивается на два этапа: сначала мы всеми исполняющими юнитами обрабатываем куски данных, а потом должны сложить (усреднить, поделить) результаты уже меньшим числом процессоров.

Для второго шага reduce обычно используется пирамидальная схема: сначала в N/2 потоков сложим N результатов попарно, затем сложим N/2 в N/4 и так далее. Число итераций равно, очевидно, log2N....

640 килобайт будет достаточно...

Вот смотрите:
  • Radeon X1800 - 512Mb памяти
  • Geforce 8800GTX - 768Mb
  • NVidia Quadro 5600 - 1.5Gb
  • AMD (ATI) Stream processor - 2Gb
А ведь еще 1-2 поколения и будет 64-битная адресация

Русский язык от Microsoft

Жена уже спалила тему, но опер велел про всех писать, ибо историю рассказали более подробную.

Компания Информатик в свое время выиграла тендер на поставку русской орфографии для MS Office и поставляет оную орфографию до сих пор. В рамках борьбы за политкорректность, Microsoft потребовала, чтобы при проверке правописания пользователю не предлагались offensive words. Как так - спросили разработчики - там же слова из словаря ? А убрать из словаря! - отвечают из MS. И убрали.

Теперь страничка ворда будет выглядеть как-то так:

microsoft_jjot.png
(надеюсь, все помнят, что подчеркиваются неправильные слова)

И, чтобы два раза не вставать, посмотрите как замечательно строятся гипотезы о словообразовании в одном новом поисковом стартапе: искать «ховать» в visualworlds.ru (слабонервным не ходить, ненормативная лексика). слово интить они тоже знают

3Ware жжот

Решил сделать из домашнего роутера еще и файлсервер. Заменил внутренний ether на гигабитный, добил дисков, поставил raid-контроллер. Контроллеру 3Ware 9650, велено сделать из 3-дискового stripe и еще одного диска - RAID5 (т.е. сначала сделали stripe, перелили туда содержимое старого диска, теперь старый диск подключаем как parity). Диски одинаковые, 200-гигабайтники, Seagate 7200.10. За сутки сделано 50% миграции. Я даже затрудняюсь сказать, как нужно программировать, чтобы такого результата добиться. Update Поребилдилось. Часов так за 45. Но текрам быстрее, создание файла большими блоками на RAID5 из 4-х дисков делалось со скоростью 105-120Mb/sec на текраме и только 80 Mb/sec на этой хреновине. Нужно считать 3 дорожки, подумать над ними и записать на 4 (диски одинаковые, результирующая емкость массива не меняется и так далее).

Даже если делать операцию посекторно, то секторов у нас всего - 1.6 млн (4 диска x 400 тыс. секторов), в половине объема - 800 тыс, получается что хреновина обрабатывает 10 секторов в секунду. Но извините, у нас seek time - 11 мс, а если оставлять голову на дорожке, то еще меньше (полоборота - 4 ms). И что мы делаем еще 90 миллисекунд ? Записываем в уголок состояние миграции ? Вообще, по шуму головок - очень похоже. И ведь хотел купить Текрам, но победили такие соображения:

  • Посмотрю на 3Ware, вдруг они стали хорошие (предыдущие варианты, 9500-я серия, текраму сильно проигрывает)
  • Текрам - PCIe-8x, а у меня есть свободный слот 4x
По первому вопросу: текрам ARC-1xxx - сильно лучше. Т.е. по производительности 3Ware кажется догнали, но по всему остальному - как был тихий ужас, так и остался. По второму вопросу получилось смешнее, хотя тут виноват не 3Ware. Мамка на 965-м чипсете, имеет 20 PCIe lanes, которые разведены на 16x слот и на слоты 1x и 4x. Так вот, выяснилось, что хотя в биосе есть выбор "работает 4x"/"работает 1x и 4x как 2x", этот выбор нифига не работает, когда в 4x-слоте что-то есть, слот 1x отключается (а там у меня ethernet). Пришлось ставить RAID в слот для видеокарты, видеокарту ставить простую PCI-ную (прощай идея поставить на эту машину MacOS) и вся красивая идея испортилась. Мамку зовут ASUS P5B-E Plus. Надо ли говорить, что драйвера от ее Marvell-овского ethernet-а, взятые с сайта marvell под FreeBSD 6.2 не работают ?

Ссылочное ранжирование в Рунете II: тексты ссылок, реципиенты ссылок

Продолжаю упражнения со ссылочной базой с "морд" сайтов рунета:
Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылок.

Рассмотрены:

  • получатели (реципиенты) ссылок с главных страниц;
  • наиболее частые тексты ссылок;
  • наиболее частые слова в текстах ссылок;
  • какие бюджеты тратятся на "морды"
  • какие тематики наиболее конкурентные
Обсуждать можно в коментах к этой записи.