Ссылочное ранжирование в Рунете II: тексты ссылок, реципиенты ссылок

Продолжаю упражнения со ссылочной базой с "морд" сайтов рунета:
Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылок.

Рассмотрены:

  • получатели (реципиенты) ссылок с главных страниц;
  • наиболее частые тексты ссылок;
  • наиболее частые слова в текстах ссылок;
  • какие бюджеты тратятся на "морды"
  • какие тематики наиболее конкурентные
Обсуждать можно в коментах к этой записи.

Профили и профилирование

Эпсон, как известно, снял с производства бумагу Colorlife(у меня ее большой запас и вообще она мне нравится), соответственно, в поставке Epson 3800 профилей под эту бумагу нет.

Зато есть много других профилей, причем с такой странностью: охват всех глянцевых бумаг (Luster, Glossy, Semigloss) одинаков до копейки, охват всех матовых бумаг - меньше, но тоже одинаков до копейки. В реальной жизни так не бывает, разбираемся.

Для начала, строим профиль для Colorlife. Три страницы таблиц, сушим, спектрофотометр, Monaco Profiler, получаем...

О левом уклоне

Обработал данные о кликах в черный квадрат за прошедший год (более 220 тысяч кликов).

Получается любопытно:

  • ну, что кликают в углы - это и так было известно. Но что туда плохо попадают....:)
  • интереснее, на мой вкус, довольно сильная смещенность влево: почти 55% кликов идет в левую половину квадрата

Epson 3800

Все-таки далеко зашел прогресс. Принтер формата А2 один человек может донести от машины до лифта, поднявшись на два пролета по лестнице. И никакой грыжи.

Понравилось:

  • Родные профили (для Epson-овских бумаг, естественно) - вполне приличного качества.
  • Печать ч-б фото выше всяких похвал: абсолютная нейтральность, отличное разделение теней (L=2 от L=1 отличается !)
  • размеры и вес: принтер встал на место Canon S9000 (который A3). Нет, он пошире сантиметров на 10 и повыше, полки в шкафу пришлось переставлять, ну и все.
Удивляет:
    профили для разных бумаг (Premium Glossy и Semigloss; Archival Matte и Velvet) имеют одинаковый до копейки охват. Надо при случае перестроить.
Не нравится:
  • Видно, что экономили каждую копеечку. Скажем защелка передней панели - плохая, пришлось туда пару магнитиков приклеить на Моменте.
  • Ну и то, что переключение с Photo Black на Matte Black стоит примерно $2 - тоже нравится не может :)

О среднем downtime рунета

Лемма: в любой, произвольно выбранный, момент времени 1-2% сайтов Рунета не отвечают на запросы. То же относится и к серверам DNS.

Следствие: даже со скриптами бесконечной скорости, нельзя провести очередной сбор данных черного квадрата за один день. Чтобы собрать все нужно начать в понедельник и повторять ежедневно до пятницы. При этом, 98% будет собрано в понедельник.

Рунет в марте 2007 года

Выпустил в свет статью Рунет в марте 2007 года: домены, хостинг, география сайтов.

Написано полностью в формате предыдущего выпуска годовалой давности, поэтому цифирки можно сравнивать (что и сделано).

Краткие выводы:

  • никаких резких движений не произошло
  • сайты все больше перемещаются на хостинги с in-house
Из интересных фактов:
  • 22.7% Web-серверов - nginx
  • Мастерхост за год нарастил клиентскую базу почти втрое (остальные лидеры росли в лучшем случае чуть-чуть быстрее рынка)

Ссылочное ранжирование в Рунете

Написал очередную нетленную статью о ссылочном ранжировании в Рунете, включая покупку и продажу ссылок.

Рассмотрены:

  • общее состояние и динамика ссылочного ранжирования с главных страниц в Рунете за 2006 — начало 2007 года;
  • критерии, по которым можно отличить сайты с естественными ссылками от сайтов с платными ссылками;
  • оценена доля сайтов, занимающихся продажей ссылок, и общий оборот этого рынка.
Обсуждение лучше всего вести в комментариях к этой записи.

Программирование NVidia 8800: вести с веба

В University of Illinois at Urbana, куда я чуть было не уехал заниматься геологией 15 лет назад, в настоящее время читается курс ECE 498 AL : Programming Massively Parallel Microprocessors.

Опуская обычные охи "ну почему этому не учат на ВМК" - все в наших руках и я думаю, что через пару лет такие курсы будут и у нас, тема вкусная - хочу обратить внимание на слайды и транскрипты лекций, доступные вот тут. Читают приглашенные лекторы из...

Поисковый трафик в рунете

Берем, значит, статистику LiveInternet по всем сайтам и по пользователям из России. Для удобства, будем оперировать среднесуточными значениями за февраль.

Что мы видим:

  • Среднесуточное количество просмотров страниц: 32.7 миллиона.
  • Среднесуточная аудитория: 4.5 млн. человек.
  • Среднесуточное количество сессий: 12 млн.
Смотрим теперь статистику по переходам с поисков: количество переходов (строчка всего): 12 млн.

Получается, что 36% всех просмотров страниц - это переходы с поисковиков. Что-то много.

Считать сессии наверное неправильно: насколько я понимаю...

Рунет: растет, растет и растет.....

По результатам сбора данных для очередного выпуска черного квадрата, живых сайтов в рунете* уже более 600 тысяч**.

Полмиллиона отмечали в ноябре, значит за 4 месяца рост на 20% (т.е. более 70% годовых). Но если посмотреть на данные прошлого марта, то увидим реальный рост примерно на 60% (точно будет известно через неделю). Откуда следует, что в последние месяцы рост ускорился.

*как и всегда в черном квадрате, когда я пишу в рунете я имею в виду длинную формулировку сайты domain.tld или www.domain.tld, где domain.tld — домен 2-го уровня в .RU и .SU.

**на самом деле, в понедельник наскребется еще несколько тысяч, в выходные лежит обычно пара процентов сайтов.

Upd: Как и обещал, к вечеру понедельника их стало 605 тысяч. Ну не несколько процентов, а полпроцента. Но несколько тысяч.

NVidia 8800GTX: скорость чтения текстур

В предыдущей части мы рассматривали чтение из глобальной памяти Geforce 8800 напрямую ("как из массива C"). При этом отсутствует кэширование, но при оптимальной схеме доступа получается (согласно указаниям NVidia) наибольшая производительность.

В то же время, скорость доступа при неоптимальном паттерне очень маленькая. Для решения этой проблемы (помимо оптимизации паттерна) NVidia CUDA предлагает доступ к памяти как к текстуре. При этом работает двумерное кэширование (оптимизированное под локальный доступ), пиковые скорости должны получаться меньше, а наихудшие варианты - наоборот лучше....

NVidia 8800GTX: пропускная способность памяти (при использовании CUDA)

После чтения руководства по NVidia CUDA, остается ощущение сложности модели программирования: треды, блоки тредов, warp-ы, иерархическая память. Непонятно, какие параметры вычислительной задачи оптимальны и какие у них вообще допустимые значения. Само руководство точных рекомендаций не дает, дает лишь приблизительные.

Из общих соображений, понятно что самая медленная часть суперкомпьютера - память. С одной стороны, теоретическая пропускная способность (bandwidth) составляет 900MHz * 384 бита * 2 (DDR) = 86.4 GB/sec. С другой стороны, раздел 6.1.1.3 руководства говорит о 200-300 циклах memory latency (при, по всей видимости,случайном доступе).

К счастью, проблема легко изучается: если взять достаточно много данных (скажем, полгигабайта) и, например, сложить все 4-байтовые значения (как float), то основные затраты времени будут именно на чтение из памяти, а всей прочей арифметикой можно пренебречь (или подсчитать ее отдельно).

Читая веб и блоги: CUDA и прочее программирование на NVidia 8800

На удивление мало жизни происходит по запросу 'NVidia CUDA' в поиске по блогам и новостям. Что у Яндекса, что у Google. Мне это сильно удивительно - штука многообещающая, первая версия SDK датирована ноябрем (появилась примерно 1-го декабря), публичный SDK появился практически месяц назад, а большинство упоминаний в духе "вот вышло", в крайнем случае "читал доку". Таких текстов - навалом, маркетинг NVidia работает. Но скучно.

Помимо форумов NVidia, где заводится по 5-6 новых топиков в день, интересных публикаций немного.

Для начала: Beyond3D опубликовал большой текст про CUDA. Более подробный, чем все что я видел до сих пор (ну, кроме собственно документации).

NVidia CUDA: синхронизация и shared memory

Экспериментально выяснилось, что содержимое shared memory не сохраняется между запусками кода на G80. Всякий раз оно инициализировано, причем значения разные, то 10 (float), то 125.

Плакала идея синхронизации между мультипроцессорами путем завершения kernel. Нет, синхронизироваться можно, конечно, но если хочется сохранить результат, то надо писать в глобальную память.

Класса люкс

Второй год хожу мимо, наконец сподобился сфотографировать.

_MG_1084-1.jpg

Читая форумы: NVidia 8800GTX гигафлопсы, консистентность памяти и прочие тараканы

Третий день читаю форумы про NVidia CUDA и радуюсь сырости технологии.

  • Для начала, объявленные 520 GFLOP/s оказались обычным маркетингом The 520 GFLOPS number quoted in the technical brief includes some graphics-specific operations that are not directly accessible from CUDA. С точки зрения вычислений, гигафлопсов там 345 (считая Multiply-Add за две операции). Тоже неплохо. В реальности будет разика в два поменьше, но тоже ничего.
    Для сравнения, гипотетический (пока) 3Ghz 4-ядерный Core2Duo умеет 8 операций на такт * 4 ядра * 3Ghz = 96 GFLOP/s, а получить удастся процентов 70 от этого.
  • Отсутствие атомарных операций сильно усложняет жизнь. Предлагается в цикле писать значение в global memory, до тех пор пока не убедишься в успехе.
  • На текущий момент все вызовы - блокирующие. Т.е. нет возможности
    • Запустить счет и одновременно заливать/выливать данные для следующего/предыдущего счета.
    • Использовать две (и более) карт
    Обещают починить.
  • The performance gain you'll get by using CUDA over the graphics API largely depends on how much your application can take advantage of the shared memory. В-общем, идея понятная, но полностью противоречит всей прошлой истории GPGPU. Может оно и хорошо

Умножение матриц, серия 4: NVidia G80, CUDA, CuBLAS и RapidMind

GPGPU или зачем все эти упражнения

Все предыдущие и более ранние мои упражнения были сделаны в качестве «подхода к снаряду», нужна была baseline для более интересной задачи: вычислений общего назначения на видеокарте.

Эта тема в последние год-полтора (а особенно, в последние полгода) очень сильно нагрелась. В то же время, в варианте от NVidia hardware и софт общедоступны, покупаешь видеокарту и развлекаешься.

Приборы и материалы: NVidia CUDA и прочие

Настоящий общедоступный сдвиг произошел меньше месяца назад: 6 февраля 2006 г. вышла вторая версия NVidia CUDA Toolkit, она же первая публичная (и первая более-менее работающая), она же версия 0.8.

Эта версия доступна всем желающим без подписания NDA, следовательно результаты тестов можно открыто публиковать.

Тема исследования, как обычно, умножение матриц. Задача очень простая алгоритмически, но со своими особенностями. В силу простоты задачи, изучать особенности одно удовольствие.

Рассматривались три доступных умножителя матриц:

  1. SGEMM в составе библиотеки CUBLAS.
  2. Тестовый пример от NVidia, который очень подробно разобран в документации.
  3. Реализация SGEMM от RapidMind.

Vista или нет ?

Провел выходные за переразбивкой дисков и переустановкой виндов. Заодно попробовал и Висту.

За:

  • есть драйвера под мой старый принтер Canon S9000 и 64-битную ОС (под XP x64 их нет, а 64 бита для меня обязательны, памяти 8 гигов). Собственно, ради упрощения печати (а сейчас я печатаю из VMWare) все и было затеяно.
  • Размер иконок на десктопе меняется через Ctrl-колесо. Прикольно и можно подобрать хороший размер.
Против очень очень много, хотя со временем исправят:
  • Драйвера под мой RAID (Areca 1210) имеются (от Win2003), но они неподписаны. Загрузиться можно только выбрав запрет проверки подписи драйверов. А это - одна из опций загрузчика, другие: Safe mode и так далее. В результате, сделав конструкцию незагружаемой (путем установки nTune в моем случае) нельзя откатиться назад.
  • Новые системные шрифты не нравятся. Т.е. без ClearType они смотрятся совсем плохо, а с ClearType плохо смотрятся другие шрифты. Когнитивный диссонанс и болят глаза.
  • Все нововведения с юзеринтерфейсом - не понравились. Мигает, переливается, а смысла никакого не видно. 'Use windows classic folders' и, соответственно, Windows classic theme.
  • Задолбали!!! предупреждения о том, что какая-то программа очень хочет запуститься. В нормальной жизни оно, скорее всего, приемлемо, а вот при заливке софтом - ужас просто.
  • Задолбала необходимость на каждый чих делать Run As administrator. Ну ладно в Windows/system32 не пускать, это я понимаю, но в юзерские (мои личные!) файлы ?
  • EFI boot - это чудовищно. Раньше это место правилось тестовым редактором, а сейчас - bcdedit. Подозреваю, что ставить XP после Висты тоже будет мучительно.
  • dir /s WIndows
    43678 файлов в 29806 каталогах, общий объем 9.6Gb
    Чего они туда понапихали ? Для сравнения, в свежеустановленной XP - 7109 файлов и 883 мегабайта.
Пошел сносить обратно. HDTV playback мне пока без надобности, а попечатаю по старинке, из VMWare player (+XP 32 bit).

Canon EF 70-200 IS

Подвернулся случай сравнить два объектива:

Canon 70-200/2.8 IS
Canon 70-200/4 IS

На мой вкус, у младшего рисунок на не слишком контрастных объектах не хуже, а края картинки на на бесконечности и f/4 даже и изрядно получше.

Надо изучать что будет с источниками света в кадре, если все хорошо, то менять, светосилы f/2.8 ценой лишнего килограмма веса мне не надо.

На не слишком далекие объекты (3-4 метра) точность наводки автофокуса на моей камере близкая и вполне хорошая.

Да, стабилизатор на взгляд примерно одинаковый: на 200 мм и 1/30 часть кадров имеет очень хорошую резкость, а часть "приемлемую" т.е. на A5 можно печатать если нет выбора.

Картинок не будет, верьте на слово.

Update Оказывается, по мнению фотозоны, младшенький "...may well be the very best tele zoom on the market today - it is certainly the best Canon zoom lens tested locally to date". Инструментальные тесты - не главное, но спорить не буду, мне новый 70-200 тоже очень понравился.

Update Провел операцию по замене f/2.8 IS на f/4 IS. Получается примерно бесплатно, но у нового гарантия на два года.

Кто без греха, тот пусть бросит

Яндекс (в лице Яндекс.Ленты) профукивал пароли пользователей ЖЖ. С целью экономии трафика, вестимо.

Количество разума в мире постоянно, а население растет.

Update 1:

  • Судя по всему, через Яндекс-ленты была доступна часть подзамочных записей
  • В настоящий момент импорт не работает (error 404), а значит это не свежевнесенная бага, а бывшая там давно
  • Если я правильно понимаю, чинить можно только путем размножения лент. Т.е. сделав "честный" агрегатор, который авторизованые RSS-ы будет хранить персонально для юзера.

Update 2: читаем на странице импорта:

Также учтите, что скрытые (опубликованные под замком ) записи пользователей LiveJournal не будут отображены в вашей ленте.
По всей видимости, при импорте OPML (с паролями) это обходилось. Сайд-эффект описан выше.

Update 3: наверное это просто совпадение, но эта запись по прошествии 17-ти часов не находится Яндекс-Блогами по точной цитате.

Умножение матриц, серия 3: Woodcrest против Opteron, ACML против MKL, Goto BLAS против всех

Использованная в предыдущем тестировании библиотека численных методов Intel Math Kernel Library очевидно не является оптимизированной под процессоры AMD. Следовательно, нужно изучать альтернативы.

Альтернатив на сегодня видно три: это библиотека AMD Core Math Library от производителя процессора и две OpenSource библиотеки: Goto BLAS и ATLAS (Automatically Tuned Linear Algebra Software). Их и изучим.

Все бенчмарки были совершенно одинаковыми: заполнялись исходные матрицы (значениями от 0.0 до 1.0), затем вызывалась функция sgemm (для single precision) или dgemm (double), время выполнения которой и измерялось.

Кроме Dual Opteron 275, в руки попал еще сервер Dual Xeon 5140, показалось полезным сравнить две архитектуры.

Есть ли у журналистов запрет на профессию ?

Коммерсант жжот!

Как выяснили эксперты, студент варил в кастрюльке триперекись ацетона крайне взрывоопасное вещество на основе селитры.
Понятно, почему у него ничего не вышло. Он бы еще уху на основе мяса варил.

Кроме того, он совершил еще одно ужасное преступление

Кроме того, в кастрюльку были заведены два оголенных провода.
Вот ведь мерзавец! А если бы четыре провода завел? Разровняло бы ДАС по камушку!

И это еще хорошее издание. А ведь другую журналистскую продукцию мы хаваем и хаваем и хаваем. Про полоний. Про ураний. Про компьютеры. Впрочем, про компьютеры не хаваем.

И снова (и снова) о вебе и кодировках русского языка

Примерно к 2001 году вопрос с кодировками для русскоязычных WWW-сайтов казался полностью решенным: все сколько-нибудь распространенные браузеры научились кодировке Windows-1251 и только ее можно было оставить на сайтах (выдавая правильный Content-Type)

Но жизнь на месте не стоит и появилась новая беда: UTF-8. Никаких проблем с самой кодировкой нет - все поддерживают, работать несложно, можно писать многоязыковые документы.

Сейчас расцветает динамика, которую рисуют разными видами яваскрипта (document.write, element.innerHTML=...). При выводе таких блоков есть safe way - выводим все в...

Русская языка

Ехал в лифте в своем доме, читал новые правила пользования, много думал.

При поездке с собаками, входя и выходя из кабины, держите ее за ошейник.

Ну и трогательное "Кнопка «Стоп» (при ее наличии) служит для..."

Умножение матриц, серия 2: MKL против компилятора, single/double и int

Продолжаем умножать матрицы. Для начала смоделируем sgemm/dgemm: C=alpha*A*B+beta*C

Нас интересует, естественно, самый быстрый способ из изученных ранее, а вопрос заключается в разнице в скорости между float и double и разницы в скорости между простым кодом, написанным вручную, и библиотечной реализацией.

Pages

Subscribe to blog.lexa.ru: все статьи