Web

Наблюдения за жизнью пауков в банке

В Drupal-сообществе есть (или был?) такой Vrencian Zoltan. Буквально сегодня у него отняли доступ к CVS, мотивируя это тем, что он дублирует уже существующие модули.

Однако я этих модулей пересмотрел за последнее время более полусотни и из посмотренного, выбрал один именно от этого автора (легкий пост текстов с картинками) ибо этот модуль:

  • лучше варианта конкурента;
  • есть версия под 6-й друпал, чего у конкурента нет.
Да и вообще, судя по комментариям, мужик честно доделывал чужую работу до состояния, когда можно удобно использовать.

Ну ладно, его дело, собственно, но что делать пользователям модуля ?
Сейчас у меня Друпал орет, дескать неподдерживаемый модуль, снесите срочно! Соответственно, этот warning теперь будет висеть всегда, пока не снесу. И других, более важных, предупреждений я не увижу (если не буду проверять статус каждый день).

Я то перетерплю, у меня сайту два дня и текстов с картинками ровно два. Я могу и руками переделать все. А что делают те, у кого таких текстов сотни ? Замену я нашел, она более функционально, но и куда более монструозна. Но ведь это же перевставлять новые теги....

Drupal + PostgreSQL = фиаско

Умный Беляев не ошибался: Drupal с Postgresql не живет. Увы.

Последней каплей оказалась попытка побэкапить MySQL-ный вариант сайта и все-таки отнести его на Postgres (я его лучше знаю, лучше умею бэкапить, лучше умею настраивать и так далее).
Увы, Backup and Migrate получает список таблиц для бэкапа через 'SHOW TABLE STATUS', а это место, понятное дело, в постгресе не работает.

Впрочем, справедливости ради, на маленькой базе на MySQL оно работает в пару раз быстрее за счет query cache. А большой базы у меня пока нет.

Drupal и PostgreSQL

Попытка использовать Drupal совместно с PostgreSQL 8.3 с грохотом провалилась. Основная функциональность работает, но стоит копнуть чуть глубже и налетаешь на проблемы. Например на эту, судя по переписке там ниже - проблема не только в блоках (ну и вообще, идея делать join по двум полям, одно числовое, а второе - какое-то, несколько потрясла)

Довольно печально, кстати, смотреть, как ошибка найденная 2 месяца назад - не поправлена, хотя с тех пор было 1 или 2 релиза.

Натыкался и на проблемы с форматом даты, при попытке поставить русский формат (DD.MM.YYYY) оно прямо в таком формате и в базу хочет записаться.

Еще про Drupal: словил невнятный подземный стук. Смена языка пользователем сначала работала, а потом почему-то перестала, работает только смена в системе в целом. В том же месте другие грабли: экспорт строк для перевода экспортирует только те строки, которые встречались системе при работе, нормального способа экспортировать все на свежеустановленной CMS - не нашел.

Резюме. Несмотря на то, что система мне очень понравилась, впечатление пионерской поделки временами перебивает все прочие.

Прогресс - зло!

Потерял полдня, прежде чем сложил все кубики в пирамидку (и то, не уверен что правильно).

Нужно: получить PHP5 с клиентом PosgreSQL (всякие прочие extensions на вырост), в виде апачевского модуля, все происходит под FreeBSD7.

  • Apache 1.3, все собираем из ports - не работает. SIGSEGV где-то внутри инициализации pthreads, хотя никому из участников эти threads нафиг не нужны и непонятно кто их приволок. /usr/local/bin/php - работает.
  • Apache 1.3, собираем PHP --with-pgsql - все работает, пока нет загружаемых extensions. Как только появляется хоть одно - падаем.
  • Apache 2.2, собираем все из ports - работает.
  • FreeBSD6 в этот раз не пробовал, но когда в прошлый раз пробовал - работало.

Получается, из-за скромненькой фигулинки всем проектам показан переезд под Apache2 ? И mod_perl2 ? А mod_perl2 небось тоже не работает ?

MySQL не предлагать. С Apache я совладаю как-нибудь, а два сервера баз данных в моей жизни - это уже перебор. Снести семерку тоже не предлагать, UFS2 на терабайтных FS - уже перебор.

Черный квадрат - теперь на 12% чище!

Улучшил процедуру распознания доменных паркингов на черном квадрате.

Старая процедура распознавала около 45 тысяч запаркованых сайтов, новая - 172 тысячи. Отчего квадрат стал меньше, но за счет подавления дубликатов страниц - не таким раздражающим.

Копать еще есть куда, например явно нужно подавлять дефолтные странички от хостеров, сообщения что такой-то отключен за неуплату и так далее. Как дойдут руки - займусь, благо варез для подавления дублей - имеется.

Рунет-2008: исправления

С прискорбием вынужден сообщить, что в предыдущую публикацию вкралась ошибка: в колонке, где показано количество размещенных доменов у хостера, для компании Infobox ошибочно был указан номер автономной системы (30968) вместо количества доменов (26433).

Это не повлияло на позиции компаний в рейтинге, однако повлияло на расчет темпов годового роста, вместо реального роста в 48% был показан неправильный (74%).

Ошибка исправлена, виновные наказаны, невиновные тоже наказаны. Автор выражает признательность техническому директору компании Infobox за сообщение о несуразности.

Рунет-2008

Анонсирую очередную нетленку: Рунет в марте 2008 года: домены, хостинг, география сайтов.
Из интересных наблюдений:

  • Рунет (количество сайтов в .RU/.SU) растет, все на те же 60-70 процентов в год. При этом зона .SU за год выросла впятеро (а с декабря - более чем втрое), вот что животворительное снижение цен делает.
  • На "рынке http-серверов" выросла доля Apache и IIS (потеснили nginx). Научные исследования показали, что это влияние служб паркинга доменов.
  • На рынке хостинга полный раздрай:
    • сайты побежали в Германию (и в меньшей степени в Штаты). Если год назад забугорным размещением пользовались около 100 тыс. сайтов, то в этом - уже около 250 тыс.
    • Среди лидеров хостинга прошлого года быстрее рынка рос только Infobox, остальные либо росли медленнее рынка, либо и вовсе, мягко скажем, не росли.

Перепечатка материала приветствуется (с указанием автора и ссылкой, конечно). Обсудить буду рад прямо тут, в комментариях.

FreeBSD: UTF-8 russian collate (вторая попытка)

Несколько дней назад я опубликовал исходник LC_COLLATE для кодировки ru_RU.UTF-8 для использования в FreeBSD. Там же я обещал, что если понадобится не "универсальная" сортировка, а такая же, как в FreeBSD, то сделаю и ее, а обещания нужно выполнять.

Помимо этого, старый вариант не имел вообще никаких шансов попасть в FreeBSD (причины этого мне объяснил Андрей Чернов: нарушается FreeBSD-шное правило, что большие буквы отдельно, а маленькие - отдельно), а новый - такие шансы еще не потерял.

FreeBSD: ru_RU.UTF-8 LC_COLLATE

Несмотря на мой пессимизм относительно сортировки строк с многобайтными символами в FreeBSD, жизнь оказалась лучше, чем мне казалось.

Наш читатель, Александр Загребин, любезно поделился исходником locale LC_COLLATE для FreeBSD, который лечит проблему сортировок для ru_RU.UTF-8. Я немножко поправил Makefile, чтобы результат ставился прямо поверх системного файла, выкладываю (с согласия автора, естественно) это для всеобщего использования:

Update
Я сделал работу над ошибками, обновленный вариант (с тем же URL) и комментарии к нему берите здесь.

Еще про nofollow в MovableType 4

Как мне тут справедливо указали, настройка "приделывать rel=nofollow к комментариям и трекбекам" не влияет на содержимое тега CommentAuthorIdentity

Пятиминутный просмотр исходников показал, что это бага в MovableType, в функции реализующей вышеуказанный тег просто пропустили одну строчку

Прилагаемый патч решает эту проблему. Естественно, после приложения патча нужно перебилдить все странички.

Вот и пригодился ProNet-овский аккаунт. Я через него засабмитил тикет, посмотрим чем кончится.

Да, если вы используете мой патч про noindex, то ссылки в обсуждаемом теге будут обвернуты и noindex тоже

Update: из саппорта ответили "читайте документацию" (см. комментарии). И ведь они правы.

Персональная блогосфера

Еще 31 августа я спрашивал как синхронизировать комментарии в основном блоге и в трансляциях. Основная идея в том, чтобы пересечь аудитории разных площадок.

Готового счастья не оказалось, как всегда, пришлось дожидаться свободной пары дней (4 месяца ждал) и своими руками сваять первый вариант:

Все комментарии из ЖЖ сейчас копируются в основной блог, где на них можно отвечать. Увы, ответы обратно в ЖЖ пока не транслируются. Трансляция не реалтаймовая (и вообще, пока из рук).

Если идея заживет (появятся ответы на скопированное из ЖЖ), будем работать дальше, например наладим двустороннюю трансляцию.

P.S. До августа я насильно загонял всех комментаторов из ЖЖ/Я.беты комментировать к себе. Это оказалось совсем дурной идеей, народ идет от привычной поляны очень неохотно, только если очень сильно зацепило.

Партнерские системы контекстной рекламы

Очередной раз надругался над данными Черного квадрата. Для 800 с гаком тысяч сайтов выкачаны дополнительные страницы и определены:
  • охват основных систем контекстной рекламы (Google, Begun, Yandex) по сайтам;
  • рыночные доли тех же систем по показам рекламных блоков.

Надо сказать, что результаты довольно неожиданные для меня, сделал я все это неделю назад, к конференции, но публиковать не стал, ибо результаты противоречили моим представлениям о жизни. Впрочем, после доклада Ломизе, где были очень похожие цифры, представления о жизни вернулись на место.

А, да, чуть не забыл. Ссылка на текст: Партнерские сети систем контекстной рекламы (октябрь 2007).

Однокласники, вконтакте

А ведь однокласники.ру - первые в Top100, если смотреть за неделю и по показам страниц. По охвату - скорее вторые (все мы помним, как Top100 считает охват).

В основном рейтинге Топ-100 нет собственно Рамблера, но он по показам будет третьим, а по охвату - вторым (по Top.Mail то же самое).

В-общем, граждане интернет-холдинги, хихикали летом на статистику Вконтакте по Alexa, хихикали, а зря хихикали. Они сейчас еще монетизируются и опаньки.

Пересчет Google PageRank в октябре 2007 года

В день 90-летия Великой Октябрьской Социалистической Революции октябрьский пересчет Google Pagerank был изучен, препарирован и исчислен, читайте и наслаждайтесь.

Никаких содержательных выводов, впрочем, не произведено, только анализ циферок в разных разрезах.

Пересчет Google PageRank: пыль еще не улеглась

Как многие знают, Google пересчитал pagerank, причем преимущественно в минус :). Однако еще в середине недели цифирки колебались, анализировать что насчитали явно рано, надо еще какое-то время подождать.

На сегодняшний день, впрочем, в Рунете видно только три сайта с честным PR8: liveinternet.ru, ihep.ru и spbu.ru. Два очень старых, а один - очень цитируемый. Rambler из восьмерок выпал, а больше честных восьмерок и не было, либо зеркала перечисленных выше, либо зеркала зарубежных сайтов (включая и Томь-Усинский завод железобетонных конструкций, а ведь наверное кто-то за такой PR c них денег взял....).

На сегодня среди восьмерок есть еще 8 зеркал зарубежных сайтов: 4 зеркала skype.com и еще 4 одиночных зеркала зарубежных сайтов.

Да, стандартное наблюдение над тем, какие страницы/сайты получили PR:

  • страница http://blog.lexa.ru/2007/10/02/ - получила PR
  • страница http://blog.lexa.ru/2007/10/04/ - не получила
Таким образом, для пересчета взяты данные за 2-3 октября. Примерно такая же ситуация была весной: 28 апреля начали публиковать данные с датой отсечки около 3-го апреля.

Статистика для блоггеров - 2

Как показывает статистика, наибольший интерес за прошедшую неделю вызвала запись про статистику:
blogstat2-1.png
Поэтому позволю себе привести еще примеров данных, получаемых после обвешивания всего прозрачными пикселями 1x1.

Восемьсот килосайтов

Через месяц после регистрации миллионного домена в .RU случилась и очередная круглая цифра в черном квадрате: взяли рубеж в 800 живых килосайтов.

Семьсот тысяч было в начале июля, темпы роста практически сохраняются: в марте-июне было 60% годовых, в июле-октябре 56%, но это ведь был мертвый летний сезон.

По моим прикидкам, в течение месяца должны достичь миллиона делегированных.

Черный квадрат: DNS-статистика

В обсуждении моей предыдущей заметки о пятничных сайтах родилась здравая мысль: посмотреть на статистику смены сайтами IP-адресов. Мне всегда казалось, что смена адреса — крайне редкое явление, но интересно проверить так ли это.

Не углубляясь далеко в историю, я взял данные за последние 4 понедельника, с 24 сентября по 15 октября включительно. На каждый из понедельников у меня есть:

  • данные по делегированию: имеется ли для данного домена nameserver (по мнению NS-ов для зон .RU/.SU);
  • данные по резолвингу WWW-сайтов: удалось ли получить из DNS запись для www.domain. или domain.

Из этого удается извлечь достаточно любопытные данные.

Пятничные сайты

Я на эту тему уже писал, но готов утверждение усилить.

Каждый понедельник в 9 утра у меня стартует очередная выкачка для черного квадрата. К утру вторника оно резолвит и выкачивает все, что резолвится и выкачивается с первого раза. Последние месяца два - это процентов 80-85% от того, что показано на квадрате, где-то 650-680 тысяч сайтов отвечают с первого раза (цифры для последних трех недель).

После этого наблюдается весьма странная картина:

  • Во вторник-четверг пополнить квадрат толком не удается. Сайтов, которые не работали в понедельник, но починились к утру четверга - относительно немного. Ну скажем еще 40 тысяч за три дня удается окучить. Каждый новый проход находит 3-5% живых среди ранее неживых.
  • вечером четверга живых (среди ранее мертвых) куда больше, начиная с этого момента и до субботы каждый новый проход оживляет процентов 9-10.

Что это ? Десятки тысяч сайтов падают на выходных, их всю неделю чинят, к четвергу достигают успеха ?

Какой-либо статистики (по хостингу, по IP, по whois, по списку сайтов) я не делал, но руки уже чешутся.

Статистика для блоггеров

Сначала картинка. А вы так можете (не по цифрам, а по группировке данных)? Более подробные картинки будут ниже.
blogstats1.png
Я не знаю, есть ли нормальные средства статистики для блоггеров. Наверное, для простых случаев — есть. В ЖЖ можно поставить один из множества ЖЖ-счетчиков (уж не знаю, хороши ли они), на standalone-блог можно поставить обычный счетчик. Но это — для простого случая.

Pages

Subscribe to Web