Пятничные сайты

Я на эту тему уже писал, но готов утверждение усилить.

Каждый понедельник в 9 утра у меня стартует очередная выкачка для черного квадрата. К утру вторника оно резолвит и выкачивает все, что резолвится и выкачивается с первого раза. Последние месяца два - это процентов 80-85% от того, что показано на квадрате, где-то 650-680 тысяч сайтов отвечают с первого раза (цифры для последних трех недель).

После этого наблюдается весьма странная картина:

  • Во вторник-четверг пополнить квадрат толком не удается. Сайтов, которые не работали в понедельник, но починились к утру четверга - относительно немного. Ну скажем еще 40 тысяч за три дня удается окучить. Каждый новый проход находит 3-5% живых среди ранее неживых.
  • вечером четверга живых (среди ранее мертвых) куда больше, начиная с этого момента и до субботы каждый новый проход оживляет процентов 9-10.

Что это ? Десятки тысяч сайтов падают на выходных, их всю неделю чинят, к четвергу достигают успеха ?

Какой-либо статистики (по хостингу, по IP, по whois, по списку сайтов) я не делал, но руки уже чешутся.

Comments

А может это глюки используемого софта?
Или может это происходит с одной группой сайтов? Возможно составлять список вылетаемых сайтов и проанализировать уже его?

Почему софт глючит во вторник-четверг и работает в пятницу-субботу ?

Да, а почему нет?

Их отключили на выходные за неуплату например или еще какое рекламирование в спаме,
ну и с понедельника по четверг деньги шли (разборки про спам шли), и вот в среду утром
оно случилось, четверг ушел на то что бы вспомнить как включить обратно и в четверг же
включили. непонятно почему это именно четверг а не первые числа месяцев, правда.

А, вот, понял. В выходные случилась спам(ddos)-активность сайта (на сайт), в понедельник его выключили,
до четверга разбирались.

а еще, когда руки дочешутся (хм), собери статистику такого рода -
сколько тех, кто в понедельник резолвился но не отвечал - в чтверг стали резолвиться во что-то другое (в ip другого владельца, опционально). Может это неудачные переезды, типа сами решили переехать к понедельнику но не получилось или наоборот в понедельник хостер инициировал расторжение и переезд за баловство.

Но вообще - жениться вам надо, барин. Хотя, с другой стороны, ты уже...

Я не делаю повторный резолвинг. Точнее, делаю его только в ситуации, когда получен редирект (таких немного).

В силу достаточно понятных причин, сильно дешевле порезолвить всех оптом и специально заточенным клиентом, чем резолвить в HTTP-клиенте.

Можно сравнить по неделям, конечно.

Вот именно. сравни любые 2 подряд (ты же говоришь что эффект устойчивый) . И оцени разницу.

Кроме того, часть этого - может быть как раз из за резолвинга оптом - типа утром на момент резолвинга оно было тут,
а днем на момент скачивания - уже где-то еще. Вот оно в сумме (отключения-переезды) и набежит.

Если оно переехало после резолвинга но до первого скачивания, то оно у меня будет считаться неотвечающим, ибо новому адресу взяться неоткуда (нового резолвинга не будет)

И повторяю вопрос про 15%. Ну не может столько дрыгаться.

Вообще, вопрос про устойчивость IP-адресов сайтов - интересный и нуждается в изучении. Поставил галочку в todo

Ну, ясное дело что у этих 15 процентов разные причины. Ну так вот моя версия что процентов 80
от них - это таки
1) неудачные переезды в ночь с воскресенья на понедельник
2) переезды инициированные хостером за баловство в выходные
3) переезды в промежуток между резолвингом и скачиванием

а остальное - просто косяки.

Тогда понятно почему это случается именно с понедельника по четверг а не размазано ровным слоем.

Но ты бы собрал данные про разницу в ip между 2-мя соседними неделями и про владельцев неотвечающих
ip за соседние 3-4 недели - и стало бы я так думаю все ясно.

80% от 15% - это 12% от всех

Каждый 8-й сайт переезжает, отключается и т.п. за период "неделя"?

Я живу на каком-то другом глобусе!

> 80% от 15% - это 12% от всех
> Каждый 8-й сайт переезжает, отключается и т.п. за период "неделя"?
> Я живу на каком-то другом глобусе!

Да нет, ты просто забыл, от безделья :-). из твоих 900к сайтов добрая четверть небось - это
дорвейчеги и прочий поисковый и не очень поисковый спам (ну, ты знаешь).
Их гоняют только в путь, если найдут, и с той (поисковики/антиспамблэклисты)
и с другой (хостеры) стороны.

И вот берет дорвейщщег в понедельник после звонка все свои 30к псевдосайтов
(такой же у них порядок на одно лицо) и несет к следующему хостеру (колокейтеру).

А не является ли это способом их подетектировать ?

У меня данные есть больше чем за год, начиная с февраля - за каждую неделю. Надо что-то с ними плохое сделать.... когда-нибудь :)

> А не является ли это способом их подетектировать ?

Может и является, кстати. Ты бы сравнил долю известных спамсайтов среди
понедельничных неответов и среди понедельничных же ответов?
Может, нас там ждет открытие?

Куда ходить за списком известных дорвеев и прочего такого - ты знаешь.

> Каждый понедельник в 9 утра у меня стартует

ну и перенеси утро понедельника на поздний вечер четверга и сравни.

Я, наоборот, хочу попробовать перенести на субботу. В эту сторону проще нести.

есть маза, что в выходные ты нарвешься на другие 15% неответов, из-за всяких
плановых работ на выходные, которых больше чем в будни.

Лучше размажь процесс на 4 ночи в будни.

>устойчивость IP-адресов сайтов
Адреса неустойчивы, процентов 5% или что-то в этом роде гуляет только в пределах одной недели (где-то читал если не путаю). Кстати, сколько гуляет легко оценить если резолвинги каждой недели сохраняются - вытащить сайты ответившие в обе недели и сравнить их IP-адреса. Я бы лично с удовольствием почитал бы о результате :)

Резолвинги сохраняются, сделать нетрудно. Думаю, за выходные скую.

У тебя, кстати, сам резолвинг - дорогая операция? Если не очень - ты бы зарядил
14 иттераций только резолвинга по утрам в течении 2 недель для одного массива доменов и потом
рассказал равномерно ли оно меняется или с всплесками и если с - то когда эти
выбросы бывают.

Отвечу сюда, но это общий ответ.

На первом этапе (в понедельник) отвечает процентов 80-85%

Я не верю в то, что за спам-переезд-неуплату и прочее еженедельно отключается каждый шестой сайт.

имхо здесь что-то организационное (думаю крупный хостер сможет объяснить), т.е. сайт отключить быстро (может даже автоматически), а вот включить уже нет
А приблизительно не скажете какой процент сайтов от общего списка отвечает сразу? Какой процент сайтов (опять же от общего списка) отвечает со второго раза? И сколько с третьего?

Там же написано прямо в тексте.
На первом проходе отвечает процентов 80-85.

Написано <i>80-85% от того, что показано на квадрате</i>, а мне интересно какой процент от общего числа доменов в зоне РУ (т.е. и те которые резолвятся и которые нет)? И сколько процентов добавляется за второй и третий проходы?

Ну вот за прошлую неделю:

всего доменов: 1044 тысячи (зарегистрировано, по Stat.nic.ru)
делегировано: 925 тысяч
resolved: 857 тысяч.
выкачалось и показано на квадрате: 796 тысяч

При этом "к утру вторника" выкачалось меньше 700k (точных цифр не помню, можно конечно поанализировать базу, там есть данные о моменте выкачки, но это мгновенно не делается, ибо эти данные в тексте самой выкачки)

Спасибо!

Вообщем, подытожу: при первом проходе отзываются менее 70% от общего числа зарегистрированных доменов, а при n последующих проходах отзываются еще около 10% от общего числа.
А сколько всего приблизительно проходов - в районе 20-30?

Зарегистрированными доменами это мерять неправильно. Нужно хотя бы делегированными.

Проходов - один в первые сутки и по два в последующие 4-5. Т.е. около 10 всего.
Попыток порезолвить дополнительно - одна в сутки т.е. 4-5 всего.

<i>Зарегистрированными доменами это мерять неправильно. Нужно хотя бы делегированными</i>
ок, соглашусь

> Зарегистрированными доменами это мерять неправильно. Нужно хотя бы делегированными.

Вот это ты верно заметил. Но еще разделил бы ты делегированные вчера
(то есть такие что в них уже все скорее всего резолвятся но еще за себя не отвечают)
от тех кто сделал это неделю назад.

Что-то я не верю, что этот эффект связан со случайными естественными причинами. Тёмную сторону силы чувствую :-)

у вас на поисковом сервере bind стоит в качестве dns сервера ?

Резолвится практически все, если вопрос про это.

Переодически глчит сайт Одноклассников......
Какой кошмар(((((((((