Пятничные сайты
lexa - 19/Окт/2007 14:57
Я на эту тему уже писал, но готов утверждение усилить.
Каждый понедельник в 9 утра у меня стартует очередная выкачка для черного квадрата. К утру вторника оно резолвит и выкачивает все, что резолвится и выкачивается с первого раза. Последние месяца два - это процентов 80-85% от того, что показано на квадрате, где-то 650-680 тысяч сайтов отвечают с первого раза (цифры для последних трех недель).
После этого наблюдается весьма странная картина:
- Во вторник-четверг пополнить квадрат толком не удается. Сайтов, которые не работали в понедельник, но починились к утру четверга - относительно немного. Ну скажем еще 40 тысяч за три дня удается окучить. Каждый новый проход находит 3-5% живых среди ранее неживых.
- вечером четверга живых (среди ранее мертвых) куда больше, начиная с этого момента и до субботы каждый новый проход оживляет процентов 9-10.
Что это ? Десятки тысяч сайтов падают на выходных, их всю неделю чинят, к четвергу достигают успеха ?
Какой-либо статистики (по хостингу, по IP, по whois, по списку сайтов) я не делал, но руки уже чешутся.
Comments
А может это глюки используемого софта? Или может это происхо
А может это глюки используемого софта?
Или может это происходит с одной группой сайтов? Возможно составлять список вылетаемых сайтов и проанализировать уже его?
Почему софт глючит во вторник-четверг и работает в пятницу-с
Почему софт глючит во вторник-четверг и работает в пятницу-субботу ?
Да, а почему нет?
Да, а почему нет?
Их отключили на выходные за неуплату например или еще какое
Их отключили на выходные за неуплату например или еще какое рекламирование в спаме,
ну и с понедельника по четверг деньги шли (разборки про спам шли), и вот в среду утром
оно случилось, четверг ушел на то что бы вспомнить как включить обратно и в четверг же
включили. непонятно почему это именно четверг а не первые числа месяцев, правда.
А, вот, понял. В выходные случилась спам(ddos)-активность сайта (на сайт), в понедельник его выключили,
до четверга разбирались.
а еще, когда руки дочешутся (хм), собери статистику такого р
а еще, когда руки дочешутся (хм), собери статистику такого рода -
сколько тех, кто в понедельник резолвился но не отвечал - в чтверг стали резолвиться во что-то другое (в ip другого владельца, опционально). Может это неудачные переезды, типа сами решили переехать к понедельнику но не получилось или наоборот в понедельник хостер инициировал расторжение и переезд за баловство.
Но вообще - жениться вам надо, барин. Хотя, с другой стороны, ты уже...
Я не делаю повторный резолвинг. Точнее, делаю его только в с
Я не делаю повторный резолвинг. Точнее, делаю его только в ситуации, когда получен редирект (таких немного).
В силу достаточно понятных причин, сильно дешевле порезолвить всех оптом и специально заточенным клиентом, чем резолвить в HTTP-клиенте.
Можно сравнить по неделям, конечно.
Вот именно. сравни любые 2 подряд (ты же говоришь что эффект
Вот именно. сравни любые 2 подряд (ты же говоришь что эффект устойчивый) . И оцени разницу.
Кроме того, часть этого - может быть как раз из за резолвинга оптом - типа утром на момент резолвинга оно было тут,
а днем на момент скачивания - уже где-то еще. Вот оно в сумме (отключения-переезды) и набежит.
Если оно переехало после резолвинга но до первого скачивания
Если оно переехало после резолвинга но до первого скачивания, то оно у меня будет считаться неотвечающим, ибо новому адресу взяться неоткуда (нового резолвинга не будет)
И повторяю вопрос про 15%. Ну не может столько дрыгаться.
Вообще, вопрос про устойчивость IP-адресов сайтов - интересный и нуждается в изучении. Поставил галочку в todo
Ну, ясное дело что у этих 15 процентов разные причины. Ну та
Ну, ясное дело что у этих 15 процентов разные причины. Ну так вот моя версия что процентов 80
от них - это таки
1) неудачные переезды в ночь с воскресенья на понедельник
2) переезды инициированные хостером за баловство в выходные
3) переезды в промежуток между резолвингом и скачиванием
а остальное - просто косяки.
Тогда понятно почему это случается именно с понедельника по четверг а не размазано ровным слоем.
Но ты бы собрал данные про разницу в ip между 2-мя соседними неделями и про владельцев неотвечающих
ip за соседние 3-4 недели - и стало бы я так думаю все ясно.
80% от 15% - это 12% от всех Каждый 8-й сайт переезжает, от
80% от 15% - это 12% от всех
Каждый 8-й сайт переезжает, отключается и т.п. за период "неделя"?
Я живу на каком-то другом глобусе!
> 80% от 15% - это 12% от всех > Каждый 8-й сайт перее
> 80% от 15% - это 12% от всех
> Каждый 8-й сайт переезжает, отключается и т.п. за период "неделя"?
> Я живу на каком-то другом глобусе!
Да нет, ты просто забыл, от безделья :-). из твоих 900к сайтов добрая четверть небось - это
дорвейчеги и прочий поисковый и не очень поисковый спам (ну, ты знаешь).
Их гоняют только в путь, если найдут, и с той (поисковики/антиспамблэклисты)
и с другой (хостеры) стороны.
И вот берет дорвейщщег в понедельник после звонка все свои 30к псевдосайтов
(такой же у них порядок на одно лицо) и несет к следующему хостеру (колокейтеру).
А не является ли это способом их подетектировать ? У меня д
А не является ли это способом их подетектировать ?
У меня данные есть больше чем за год, начиная с февраля - за каждую неделю. Надо что-то с ними плохое сделать.... когда-нибудь :)
> А не является ли это способом их подетектировать ? Мож
> А не является ли это способом их подетектировать ?
Может и является, кстати. Ты бы сравнил долю известных спамсайтов среди
понедельничных неответов и среди понедельничных же ответов?
Может, нас там ждет открытие?
Куда ходить за списком известных дорвеев и прочего такого - ты знаешь.
> Каждый понедельник в 9 утра у меня стартует ну и перен
> Каждый понедельник в 9 утра у меня стартует
ну и перенеси утро понедельника на поздний вечер четверга и сравни.
Я, наоборот, хочу попробовать перенести на субботу. В эту ст
Я, наоборот, хочу попробовать перенести на субботу. В эту сторону проще нести.
есть маза, что в выходные ты нарвешься на другие 15% неответ
есть маза, что в выходные ты нарвешься на другие 15% неответов, из-за всяких
плановых работ на выходные, которых больше чем в будни.
Лучше размажь процесс на 4 ночи в будни.
>устойчивость IP-адресов сайтов Адреса неустойчивы, проце
>устойчивость IP-адресов сайтов
Адреса неустойчивы, процентов 5% или что-то в этом роде гуляет только в пределах одной недели (где-то читал если не путаю). Кстати, сколько гуляет легко оценить если резолвинги каждой недели сохраняются - вытащить сайты ответившие в обе недели и сравнить их IP-адреса. Я бы лично с удовольствием почитал бы о результате :)
Резолвинги сохраняются, сделать нетрудно. Думаю, за выходные
Резолвинги сохраняются, сделать нетрудно. Думаю, за выходные скую.
У тебя, кстати, сам резолвинг - дорогая операция? Если не оч
У тебя, кстати, сам резолвинг - дорогая операция? Если не очень - ты бы зарядил
14 иттераций только резолвинга по утрам в течении 2 недель для одного массива доменов и потом
рассказал равномерно ли оно меняется или с всплесками и если с - то когда эти
выбросы бывают.
Отвечу сюда, но это общий ответ. На первом этапе (в понедел
Отвечу сюда, но это общий ответ.
На первом этапе (в понедельник) отвечает процентов 80-85%
Я не верю в то, что за спам-переезд-неуплату и прочее еженедельно отключается каждый шестой сайт.
имхо здесь что-то организационное (думаю крупный хостер смож
имхо здесь что-то организационное (думаю крупный хостер сможет объяснить), т.е. сайт отключить быстро (может даже автоматически), а вот включить уже нет
А приблизительно не скажете какой процент сайтов от общего списка отвечает сразу? Какой процент сайтов (опять же от общего списка) отвечает со второго раза? И сколько с третьего?
Там же написано прямо в тексте. На первом проходе отвечает п
Там же написано прямо в тексте.
На первом проходе отвечает процентов 80-85.
Написано <i>80-85% от того, что показано на квадрате&l
Написано <i>80-85% от того, что показано на квадрате</i>, а мне интересно какой процент от общего числа доменов в зоне РУ (т.е. и те которые резолвятся и которые нет)? И сколько процентов добавляется за второй и третий проходы?
Ну вот за прошлую неделю: всего доменов: 1044 тысячи (зарег
Ну вот за прошлую неделю:
всего доменов: 1044 тысячи (зарегистрировано, по Stat.nic.ru)
делегировано: 925 тысяч
resolved: 857 тысяч.
выкачалось и показано на квадрате: 796 тысяч
При этом "к утру вторника" выкачалось меньше 700k (точных цифр не помню, можно конечно поанализировать базу, там есть данные о моменте выкачки, но это мгновенно не делается, ибо эти данные в тексте самой выкачки)
Спасибо! Вообщем, подытожу: при первом проходе отзываются м
Спасибо!
Вообщем, подытожу: при первом проходе отзываются менее 70% от общего числа зарегистрированных доменов, а при n последующих проходах отзываются еще около 10% от общего числа.
А сколько всего приблизительно проходов - в районе 20-30?
Зарегистрированными доменами это мерять неправильно. Нужно х
Зарегистрированными доменами это мерять неправильно. Нужно хотя бы делегированными.
Проходов - один в первые сутки и по два в последующие 4-5. Т.е. около 10 всего.
Попыток порезолвить дополнительно - одна в сутки т.е. 4-5 всего.
<i>Зарегистрированными доменами это мерять неправильно
<i>Зарегистрированными доменами это мерять неправильно. Нужно хотя бы делегированными</i>
ок, соглашусь
> Зарегистрированными доменами это мерять неправильно. Ну
> Зарегистрированными доменами это мерять неправильно. Нужно хотя бы делегированными.
Вот это ты верно заметил. Но еще разделил бы ты делегированные вчера
(то есть такие что в них уже все скорее всего резолвятся но еще за себя не отвечают)
от тех кто сделал это неделю назад.
Что-то я не верю, что этот эффект связан со случайными естес
Что-то я не верю, что этот эффект связан со случайными естественными причинами. Тёмную сторону силы чувствую :-)
у вас на поисковом сервере bind стоит в качестве dns сервера
у вас на поисковом сервере bind стоит в качестве dns сервера ?
Резолвится практически все, если вопрос про это.
Резолвится практически все, если вопрос про это.
Переодически глчит сайт Одноклассников...... Какой кошмар(((
Переодически глчит сайт Одноклассников......
Какой кошмар(((((((((