Черный квадрат - теперь на 12% чище!
lexa - 09/Апр/2008 22:51
Улучшил процедуру распознания доменных паркингов на черном квадрате.
Старая процедура распознавала около 45 тысяч запаркованых сайтов, новая - 172 тысячи. Отчего квадрат стал меньше, но за счет подавления дубликатов страниц - не таким раздражающим.
Копать еще есть куда, например явно нужно подавлять дефолтные странички от хостеров, сообщения что такой-то отключен за неуплату и так далее. Как дойдут руки - займусь, благо варез для подавления дублей - имеется.
Comments
если не секрет , как распознаете паркинг или нет ?
если не секрет , как распознаете паркинг или нет ?
Пока - банально. Беру IP на которых много (тысячи-десятки ты
Пока - банально. Беру IP на которых много (тысячи-десятки тысяч) виртуальных хостов, делаю ручками самплинг. Если 10 из 10 - паркинг, то все идет в паркинг.
В планах - менее банально. Имеется варез для распознавания нечетких дублей документов, нужно завести образцов паркинга и с ними сравнивать.
BTW, там поиск не работает в IE7. Ломается внутри htmlhttpre
BTW, там поиск не работает в IE7. Ломается внутри htmlhttprequest.js. Возможно проблему решит прибивание для search.html корректого content-type (сейчас - text/html, а парсить пытаемся как xml), но не уверен.