Черный квадрат - теперь на 12% чище!

Улучшил процедуру распознания доменных паркингов на черном квадрате.

Старая процедура распознавала около 45 тысяч запаркованых сайтов, новая - 172 тысячи. Отчего квадрат стал меньше, но за счет подавления дубликатов страниц - не таким раздражающим.

Копать еще есть куда, например явно нужно подавлять дефолтные странички от хостеров, сообщения что такой-то отключен за неуплату и так далее. Как дойдут руки - займусь, благо варез для подавления дублей - имеется.

Comments

если не секрет , как распознаете паркинг или нет ?

Пока - банально. Беру IP на которых много (тысячи-десятки тысяч) виртуальных хостов, делаю ручками самплинг. Если 10 из 10 - паркинг, то все идет в паркинг.

В планах - менее банально. Имеется варез для распознавания нечетких дублей документов, нужно завести образцов паркинга и с ними сравнивать.

BTW, там поиск не работает в IE7. Ломается внутри htmlhttprequest.js. Возможно проблему решит прибивание для search.html корректого content-type (сейчас - text/html, а парсить пытаемся как xml), но не уверен.

Add new comment