Skip to Content

Черный квадрат - теперь на 12% чище!

Улучшил процедуру распознания доменных паркингов на черном квадрате.

Старая процедура распознавала около 45 тысяч запаркованых сайтов, новая - 172 тысячи. Отчего квадрат стал меньше, но за счет подавления дубликатов страниц - не таким раздражающим.

Копать еще есть куда, например явно нужно подавлять дефолтные странички от хостеров, сообщения что такой-то отключен за неуплату и так далее. Как дойдут руки - займусь, благо варез для подавления дублей - имеется.

Comments

если не секрет , как распознаете паркинг или нет ?

если не секрет , как распознаете паркинг или нет ?

Пока - банально. Беру IP на которых много (тысячи-десятки ты

Пока - банально. Беру IP на которых много (тысячи-десятки тысяч) виртуальных хостов, делаю ручками самплинг. Если 10 из 10 - паркинг, то все идет в паркинг.

В планах - менее банально. Имеется варез для распознавания нечетких дублей документов, нужно завести образцов паркинга и с ними сравнивать.

BTW, там поиск не работает в IE7. Ломается внутри htmlhttpre

BTW, там поиск не работает в IE7. Ломается внутри htmlhttprequest.js. Возможно проблему решит прибивание для search.html корректого content-type (сейчас - text/html, а парсить пытаемся как xml), но не уверен.

Post new comment

The content of this field is kept private and will not be shown publicly.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <s> <i> <b> <blockquote>
  • Lines and paragraphs break automatically.
  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>, <c>, <cpp>, <drupal5>, <drupal6>, <java>, <javascript>, <php>, <ruby>. The supported tag styles are: <foo>, [foo].
  • Images can be added to this post.

More information about formatting options



.