A: 10 дней со SpamAssassin

Отвечаю на свой же вопрос. Поставил SpamAssassin (потому что знакомая игрушка). Кроме этого:

  1. Поставил правила ru_wentor, без них плохо.
  2. Посмотрел на их срабатывание, добавил
    score RU_WENTOR_PHONE 1.0
    (иначе это правило цеплялось практически за все полезные сообщения).
  3. Поучил на inbox (практически чистом, за текущий год), поучил на свежем спаме в каком-то количестве.
  4. Ну и сделал правила:
    • 10 звездочек -> в отдельную папочку, автоматический mark read, читаю вечерами клавишей Del
    • 6 и 5 звезд - отдельные папочки, читаю сразу
    • остальное в inbox

Результат был скорее плохой: временами прилетала большая пачка неловленого.

Стал разбираться дальше и нашел пару десятков автоматически создавшихся и оставшихся с прошлых лет ролевых адресов (вроде ftp@www.lexa.ru - такого никогда и не было, был ftp@ftp, да и то FTP давно не ношу).

Навел чистку. Полегчало кардинально, "неловленые большие пачки" прилетать перестали, сдается мне что просто у умных спамеров - и базы побольше, оттого на ролевые адреса и летит.

Что получается:

  1. Ни одного СОВСЕМ ВАЖНОГО (от живого человека, требующего ответа) письма в spam-10-звезд за 10 дней не упало. Продолжу ее читать и далее раз в день.
  2. В 5-6-звезд "не спам" залетает. Его там, понятно, мало, но посматривать туда надо.
  3. Рассылки и автоматические письма (ebay, paypal, facebook) раскладываются рандомно. Одна дискуссия facebook может разбежаться по всем 4-м папкам (три спама и inbox).
  4. Хрен с ним с фейсбуком, но и письма из банков разбегаются столь же рандомно (после правки веса RU_WENTOR_PHONE - стало полегче).
  5. Распределение спама, на глазок, такое
    • 5% в inbox
    • По 15% - в 5 и 6 звезд
    • Остальное - 10 звезд

Итого:

Как автоматическая система SpamAssassin негоден. Или надо мучительно тюнить правила, городить honeypots (из помянутых выше неиспользуемых ролевых адресов) и проч, или пользоваться будет нельзя, нет хорошей границы детектирования.

Как система сортировки, когда все заголовки просматриваются хотя бы вскользь - куча времени экономится, вопросов нет.

UPDATE: тут в комментариях на полном серьезе предлагали отдаться гуглу. А потом случилось вот: cranequinier.livejournal.com/91395.html

Comments

Как раз летом в ЖЖ это обсужала куча омериканских self employed-ов. Google domain mail победил с большим отрывом.

Что там с управлением false positive?
Хочу папочку в которую гугл бы принимал все (что для других бы - отверг).

Не знаю что там с управлением. Я использую только фильтры по входящих адресам и сабджектам и папку собирания спама.

Сделай себе бесплатный gmail и погоняй через него реальную почту пару дней - меня этот эксперимент очень впечатлил.

Как в рамках этого эксперимента узнать, что вся важная почта была получена, а не отдуплилась гуглом вникуда?

Никак

Вот!

В какое-такое "никуда"? Оно кладётся в спамфолдер. В который зайти и посмотреть.

Я первую неделю заходил, потом перестал.

И, кстати, не очень понятно, как важная почта может попасть в спамфолдер. Обычно важную почту принято получать из веб-формы на специальный адрес. Или у тебя важная почта приходит на support@... ?

Вот в такое никуда:
host gmail-smtp-in.l.google.com[173.194.207.27] said:
552-5.7.0 This message was blocked because.....

Это видит отправитель (если туда смотрит). А получатель - ничего не видит.

>>Или у тебя важная почта приходит на support@...

Да, потому что не веб-формой единой

Я наблюдал и хуже. 200 Accepted и нет нигде вообще. Ни в спаме ни в All Mail.

У гугла?

Угу. Раза 2 или 3 всего, но видел. Правда, не для домена, для простого адреса, может там есть какая-то разница, я не знаю.

Ну вот у нас заколдованный клиент был (правда aol.com) - письма к нему уходят и все. Найти он их не может.
Общались через форум на одном сайте.

Вот, увы, верю.

Причем слали с разных мест. Наш сервер, гугл, яндекс.....

Кроме того, там есть второй эффект:
- допустим, мы начинаем гнать (форвардить) всю нашу почту на @gmail
- там, естественно, 90% спама, который исходит с нашего же IP
- в некоторый момент этот наш IP помечается гуглом как спамерский и
а) почта вообще перестает доходить
б) перестает доходить и почта на другие адреса @gmail (клиентов, например)

"Спроси как я знаю"

Дык, трейнинг же.
Прогнать sa-learn на спаме и хаме - желательно 1000+ емылов и оно сразу становится намного лучше.
Если спама нет, то можно и одним хамом обойтись.

Если база общая для всех, то даже прогон на хаме одного юзера сильно уменьшает количество фолс позитив для всех.

Ну в таких объемах (1000+) я прогнал, конечно.

Могу подарить 13 тысяч спама, прорвавшегося через мои фильтры (которые не зависят от контента вообще) и гарантированно отобраны вручную.

За какое время?
несколько тысяч (за долгое время - то что старым решением было поймано) я туда скормил.

Но кормить надо свежим, лучше в реалтайме :)

С сентября 2013 по сегодня.

Не, не надо.
У меня корм образуется со скоростью 1000 в три дня (включая то, что SA ловит "10 очков и больше" - это все в корм). И еще сколько-то руками (вот только что покормил, но забыл сколько задал овса, штук 150-200)

Ужснах. Ну да, у меня чисто по регекспам на PTR где-то столько и отсекается, пролезает меньше 5%, а их уже thunderbird'ом да руками.

Ну вот эта 1000 - это "ассасин, 10+ очков". Туда какое-то количество уведомлений с фейсбука попало, впрочем, будет в этом месте загиб

если не секрет = а какой у вас объем полезной входящей почты в день/месяц ?

Сложный вопрос, кто же их считал точно.

Сохранено в этом году (т.е. за 9 месяцев) ~5000 писем.
Это inbox.

Прочтено, принято к сведению и удалено - думаю что на порядок больше.

у мена на работе обьемы входящей на ~порядок больше (работа такая) и обычный MS Оutlook работает очень хорошо, не проще ли отдаться MS Office'у ?

Z / V

В смысле, тамошнему антиспаму?

> В смысле, тамошнему антиспаму?

да, office же у вас по любому есть

Z / V

А там есть антиспам?
Гугление outlook antispam показывает всякие плагины....

конечно = например https://support.microsoft.com/en-us/kb/3054786

если нехватает штатного то можно и добавить плагинов всяких ...

Z / V

При случае попробую.
junk mail filter и в thunderbird есть, толку то с него

Алексей, я как-то давно (в июле) спрашивал в почту про странность у Nikon с FP Sync, но то письмо кажется как раз в спаме пропало :-) Тут как раз вспомнил про это явление снова и продублировал вам то письмо. Отправил с siberex@gmail.com.

Вы скорее под чтение почты после отпуска - я там многое пропускаю, ибо невозможно.

Сейчас - ответил, но несколько уклончиво