Мечта об RSS-читалке для гиков

Вот читаю я RSS-потоки, штук эдак 100, а хотел бы и больше. Разные, про фото, про железо, про софт, просто потоки сознания. И вот что меня достало:
  • Неинтересные мне темы. Хочу читать новости про Apple, но ни слова про iPhone. Идеально было бы отложить весь iPhone отовсюду в отдельную папочку и ее уже не читать.
  • Дубли. Выпустил Nikon новую камеру, так об этом напишут все. И фотографы и фото-новости и новости железа и вообще все. Половина просто перепечатает пресс-релиз, а вторая половина - перепечатает и откомментирует.
  • Редкие жемчуга в куче понятно чего. Ленты в которых 99% неинтересны (тематика не та), но зато остальной процент - интересен крайне.

Вот и интересно, может быть есть готовое счастье, которое бы делало простые вещи:

  1. негативную фильтрацию по ключевым словам (все кроме iPhone);
  2. позитивную фильтрацию (все про Photoshop, а остальные новости Adobe неинтересны);
  3. несколькоуровневую кластеризацию (темы-похожие тексты - полные дубли);
  4. архивацию хотя бы за несколько месяцев, а лучше вечную;
  5. поиск по архиву.
Хочу десктопное приложение (Win или Win+Mac) или в крайнем случае сервис. Готов дать денег.

Comments

Готовое пожелание к проекту для веб- или десктоп- разработчика. Осталось найти кто это реализует.

Кстати я сам о том что хочу такое думал уже не раз.

Я в ЖЖ отметил, что тема интересная. Но допустим лично для меня трудноподнимаемая на коленке из-за необходимых ресурсов (тот же трафик). С другой стороны, действительно интерес в данном направлении есть. И, честно говоря, попробовать хотелось бы. Пока только не получается сходу состыковать это все с планами на ближайшую пятилетку :)

Vienna все это умеет делать. Бесплатно.

Хочу уточнить. Третий пункт - кластеризацию-дубли - тоже ?

Перечитал еще раз - нет, до такой эвристики еще никто не докатился.

На мой взгляд, принципиально важно именно кластеризовать по близости тематики, чтобы это было основным view.

Т.е. вообще отойти от понятия "лента с определенного источника" (или с группы источников), источников много и они пересекаются.

Newzcrawler делает все, кроме пункта 3.
Пользуюсь уже два года, только по ключевым словам и читаю. А группировку по тематикам делаю сама.

Правда не обновляется с 2006 года :(

Еще есть монстр из "старенького" - Omea от JetBrains - тот, помимо всего прочего, еще и всю возможную инфу (с диска, из Аутлука и пр.) в одном месте сохраняет.

А из новенького и обновляемого - Awasu - может быть, они и до пункта 3 со временем дойдут (развиваются активно). Там можно даже собственные правила в несколько кликов создавать (например, изменился курс доллара на энное количество пунктов (RSS курсов валют) - выскочила напоминалка об этом эпохальном событии.

Денег он готов дать. Да ты этот проект по служебному заданию делать отказался.

Ну я немного готов дать. Максимум баксов 15 в месяц по подписке.

Shrook умеет группу interesting, куда помещает статьи на основании байесового фильтра. Чтобы всё вместе - наверное только gnus после неслабой работы напильником.

наверное это уже куда-то ближе к яндекс-новостям. будет потрясающе, если кто-то воспроизведет их технологию в более "приземленных" целях :)

В этом месте есть очень неприятная грабля, связанная с тем, что список подписок у всех свой.

угу, правильно. т.е. если это делать клиентским софтом - то грубо говоря весь алгоритм я.новостей надо переносить на клиента. а если делать сервисом - то вообще чудеса получатся, потому что для грамотных результатов необходимо как "общее обучение" для набивания словарей и множеств, так и специфические веса пользовательским предпочтениям раздавать и выборку по ним корректировать.
вообще идея очень интересная, но настолько же и очень трудоемкая.
кстати видимо по озвученным тобой причинам лично я до сих пор не могу заставить себя читать rss'ы. слишком много времени нужно для отлавливания крупиц золота :)

Там того алгоритма совсем немного.

тогда остается только попробовать сделать :) если есть желание обсудить как это должно выглядеть/работать - буду рад.

Так ключевая фраза - "яндекс-новости для (выбранных пользователем) RSS-лент" уже прозвучала, что тут обсуждать.

В смысле кластеризации, мне кажется разумнее трехуровневая Новотечная модель, но не исключаю, что причина в том, что я к ней приложил руку.

Группировать дубли и похожие документы можно просто по TF*IDF

тема заманчивая. только не верю что никто до сих пор такой хреновины не сделал.

Вот и я не верю. Готов дать денег сделавшим. Немножко, но могу каждый месяц/год

Веб сервисы:
<a href='http://pipes.yahoo.com/pipes/&apos;>Yahoo Pipes</a> и <a href='http://www.popfly.ms/&apos;>MS Popfly</a>. Вроде есть ещЁ какие-то.

Re: Веб сервисы:
Pipes обосрались, на мой взгляд. Т.е. решаются только две задачи из пяти (фильтрация по кейвордам), ну да это может любой разумный читатель.

При этом в пайпах нету даже фильтрации без учета регистра, я попросил не показывать мне iphone в subject и успешно вижу iPhone

Re: Веб сервисы:
попфлай помощнее. правда, нашЁт последних 2х пунктов - хз, не проверял.

Re: Веб сервисы:
Да, я буду смотреть. Оно хочет MS Passport, а я свой проэтосамое, надо новый заводить и что-то сейчас не хочется.

На самом деле, у меня серьезная проблема в другом месте. В результате обсуждений я _знаю_ как этот сервис должен выглядеть. Или думаю что знаю.

Соответственно, с суррогатами начинается игра "тараканы". Борюсь с ней, а то ведь придется делать самому.

Re: Веб сервисы:
в попфлай регистрация по инвайту. если нужен, то у меня 5 штук валяеца :)

насчЁт суррогатов: так ведь оно практически всегда так, но не писать же всЁ самому :)

Re: Веб сервисы:
Нужен, интересно

lexa@lexa.ru

Ага, похоже на правду. Подписался, посмотрим.

Правда пока вижу это:

Important note! Thanks to the enthusiastic response to our launch last week at DEMOFall, plus continuing positive coverage this week, we are a bit overwhelmed with the number of new feeds being created and are actively beefing up our infrastructure to meet the demand. While you can normally expect to see new content in your feed every 3-4 hours, it will currently take 24 hours to start getting content in your new feed.

Жопа. Вместо русских букв знаки вопроса. А как дысал...

возвращаясь к теме :)
я вот тут заметил одну штуку, и вспомнил ваш пост. если вдруг ещЁ интересует, то встроеная рсс-читалка в Opera умеет всЁ кроме пункта 3, русский язык понимает, вроде даж поддерживает нормальные регекспы :)