Вопрос про юзабилити поиска

Если вы читаете этот блог в виде в его каноническом виде, то вы, вероятно, заметили, что в левой колонке появилась форма поиска.

Если вы читате через ЖЖ, то таки придется открыть канонический вид.

Вопрос у меня следующий: сейчас комментарии проиндексированы как отдельные документы (это делает возможным позиционирование в конкретный камент и это хорошо), отчего результатов стало больше (и это плохо). А как надо?

Критика всплывающего окна и прочие наезды на javascript не принимаются, со временем я переделаю это нормальным модулем со всякими наворотами, заодно научусь делать модули под Друпал, но пока оверлей на jQuery оказался сильно быстрее, чем разбираться еще и в этом.

Comments

т.е. если через коммент пишут "слово", то столько результатов поиска и вылезет? если да, то лучше, наверно, как-то схлопывать результаты поиска до одного поста

Но и навигацию с точность до камента терять обидно.

Я пока придумал компромисс: выдаем заголовок поста, а дальше - три (или пять) самых релевантных текста, привазанных к этому посту (в их числе может быть сам пост, а могут быть только комментарии).

Кайф в том, что использованный поисковик (наш) такую группировку поддерживает и делать почти ничего не надо.

не надо в "коммент"
нужно в пост, но позиционировать на конкретный коммент.

Тут в дурноватом ЖЖ часть его поиска ищет именно в посты, а часть в комменты, я на второе очень сильно матюкался когда искат. Количество мусора такое что вообще вообще ничего не искать чем оным пользовтаься

Естественно, позиционируемся в пост + борода каментов под ним (у меня не ЖЖ и все раскрыто) в нужное место. Тут и вопроса нет.

Вопрос в том, сколько должно быть результатов поиска при поиске, скажем "и" (или 'raw' что близко по смыслу) - 500 (количество постов) или 10000 (количство постов + каментов).

Пока склоняюсь к варианту, описанному чуть выше, но там не будет полноты.

>>Вопрос в том, сколько должно быть результатов поиска при поиске, скажем "и" (или 'raw' что
>>близко по смыслу) - 500 (количество постов) или 10000 (количство постов + каментов)

я как то не понял вопроса.
в поиске должно быть все найденное. иначе не стоило и искать.

однобуквенные запросы не нужно искать вообще
двухбуквенные - тоже. Нужно ориентироваться на смысл искомого, а не на поиск ради поиска.

Вопрос несложно объяснить.

Вот допустим был пост про 'canon raw'. Под ним 100 комментариев, в каждом втором есть это самое 'canon raw' в каком-то контексте.

Можно показать сам пост, цитату из него с подсветкой и на этом успокоиться. Найдено результатов - 1.

Можно показать пост, цитату из него плюс 50 каментов с цитатой из них. С возможностью спозиционироваться в каждый камент.

Можно, как обсуждается выше, показать структурированный результат
Заголовок поста (ссылка на пост)
цитата из поста с Canon Raw
> заголовок камента-1 (ссылка прямо в него)
цитата из камента
> заголовок камента-3 (ссылка прямо в него)
цитата из камента
> заголовок камента-11 (ссылка прямо в него)
цитата из камента

Но делать эту бороду слишком длинной тоже бред, максимум 2-3 камента, ну 5.

Все три варианта "найдут все найденное", но структурируют результат разным способом. Понятно что третий - самый красивый, но его делать надо, а первые два достаются на халяву.

Про однобуквенные со скрипом согласен информативный запрос из одной буквы трудно придумать (хотя искал - и нашел, мне то что). Это тестовые запросы на случай "а как оно себя ведет, когда результатов много".

Про двухбуквенные не согласен категорически, их точно надо искать, содержательный пример: "5D"

Мое красивое форматирование сбилось. Смысл в том, что каменты смещены вправо.

не юзабельно ни первое ни второе ни третье.

выводить нужно первое вхождение в коммент или пост, с каунтером вхождений по всем комментам к посту.
Позиционировать на первое вхождение. Кому сильно надо - прочтут весь пост исходя из релевантности каунтера. НО замусоривать вывод поисковика нельзя.

>>содержательный пример: "5D"
с трудом соглащусь, но тогда на входе ставьте фильтры языковых конструкций типа предлогов, союзов и т.д. Впрочем я когда пять лет назад делал свой поисковик по фотобанку - где то брал такую даже готовую php либу для русского.

Ну почему первое то? Если первое вхождение - просто в текст, а второе - в заголовок H2, то наверное второе более релевантно?
Не говоря о случае двух и более слов: компактное вхождение более релевантно, компактное вхождение в одно предложение - еще более.

Фильтры предлогов не нужны, если пользователь ввел "в", то ему и найдут (примерно) все документы. Если ввел "в контакте" - то за счет учета компактности ему найдут "в контакте".

Ну и цитату, конечно, показывать надо, чтобы по ней оценили, стоит она перехода или нет.

За php-либу спасибо, только зачем мне она? Поисковик есть, с русским, это не проблема в моем случае.

>>а второе - в заголовок H2, то наверное второе более релевантно?

заголовок ставится перед текстом, а не после.
в русском языке по крайне мере.

В русском HTML перед текстом ставится H1, а H2-H6 - в середине, как заголовки разделов.

Касаемо "не юзабельно" - поиск по целому документу - это как простой поисковик делает. Судя по количеству переходов ко мне на блог - юзабельно.
Поиск по отдельным каменам - это яндексовский поиск по блогам. Соглашусь, пожалуй, что не очень юзабельно.

Третий вариант - это структурированная выдача с quick links, как у гугла или того же Яндекса по некоторым сайтам.

Тогда не понял зачем спрашивать то, ответы на что отличные от собственных мыслей вы слышать не хотите. Ответы мои вы не прочитали.

Я делал поисковик на работе и люди пользовались им ежедневно сотни раз в день в течении пяти лет для работы. Поисковик должен уменьшать варианты и время, а не увеличивать их.

>>выдача с quick links, как у гугла
ксати никогда не пользуюсь и жалею о зря потраченном экранном месте

Почитал, отчего же. Просто в процессе первого ответа (выше) родилось решение, которое нравится, хотя и делать надо.

А вот выдачу первого вхождения, равно как и показ счетчика не могу всерьез воспринять, увы. Попробуйте примерить это решение на тексты сильно разной длины (да вот посты и каменты - отличный пример).

То что вы не используете quick links, означает что вам яндексовская майка нужна. Которая "я нерепрезентативен"

>>Попробуйте примерить это решение на тексты сильно разной длины

примеряю.
вывод поисковика с "отремонтировать 5D" с 86 вхождениями и бородой советов и обсуждений будет раз в сто полезнее пустого поста с заголовком "подскажите где отремонтировать 5Д, ауууу"

мы о юзабилити для пользователя или о программистских понтах говорим?

Так в результатах поиска будут оба. А в цитатах будет контекст.

А с глаголами будет путаница (ремонтировал/отремонтировать)

>>Так в результатах поиска будут оба. А в цитатах будет контекст.
Да, оба. Только обсуждение будет на первом месте, а пустой не заинтересовавший людей пост - на последнем. Несмотря на все его шикарнейшие заголовки.
Я еще раз спрошу - вы о юзабилити для удобства пользователей спросили или об украшательстве?
Если второе - то не смею больше вас напрягать своей болтовней. Ваш сайт - делайте как вам нравится.

Это ж живой великорусский язык, в каментах не пишут так, как ищут.

Типичная дискуссия будет в таком духе "где отремонтировать 5D" - "я свой отнес Арсену и месяц ждал запчастей" - "а мне ремонтировали там-то и все тоже плохо". Помимо глаголов, еще и местоимения (и умолчания) все портят.

Вместе с тем, спасибо за дискуссию, сама по себе идея индексировать "пост+каменты" как основной документ (вытянет наверх те самые много вхождений), а к этому - отдельно комментарии (чтобы и их тоже показать в каком-то количестве) - заслуживает, как минимум, пробы.

>>еще и местоимения (и умолчания) все портят.
Ничего не портят т.к. для работы с словоформами русского языка есть либы. Которые вы правда признавать не хотите. Хорошие либы стоят дорого и являются коммерческими, плохие... все равно в разы улучшают поиск.

Я же пишу не просто так чтобы поболтать, а опыт у меня есть. И строительства поисковых систем и использования чужих. Так вот по форумам и прочим подобным фигням я ищу много и стабильно.
И в том же жж есть два разных поиска, и оба плохие и неудобные. Первый выводит результат по каждому комментарию, поэтому одно плотное обсуждение чего либо может занять страницы четыре вывода поиска, и будет вести фактически на одно и то же место - этим пользоваться вообще невозможно. Второе ведет на посты, при этом пока не залезешь в ссылку и не прочтешь- непонятно, толи кто то случайно написал "начались продажи хххххх, ааааа! хачу хачу хачу!", то ли там идет действительно описание и обсуждение оного и есть куча информации. Ваш вариант смешивает первое со вторым, несколько улучшая ценннсоть выводов второго типа поиска, но при этом интенсивно поедая экранную площадь скатывась к тип.1. Мой интерфейс - будет интуитивно понятен любому и перестанет работать только на специально написанных спамоподобных фейковых текстах.

Ничего не портят т.к. для работы с словоформами русского языка есть либы. Которые вы правда признавать не хотите.

Верну вам вашу реплику: внимательнее читайте, что вам отвечают.
Я не о словоформах, а о местоимениях. И умолчаниях, где никакой словоформы нет, ибо слова нет.

То, что в поиске полезна морфология - ну да, кто бы спорил.

Я же пишу не просто так чтобы поболтать, а опыт у меня есть. И строительства поисковых систем
А можно посмотреть? Может вам не надо фотографом, а надо просто к нам идти, постановщиком задачи?

Мой интерфейс - будет интуитивно понятен любому
Меня настораживает ваше признание про quick links, наверное есть люди, которые этим вовсе не пользуются, но это мЕньшая часть аудитории.

>>а о местоимениях
местоимения нужно сразу фильтровать на входе.

>>А можно посмотреть?
К сожалению уже нет, т.к я уволился. и теперь пока не найдется инвестор под проект новую систему не построю.

>>Может вам не надо фотографом, а надо просто к нам идти, постановщиком задачи?
Нет, спасибо. Я уже отпахал свое в IT. Ни за какие коврижки, пока с голоду умирать не начну ))))

>>ваше признание про quick links
может я не допонял что под этим имеется ввиду?
Я имел ввиду дополнительные ссылки подпоиска по частям документа. Типа комментариев к посту т.к зная что документ высокорелевантен проще на странице нажать ctrl+f. т.к. одна-две дополнительные ссылки вовсе не отменяют необходимости смотреть весь документ, а место занимают. А у документа с низкой релевантностью (единичным поисковым вхождением) контекст уже более менее понятен из выводной цитаты.

местоимения нужно сразу фильтровать на входе.

Ну а толку то, ну отфильтровали.
Вопрос: "где отремонтировать 5D?"
Ответ: "я свой отдавал Арсену"

Где в ответе "отремонтировать 5D" ?

слабополезный пост и ответ в примере.
соответственно в первой строке вывода поиска он и не должен быть.
кроме Арсена еще до кучи мест где это можно сделать, и при обсуждении все это обязательно даст вхождения. Таким образом из поиска мы это все равно не потеряем - но поставим не на первое место.
Мы ведь об удобстве говорим?

Посмотрите например релевантность вот этого поста со всеми комментариями по запросу "юзабилити поиска" "поисковое юзабилити". Вместо односложного ответа "я сделал так" - тут достаточно информации почитать и подумать.

"юзабилити поиска" (как два слова в близком контексте) тут встречаются дважды, один раз в исходном посте и один раз - в комментарии на который я отвечаю. Тот самый случай, мы обсуждаем нечто, не называя его названием.

Не, "плотность слов" - важный критерий, но не в штуках же его мерять, независимо от длины текста (даже оставляя в стороне тексты, сделанные роботами).

>>надо просто к нам идти, постановщиком задачи?

кстати, а я правильно понимаю что ваш libraw нельзя использовать в качестве вспомогательного модуля в других коммерчески-лицензируемых продуктах?

Можно, пожалуйста. Бесплатно и без роялти.

http://www.libraw.org/docs:
===
Copyright
... bla=bla, GPL....
If you want to use LibRaw within some software program with other terms of distribution, either freeware or commercial, please contact the author and receive a license for your product (this is free of charge).
===

Но надо бумагу подписать с LibRaw LLC (лицензионное соглашение).

Да, и чтобы не было непоняток.

LibRaw - это хобби такое (на текущий момент)

А работа - "Ашманов и Партнеры", когда я говорил "к нам", я именно АиП имел в виду.