Pull to refresh

Рецепт вашего поисковика на примере ТехОбзора

Reading time4 min
Views951
Так как Хабр я люблю и уважаю, решил проанонсировать наш новый нишевой поисковик здесь, а заодно и попросить помощи у сообщества.

Итак, ТехОбзор — это новый поисковик, который поможет вам легко найти тесты, обзоры и отзывы пользователей современной бытовой и потребительской техники.

Пару слов о нем, и подробный рецепт создания вашего собственного поисковика:

То, что проще перед покупкой почитать тесты и отклики реальных пользователей понравившейся железки, чем потом кусать локти из-за скоропалительного решения, ни у кого не вызывает сомнения. Проблема в том, что многочисленные добропорядочные и не очень продавцы этой самой техники тоже знают об этом нашем обыкновении. Поэтому чем дальше, тем больше спекулируют на запросах, начинающихся со слов «обзор ...», «тест ...», «отзывы ...».

Задача ТехОбзора – дать доступ ищущим к «чистому знанию» в виде поисковой выдачи действительно содержащей ссылки на тесты, обзоры и отзывы пользователей, а не на маскирующиеся под этим видом «супервыгодныеуникальныепуперпредложения».

Не имеет смысла долго рассказывать о нашем поисковике и раздувать из мухи слона — составить представление о том, что может и чего не может ТехОбзор, вы можете просто задав пару запросов — например, о технике которая стоит на вашем столе, или которую вы собираетесь приобрести. Уверен — узнаете много нового :)

Теперь перехожу к обещанному рецепту создания собственного поисковика.

На самом деле, сделать нишевой поисковик в наше время совсем несложно — благо Google CSE дает довольно широкие возможности даже при минимальном владении инструментами разработки. А если к этому приложить немного программистских навыков и капельку дизайна, то может получиться вполне привлекательная штучка.

Но для того, чтобы получить свою аудиторию, поисковику не достаточно просто существовать. Он должен значительно превосходить своих старших братьев типа Яндекса и Гугла в чистоте выдачи. А вот этого достичь как раз совсем непросто. И успех здесь лежит только в одном направлении — очень качественный подбор ресурсов, которыми ограничивается поисковый индекс.

Итак, если вы собрались сделать свой нишевой поисковик, необходимо облазить интернет и аккуратненько насобирать два мешка URL:

Мешок №1: Список сайтов, на которых публикуется качественная информация по теме поиска. В случае ТехОбзора это:
— сайты онлайновых и оффлайновых СМИ, публикующие тесты и обзоры;
— тематические форумы, на которых происходит обсуждение новинок техники, а также
технических проблем;
— разделы коммерческих сайтов (в первую очередь, интернет-магазинов), которые
публикуют хорошие тесты и обзоры техники, написанные независимыми журналистами.

При этом важно, чтобы отобранные сайты публиковали уникальные обзоры, а не просто дерли без особого разбора статьи с других источников. Проверяется это либо по ссылкам после статьи (все-таки, большинство уже указывает источник, откуда взята статья), либо с помощью специальных систем проверки типа Copyscape.

Также важно стараться по возможности выделять на сайте-источнике именно тот раздел, в котором публикуется нужная информация. В нашем случае это было относительно легко – на большинстве сайтов статьи расположены по урле типа domain.ru/article/stat1.html. Тогда в список вносится повторяющаяся часть URL — domain.ru/article/ — и в Google CSE выбирается параметр «Include all pages whose address contains this URL» (он, кстати, выбран у гугла по умолчанию). Теперь поиск будет производиться только в этом разделе, а остальная часть сайта будет проигнорирована.

Почему это полезно? Потому что:
— даже на достаточно серьезных сайтах рунета часто встречается линкопомоечная страница, содержащая тонну ссылок на всякие славные ресурсы с сопутствующими текстами, которые совсем не украсят поисковую выдачу вашего будущего поисковика;
— на сайтах часто встречаются заброшенные гостевые книги или плохо модерируемые форумы с вытекающими отсюда конфетками типа «всех проституток Москвы», которые тоже неожиданно будут радовать посетителей вашего поисковика;
— один и тот же сайт может содержать разделы из разных сфер, в том числе и не соответствующих вашим задачам, и они также будут замусоривать выдачу. В нашем случае часто встречались разделы «Игры», «Новости Интернета» и т.п., которые к обзорам техники не имеют никакого отношения.
Мешок №2: Стоп-лист. Очень важно сделать и поддерживать список страниц-исключений. Причины тут те же, что я описал выше. Просто не всегда удается четко выделить нужный информационный раздел, и тогда приходится идти от обратного – указывать сайт целиком и потом вносить в стоп-лист те страницы и разделы, которые не должны попадать в поисковую выдачу. Гугл дает небольшой, но достаточно функциональный инструментарий для задания паттернов страниц, которые вы хотели бы исключить из своей выдачи. Он достаточно хорошо описан на сайте Google CSE.

После того, как вы проработали эти два списка (у нас ушла на это неделя плотной работы одного редактора), можно забить их в интерфейс Google CSE (прямо гуртом, там все хорошо продумано в этом плане), и начинать тестировать поисковик. Тестировать нужно долго и тщательно, используя не только правильные и красивые запросы, но и такие, которые провоцируют проявление мусорных страниц. Все выявленные страницы и разделы вносим в стоп-лист. И так до бесконечности – потому что нет предела совершенству :)

По этому алгоритму мы провели достаточно большую работу над набором сайтов, по которым ищет тесты и обзоры ТехОбзор. Но за время этой работы глаза замылились, руки заклинились, а мозг побежал по кругу. Поэтому я хочу попросить у вас помощи в ее завершении.

Помощь, в принципе, простая, и заключается она в пополнении Двух Мешков ТехОбзора ссылками, которые есть в ваших закладках или которые вы сможете найти. Я понимаю, что большинство хабровчан люди занятые, поэтому со своей стороны обещаю, что ваши усилия не останутся неоцененными:
— за каждую ссылку на сайт, публикующий тесты и обзоры, присланную мне на хабрапочту или указанную в комментариях, я гарантирую плюс к карме приславшего;
— за каждую найденную мусорную страницу или раздел в выдаче ТехОбзора – плюсик за комментарий.

Ссылки на сайты с обзорами должны отсутствовать в ТехОбзоре и соответствовать простым правилам, описанным на сайте (щелкаем на ссылку «Для тех, кто хочет, чтобы нашли»). Если одну и ту же ссылку опубликуют разные люди – то работает принцип первенства.

Я понимаю, что от этих плюсиков особо никому не холодно и не жарко, но с моей стороны это то немногое, чем я могу выразить свою признательность за помощь в нашей работе.

Спасибо всем, кто откликнется!
Tags:
Hubs:
Total votes 29: ↑25 and ↓4+21
Comments31

Articles