Apache Lucene против Google Search Appliance

Кто-нибудь сталкивался с особенностями Apache Lucene? Я слышал, что это даже сравнимо с Google Search Appliance (GSA). Я искал однозначное сравнение между ними, если возможно?

Эти сравнения, доступные в Интернете, довольно расплывчаты.


person Riju Mahna    schedule 24.05.2013    source источник
comment
Было бы лучше сравнить GSA с эластичным поиском (elastic.co) или Solr (lucene.apache.org/solr). Оба лучше подходят для разработки поисковой системы, и оба основаны на Lucene.   -  person YYamil    schedule 08.02.2016


Ответы (1)


Вероятно, трудно найти сравнение между Apache Lucene и Google Search Appliance, потому что это такие разные вещи. В то время как Lucene - это программный компонент для индексирования документов со встроенным базовым «повышением» релевантности, GSA - это продукт корпоративного поиска (устройство / физическое оборудование) с множеством готовых функций для настройки и оптимизации результатов поиска на основе поискового алгоритма Google.

По сути, это два отличных инструмента с разными сценариями реализации. Но, конечно, они совпадают, особенно если они используются для поиска на вашем среднем веб-сайте.

В голове у меня несколько тем, с которых вы, возможно, захотите начать для сравнения:

Развертывание / архитектура

  • Lucene - это программный компонент, который можно глубоко интегрировать в ваше собственное программное обеспечение, предоставляя индекс (обычно на основе файлов, иногда в памяти) для быстрого индексирования и извлечения контента.
  • Проект lucene предоставляет довольно большой список анализаторов для правильной индексации различных языков (западные языки, арабский, азиатский и т. Д.), Но есть возможности для улучшений с анализаторами.
  • Lucene для .Net - довольно популярный порт для интеграции в Microsoft .Net Plattforms.
  • Программное и аппаратное обеспечение GSA объединено и продается как устройство с интерфейсом HTTP (s), предоставляющее результаты поиска в формате HTML (через собственные XSLT) или XML (для лучшей интеграции на ваш веб-сайт).
  • GSA поставляется с языковыми пакетами (установленными и загружаемыми). Вам нужно будет выбрать один из наборов. Если вам нужна поддержка большего количества языков, вам может потребоваться добавить еще один GSA в инфраструктуру (если все необходимые языки не находятся в одном пакете)
  • GSA работает отлично и требует очень небольшого обслуживания
  • GSA позволяет масштабировать практически без инженерных усилий. глобально распределены, но подключенные GSA можно настроить через веб-интерфейс
  • GSA можно сделать HA, купив более дешевый модуль горячего резервирования.

Индексирование

  • Lucene предоставляет сканеры (и API поискового робота) для индексации контента. Его не волнует, сканирует ли ваш поисковый робот на самом деле веб-сайт, как Google, или если вы сканируете базу данных на основе операторов SQL или предоставляете текстовый поток, считываемый из плоских файлов. Но обычно вам нужно внедрить краулер, если предоставленный не соответствует вашим потребностям.
  • GSA использует технологию сканера, используемую Google, соблюдая инструкции роботов (в TXT или метатегах), он предоставляет API фида для источников, которые нельзя сканировать (т. Е. Без связи между ними), и поддерживает настройку запросов SQL ко всем базам данных мэров. для извлечения данных из базы данных (будь то URL-адреса для сканирования или сами данные)

Настройка получения / релевантности

  • Lucene не стремится и не поддерживает настройку релевантности (кроме увеличения количества записей в индексе). Приложение использует результаты индекса для настройки.
  • Lucene - это индекс, используемый SOLR, который обеспечивает настройку и архитектуру, более похожую на GSA (включая получение результатов через HTTP (s))
  • GSA позволяет настраивать наборы результатов на основе метаданных, даты и шаблонов URL. В последней версии вы даже можете настроить свои собственные сущности и смещать результаты на их основе.
  • GSA поддерживает готовые фасеты для метаданных и некоторые другие интересные вещи в своем интерфейсе, такие как изображения предварительного просмотра для документов, автопредложение и т. Д.

Коммерческие товары

  • Lucene является продуктом с открытым исходным кодом (бесплатно), но требует приобретения оборудования.
  • GSA начинается с 20 тыс. Долларов за 500 тыс. Документов / URL-адресов.
  • Google предоставляет несколько уровней поддержки
  • Лицензии GSA необходимо продлевать на 2 или 3 года (вы получаете новое оборудование).
  • GSA не требует дополнительного оборудования (устройство входит в комплект)

... есть еще много чего добавить, но я надеюсь, что вы уловили суть.


Обновление, февраль 2016 г .:

Google проинформировал партнеров, что GSA будет прекращено примерно в 2019 году. На данный момент лучшим сайтом, на который можно ссылаться, является http://fortune.com/2016/02/04/google-ends-search-устройство/.

person Reto Hugi    schedule 30.05.2013
comment
Я не согласен с этим комментарием Lucene does not aim at and has no good support for relevance tuning (except boosting entries in the index). It's up to the application using the index results to do the tuning, учитывая, что есть целые книги по настройке релевантности на основе Lucene manning.com/turnbull (да, это моя книга) - person Doug T.; 10.12.2015
comment
Согласитесь, я недостаточно конкретизировал область тюнинга. Lucene предоставляет механизм оценки, и оценки могут быть увеличены на уровне документа и поля, а также во время запроса. Но AFAIK все еще зависит от приложения, использующего lucene, для применения бизнес-правил (такие механизмы предоставляют SORL, ElasticSearch и т. Д.). Не могли бы вы объяснить, в чем конкретно вы с этим не согласны? Я бы соответствующим образом обновил свой ответ. Спасибо. - person Reto Hugi; 15.12.2015