Вероятно, трудно найти сравнение между Apache Lucene и Google Search Appliance, потому что это такие разные вещи. В то время как Lucene - это программный компонент для индексирования документов со встроенным базовым «повышением» релевантности, GSA - это продукт корпоративного поиска (устройство / физическое оборудование) с множеством готовых функций для настройки и оптимизации результатов поиска на основе поискового алгоритма Google.
По сути, это два отличных инструмента с разными сценариями реализации. Но, конечно, они совпадают, особенно если они используются для поиска на вашем среднем веб-сайте.
В голове у меня несколько тем, с которых вы, возможно, захотите начать для сравнения:
Развертывание / архитектура
- Lucene - это программный компонент, который можно глубоко интегрировать в ваше собственное программное обеспечение, предоставляя индекс (обычно на основе файлов, иногда в памяти) для быстрого индексирования и извлечения контента.
- Проект lucene предоставляет довольно большой список анализаторов для правильной индексации различных языков (западные языки, арабский, азиатский и т. Д.), Но есть возможности для улучшений с анализаторами.
- Lucene для .Net - довольно популярный порт для интеграции в Microsoft .Net Plattforms.
- Программное и аппаратное обеспечение GSA объединено и продается как устройство с интерфейсом HTTP (s), предоставляющее результаты поиска в формате HTML (через собственные XSLT) или XML (для лучшей интеграции на ваш веб-сайт).
- GSA поставляется с языковыми пакетами (установленными и загружаемыми). Вам нужно будет выбрать один из наборов. Если вам нужна поддержка большего количества языков, вам может потребоваться добавить еще один GSA в инфраструктуру (если все необходимые языки не находятся в одном пакете)
- GSA работает отлично и требует очень небольшого обслуживания
- GSA позволяет масштабировать практически без инженерных усилий. глобально распределены, но подключенные GSA можно настроить через веб-интерфейс
- GSA можно сделать HA, купив более дешевый модуль горячего резервирования.
Индексирование
- Lucene предоставляет сканеры (и API поискового робота) для индексации контента. Его не волнует, сканирует ли ваш поисковый робот на самом деле веб-сайт, как Google, или если вы сканируете базу данных на основе операторов SQL или предоставляете текстовый поток, считываемый из плоских файлов. Но обычно вам нужно внедрить краулер, если предоставленный не соответствует вашим потребностям.
- GSA использует технологию сканера, используемую Google, соблюдая инструкции роботов (в TXT или метатегах), он предоставляет API фида для источников, которые нельзя сканировать (т. Е. Без связи между ними), и поддерживает настройку запросов SQL ко всем базам данных мэров. для извлечения данных из базы данных (будь то URL-адреса для сканирования или сами данные)
Настройка получения / релевантности
- Lucene не стремится и не поддерживает настройку релевантности (кроме увеличения количества записей в индексе). Приложение использует результаты индекса для настройки.
- Lucene - это индекс, используемый SOLR, который обеспечивает настройку и архитектуру, более похожую на GSA (включая получение результатов через HTTP (s))
- GSA позволяет настраивать наборы результатов на основе метаданных, даты и шаблонов URL. В последней версии вы даже можете настроить свои собственные сущности и смещать результаты на их основе.
- GSA поддерживает готовые фасеты для метаданных и некоторые другие интересные вещи в своем интерфейсе, такие как изображения предварительного просмотра для документов, автопредложение и т. Д.
Коммерческие товары
- Lucene является продуктом с открытым исходным кодом (бесплатно), но требует приобретения оборудования.
- GSA начинается с 20 тыс. Долларов за 500 тыс. Документов / URL-адресов.
- Google предоставляет несколько уровней поддержки
- Лицензии GSA необходимо продлевать на 2 или 3 года (вы получаете новое оборудование).
- GSA не требует дополнительного оборудования (устройство входит в комплект)
... есть еще много чего добавить, но я надеюсь, что вы уловили суть.
Обновление, февраль 2016 г .:
Google проинформировал партнеров, что GSA будет прекращено примерно в 2019 году. На данный момент лучшим сайтом, на который можно ссылаться, является http://fortune.com/2016/02/04/google-ends-search-устройство/.
person
Reto Hugi
schedule
30.05.2013