Вопросы по теме 'inverted-index'

Хранение инвертированного индекса
Я работаю над проектом по поиску информации. Я сделал полный инвертированный индекс с помощью Hadoop / Python. Hadoop выводит индекс в виде пар (слово, список документов), которые записываются в файл. Для быстрого доступа я создал словарь...
3478 просмотров

Использование индексов для многословных запросов в полнотекстовом поиске (например, веб-поиске)
Я понимаю, что фундаментальным аспектом полнотекстового поиска является использование инвертированных индексов . Таким образом, с инвертированным индексом ответ на запрос из одного слова становится тривиальным. Предполагая, что индекс...
5407 просмотров

Полнотекстовый поиск и инвертированные индексы в MongoDB
На данный момент я играю с MongoDB, чтобы посмотреть, какие у него есть хорошие функции. Я создал небольшой тестовый набор, представляющий простую систему блогов с постами, авторами и комментариями, очень простой. Я экспериментировал с функцией...
4128 просмотров

сложность построения списка инвертированных индексов
Даны n строки S1, S2, ..., Sn и набор алфавитов A={a_1,a_2,....,a_m} . Предположим, что все алфавиты в каждой строке различны. Теперь я хочу создать инвертированный индекс для каждого a_i (i=1,2...,m) . В моем инвертированном индексе тоже...
641 просмотров

Как поля связаны с терминами в инвертированном индексе в elasticsearch?
Насколько я понимаю, elasticsearch использует структуру, называемую инвертированным индексом, для обеспечения полнотекстового поиска. Понятно, что в инвертированном индексе есть термины и идентификаторы документов, в которых есть этот термин, но...
1268 просмотров
schedule 16.07.2023

инвертированный индекс в python с пробелом в качестве токенизации и постоянной связью с исходными документами
Я хочу построить инвертированный индекс в python, используя отличную библиотеку https://spacy.io/ для токенизации слов. . Они представляют собой отличный пример того, как одновременно выполнять предварительную обработку и в итоге получить...
584 просмотров
schedule 18.05.2024

Почему префиксные запросы Lucene / Elasticsearch медленнее, чем термические запросы?
Я недавно читал о Lucene и Elasticsearch, и, похоже, верно следующее (поправьте меня, если я ошибаюсь): префиксные запросы медленнее, чем термические запросы суффиксные запросы (* ing) медленнее, чем префиксные (ing *) Это кажется странным...
146 просмотров
schedule 04.11.2022