Вопросы по теме 'inverted-index'
Хранение инвертированного индекса
Я работаю над проектом по поиску информации. Я сделал полный инвертированный индекс с помощью Hadoop / Python. Hadoop выводит индекс в виде пар (слово, список документов), которые записываются в файл. Для быстрого доступа я создал словарь...
3478 просмотров
schedule
21.05.2023
Использование индексов для многословных запросов в полнотекстовом поиске (например, веб-поиске)
Я понимаю, что фундаментальным аспектом полнотекстового поиска является использование инвертированных индексов . Таким образом, с инвертированным индексом ответ на запрос из одного слова становится тривиальным. Предполагая, что индекс...
5407 просмотров
schedule
09.12.2023
Полнотекстовый поиск и инвертированные индексы в MongoDB
На данный момент я играю с MongoDB, чтобы посмотреть, какие у него есть хорошие функции. Я создал небольшой тестовый набор, представляющий простую систему блогов с постами, авторами и комментариями, очень простой.
Я экспериментировал с функцией...
4128 просмотров
schedule
01.10.2022
сложность построения списка инвертированных индексов
Даны n строки S1, S2, ..., Sn и набор алфавитов A={a_1,a_2,....,a_m} . Предположим, что все алфавиты в каждой строке различны. Теперь я хочу создать инвертированный индекс для каждого a_i (i=1,2...,m) . В моем инвертированном индексе тоже...
641 просмотров
schedule
06.10.2023
Как поля связаны с терминами в инвертированном индексе в elasticsearch?
Насколько я понимаю, elasticsearch использует структуру, называемую инвертированным индексом, для обеспечения полнотекстового поиска. Понятно, что в инвертированном индексе есть термины и идентификаторы документов, в которых есть этот термин, но...
1268 просмотров
schedule
16.07.2023
инвертированный индекс в python с пробелом в качестве токенизации и постоянной связью с исходными документами
Я хочу построить инвертированный индекс в python, используя отличную библиотеку https://spacy.io/ для токенизации слов. .
Они представляют собой отличный пример того, как одновременно выполнять предварительную обработку и в итоге получить...
584 просмотров
schedule
18.05.2024
Почему префиксные запросы Lucene / Elasticsearch медленнее, чем термические запросы?
Я недавно читал о Lucene и Elasticsearch, и, похоже, верно следующее (поправьте меня, если я ошибаюсь):
префиксные запросы медленнее, чем термические запросы
суффиксные запросы (* ing) медленнее, чем префиксные (ing *)
Это кажется странным...
146 просмотров
schedule
04.11.2022