Публикации по теме 'information-retrieval'


Создание корпуса автопредложений, часть 2
Использование НЛП для извлечения ключевых фраз из документов. В последнем посте мы говорили о том, как выбрать между журналами запросов и документами в качестве источника данных. Для нашего продукта мы остановились на наших документах. В этом посте мы поговорим о том, как превратить документы в предложения. Этот пост будет длиннее, немного сложнее, но он должен доставить массу удовольствия. Там будет код и математика, но не волнуйтесь, вы сможете следить за ними, если у вас есть..

Рекомендательные системы, использующие глубокое обучение в PyTorch с нуля
Рекомендательные системы (RS) существуют уже давно, и недавние достижения в области глубокого обучения сделали их еще более захватывающими. Алгоритмы матричной факторизации были рабочей лошадкой RS. В этой статье я предполагаю, что вы смутно знакомы с методами на основе совместной фильтрации и имеете базовые знания об обучении нейронной сети в PyTorch. В этом посте моя цель - показать вам, как реализовать RS в PyTorch с нуля. Теория и модель, представленные в этой статье, были..

Вопросы по теме 'information-retrieval'

Какие есть альтернативы битовому массиву?
У меня есть приложение для поиска информации, которое создает битовые массивы порядка десятков миллионов бит. Количество «установленных» битов в массиве широко варьируется, от всех чистых до всех установленных. В настоящее время я использую простой...
3253 просмотров

Что такое метрика средней точности 11pt?
у меня два вопроса 1- что такое «метрика средней точности 11pt»? 2- и как это использовать в поиске информации? Спасибо
8634 просмотров

Как исправить ввод пользователя (Вы имели в виду гугл?)
У меня есть следующее требование: - У меня много (скажем, 1 миллион) значений (имен). Пользователь вводит строку поиска. Я не ожидаю, что пользователь правильно напишет имена. Итак, я хочу сделать что-то вроде Google «Вы имели в виду». Это...
2336 просмотров

Хранение инвертированного индекса
Я работаю над проектом по поиску информации. Я сделал полный инвертированный индекс с помощью Hadoop / Python. Hadoop выводит индекс в виде пар (слово, список документов), которые записываются в файл. Для быстрого доступа я создал словарь...
3478 просмотров

Кластеризация по значениям сходства косинусов
Я извлек слова из набора URL-адресов и вычислил косинусное сходство между содержимым каждого URL-адреса. А также я нормализовал значения между 0-1 (используя Min-Max). Теперь мне нужно сгруппировать URL-адреса на основе значений косинусного сходства,...
2427 просмотров

Есть ли поисковик, который даст прямой ответ?
Я давно задавался этим вопросом, и я не понимаю, почему Google еще не попробовал это — или, может быть, они уже попробовали, а я просто не знаю об этом. Существует ли поисковая система, в которой вы можете ввести вопрос, который даст вам один...
6886 просмотров

Сходство Жаккара в Lucene
Мне нужно рассчитать сходство запроса и документа в Lucene, используя сходство Жаккара по n-граммам. Поскольку сходство Jaccard является очень распространенным показателем в IR, я ожидал найти для него реализацию Lucene, но не смог. Кто-нибудь...
2395 просмотров

Устранение термина запроса
В булевой модели поиска запрос состоит из терминов, которые объединяются вместе с помощью разных операторов. Конъюнкция — самый очевидный выбор на первый взгляд, но когда длина запроса увеличилась, случилось что-то плохое. Отзыв значительно...
75 просмотров
schedule 17.05.2022

Как рассчитать открытость документов с помощью Lucene.NET
Представьте, что у меня есть огромная база данных тем и сообщений (около 10.000.000 записей) с разных форумов, включая несколько подфорумов, которые служат моими lucene-документами. Теперь я пытаюсь рассчитать функцию под названием «Актуальность»...
459 просмотров

Получить информацию из URL-адреса, чтобы поделиться ею на моем веб-сайте
Я собираюсь разработать новую функцию на своем веб-сайте, которая позволит пользователю указать мне URL-адрес, после чего я буду использовать этот URL-адрес, чтобы получить название сайта, описание и изображения, чтобы хранить эту информацию на своем...
56 просмотров
schedule 02.03.2024

Создание крупномасштабных систем IR/AI (информационного поиска/искусственного интеллекта) с помощью sqlite3
Этот вопрос касается пригодности различных механизмов баз данных для исследований IR и AI. Два важных вопроса выделены ниже жирным шрифтом. Я загружаю 17-гигабайтный корпус открытого текста в sqlite3, используя python. Элементы строки заполняют...
333 просмотров

синонимы оффлайн Словарь для поискового приложения
Я пытаюсь создать интеллектуальное приложение для поисковой системы, которое получает синонимы слов в Вопросе и Запрашивает мою базу данных с каждым из сгенерированных синонимов. проблема в том, что я ищу способ получить все синонимы слов в...
814 просмотров

Как определить, произошло ли событие/действие из текста?
Мне было интересно, есть ли для этого техника НЛП/МО. Предположим, что задан набор предложений, Я смотрел фильм. Слышал, фильм отличный, надо посмотреть. Получил билеты на фильм. Я в кино. Если мне нужно присвоить каждому из этих...
2052 просмотров

Как выполнить фасетный поиск?
Я хотел бы знать, как выполнить многогранный поиск с помощью lucene.facet. Я объясню, что именно я хочу сделать: у меня есть таксономия html-файлов (похожая на ODP), и я хочу, чтобы при заданном запросе отображались результаты по категориям и...
392 просмотров

Создание быстрой семантической поисковой системы MySQL для частных статей с нуля
Я работаю над проектом, который будет включать полнотекстовый и семантический поиск статей на сайте (если это невозможно совместить, пользователь может выбрать любой вариант). Эти статьи доступны по подписке и могут быть найдены только после...
3375 просмотров

Как индексировать данные в эластичном поиске
Я новичок в области информационного поиска. Моя задача — проиндексировать большие необработанные данные в формате txt в elasticsearch. Я уже просканировал свои данные и сохранил их на диск. Теперь я установил elasticsearch(0.19.9, я использую...
1455 просмотров
schedule 21.11.2023

Структура данных для сопоставления имен в тексте
Я хочу найти имена, на которые есть ссылки в текстовых файлах. У автора может быть произвольное количество имен и титулов. Совпадение будет найдено только в том случае, если все имена совпадают (например, человек по имени «Джон Доу» не соответствует...
267 просмотров

PageRank и спам
Предположим, у нас есть граф с 4 связанными страницами/узлами. Мы также вычислили рейтинг страницы для этого графика, и теперь мы хотим загрузить новую страницу/узел, чтобы увеличить его рейтинг страницы. Интересно, если мы также загрузим еще N...
334 просмотров
schedule 24.05.2022

Применение семантической сети/онтологии в информационном поиске?
Каково использование Semantic Web в поиске информации. Я имею в виду семантический веб, структурированный, как DBPedia, Freebase.
260 просмотров

Реализация прямого индекса в Google
В свободное время я пытаюсь разработать поисковую систему по образцу Google. Я использую оригинальную исследовательскую работу Google, указанную здесь: http://infolab.stanford.edu/~backrub/google.html Однако у меня есть несколько проблем...
497 просмотров