Вопросы по теме 'n-gram'

Функция N-грамм в vb.net - ›создавать граммы для слов вместо символов
Недавно я узнал о n-граммах и классной возможности сравнивать с ними частоту фраз в теле текста. Теперь я пытаюсь создать приложение vb.net, которое просто получает тело текста и возвращает список наиболее часто используемых фраз (где n> = 2). Я...
3708 просмотров
schedule 12.04.2022

Функция разделения N-грамм для сравнения сходства строк
В рамках упражнения, чтобы лучше понять F#, который я сейчас изучаю, я написал функцию для разделения заданной строки на n-граммы. 1) Я хотел бы получить отзыв о моей функции: можно ли ее написать проще или эффективнее? 2) Моя общая цель -...
3400 просмотров
schedule 07.02.2022

Solr NGramTokenizerFactory и PatternReplaceCharFilterFactory — результаты анализатора не соответствуют результатам запроса
В настоящее время я использую то, что, как я (ошибочно) считал довольно простой реализацией Solr NGramTokenizerFactory , но я получаю странные результаты, которые несовместимы между анализатором администрирования и фактическими результатами запроса,...
2197 просмотров
schedule 09.12.2023

более быстрый способ обнаружить н-граммы в строке?
Я нашел это решение на SO для обнаружения n-граммов в строке: (здесь: N- образование грамма из предложения ) import java.util.*; public class Test { public static List<String> ngrams(int n, String str) { List<String>...
7962 просмотров
schedule 21.11.2022

как возвращать/искать документы с помощью биграмм nltk?
Что я хочу сделать, так это просмотреть мою базу данных искать каждый документ на наличие определенных перечисленных терминов — некоторые из которых я хотел бы, если необходимо, быть биграммой и триграммой. Если условия найдутся, я представлю...
567 просмотров
schedule 24.12.2022

elasticsearch ngrams: почему сопоставляется более короткий токен, а не более длинный?
У меня есть индекс со следующим сопоставлением и анализатором: settings: { analysis: { char_filter: { custom_cleaner: { # remove - and * (we don't want them here) type: "mapping", mappings:...
1037 просмотров
schedule 20.07.2023

Поиск продуктов SOLR eDISMAX
Я новичок в SOLR и применяю его для поиска в нашем каталоге продуктов. Я создаю нграммы и пограничные нграммы в полях названия бренда, отображаемого имени и категории. Я использую edismax и определил qf как displayname_nge displayname_ng...
460 просмотров
schedule 01.02.2023

Elasticsearch — Nest — отсутствует первый символ
Я использую клиент Nest против Elasticsearch. Я использую анализатор индекса n-грамм. Я замечаю какое-то странное поведение - когда я ищу слова с самого начала, я не получаю никаких результатов. Однако, если я ищу со второго символа, он работает...
475 просмотров
schedule 21.08.2022

Могу ли я разделить большой массив памяти между процессами PHP?
Я использую PHP для обработки большого количества данных (понимая, что я, вероятно, захожу на территории, где я должен использовать другие языки и/или методы). Я делаю извлечение сущностей с помощью процесса PHP, который загружает массив,...
177 просмотров
schedule 23.08.2023

elasticsearch: как ранжировать первые появляющиеся слова или фразы выше
Например, если у меня есть следующие документы: 1. Casa Road 2. Jalan Casa Скажем, мой термин запроса "cas"... при поиске оба документа имеют одинаковые оценки. Я хочу, чтобы тот, у которого casa , появлялся раньше (т.е. документ 1 здесь)...
1014 просмотров
schedule 29.06.2022

Пакет NLTK для оценки недоумения (unigram)
Я пытаюсь рассчитать недоумение для данных, которые у меня есть. Код, который я использую: import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from nltk.model import NgramModel from...
13804 просмотров
schedule 20.09.2022

Как извлечь глаголы и все соответствующие им наречия из текста?
Используя ngram в Python, моя цель — найти глаголы и соответствующие им наречия из входного текста. Что я сделал: Введите текст: ""Он странно говорит. Лошадь может быстро бегать. Там большое дерево. Солнце красивое. Место хорошо оформлено....
3802 просмотров
schedule 25.07.2022

Языковая модель nltk TypeError: ngarms () получила неожиданный аргумент ключевого слова «pad_symbol»
Я выполняю следующий код: from nltk.corpus import brown from nltk.model import Ngram lm = NgramModel(2, brown.words(categories='news'), estimator=None) Но я получил ошибку: Я действительно не знаю, почему у меня есть эта проблема;...
543 просмотров
schedule 15.04.2023

ElasticSearch: NGram с амперсандом, Plus, Power
Моя конфигурация поиска пока работает хорошо, но я не могу понять, как заставить NGram Tokenizer искать такие символы, как &, +, ² и т. д. Когда я использую «стандартный» токенизатор, он ищет символы и дает правильные результаты. Поэтому я думаю,...
214 просмотров
schedule 04.08.2022

языковая модель с SRILM
Я пытаюсь построить языковую модель, используя SRILM. У меня есть список фраз, и я создаю модель, используя: ./ngram-count -text corpus.txt -order 3 -ukndiscount -interpolate -unk -lm corpus.lm После этого я попытался сделать пример, чтобы...
1461 просмотров
schedule 05.04.2022

обучить языковую модель с помощью Google Ngrams
Я хочу найти условную вероятность слова с учетом его предыдущего набора слов. Я планирую использовать Google N-grams для того же. Однако, будучи таким огромным ресурсом, я не думаю, что это вычислительно возможно сделать на моем ПК. (Чтобы...
908 просмотров
schedule 02.11.2022

Вычислить вероятность предложения с нехваткой словарного запаса
Я обучил языковые модели Ngram (униграмма и биграмма) на корпусе английского языка, и я пытаюсь вычислить вероятности предложений из непересекающегося корпуса. Например, учебный корпус состоит из 3 предложений: 1: я, я, Сэм 2: Сэм, я...
1723 просмотров
schedule 24.09.2023

Выделите часть слова с помощью анализаторов ngram и пробелов
У меня есть индекс elasticsearch со следующими данными: «Команда А» (как пример) Мои настройки индекса: "index": { "number_of_shards": "1", "provided_name": "tyh.tochniyot", "creation_date": "1481039136127", "analysis": {...
492 просмотров

Есть ли более эффективный способ найти наиболее распространенные n-граммы?
Я пытаюсь найти k самых распространенных n-грамм из большого корпуса. Я видел много мест, предлагающих наивный подход — простое сканирование всего корпуса и ведение словаря с подсчетом всех n-грамм. Есть лучший способ сделать это?
9338 просмотров
schedule 26.10.2023

Количество кортежей Python в списке
Есть ли способ подсчитать, сколько раз каждый кортеж встречается в этом списке токенов? Я пробовал метод count , но он не работает. Это список: ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] Это кортежи на...
3048 просмотров
schedule 06.04.2024