Статьи по теме n-gram

Вопросы по теме 'n-gram'

Функция N-грамм в vb.net - ›создавать граммы для слов вместо символов

Недавно я узнал о n-граммах и классной возможности сравнивать с ними частоту фраз в теле текста. Теперь я пытаюсь создать приложение vb.net, которое просто получает тело текста и возвращает список наиболее часто используемых фраз (где n> = 2). Я...

3708 просмотров

vb.net text-mining n-gram

12.04.2022

Функция разделения N-грамм для сравнения сходства строк

В рамках упражнения, чтобы лучше понять F#, который я сейчас изучаю, я написал функцию для разделения заданной строки на n-граммы. 1) Я хотел бы получить отзыв о моей функции: можно ли ее написать проще или эффективнее? 2) Моя общая цель -...

3400 просмотров

f# n-gram

07.02.2022

Solr NGramTokenizerFactory и PatternReplaceCharFilterFactory — результаты анализатора не соответствуют результатам запроса

В настоящее время я использую то, что, как я (ошибочно) считал довольно простой реализацией Solr NGramTokenizerFactory , но я получаю странные результаты, которые несовместимы между анализатором администрирования и фактическими результатами запроса,...

2197 просмотров

regex solr n-gram

09.12.2023

более быстрый способ обнаружить н-граммы в строке?

Я нашел это решение на SO для обнаружения n-граммов в строке: (здесь: N- образование грамма из предложения ) import java.util.*; public class Test { public static List<String> ngrams(int n, String str) { List<String>...

7962 просмотров

java nlp n-gram

21.11.2022

как возвращать/искать документы с помощью биграмм nltk?

Что я хочу сделать, так это просмотреть мою базу данных искать каждый документ на наличие определенных перечисленных терминов — некоторые из которых я хотел бы, если необходимо, быть биграммой и триграммой. Если условия найдутся, я представлю...

567 просмотров

python nlp nltk n-gram

24.12.2022

elasticsearch ngrams: почему сопоставляется более короткий токен, а не более длинный?

У меня есть индекс со следующим сопоставлением и анализатором: settings: { analysis: { char_filter: { custom_cleaner: { # remove - and * (we don't want them here) type: "mapping", mappings:...

1037 просмотров

search lucene n-gram elasticsearch

20.07.2023

Поиск продуктов SOLR eDISMAX

Я новичок в SOLR и применяю его для поиска в нашем каталоге продуктов. Я создаю нграммы и пограничные нграммы в полях названия бренда, отображаемого имени и категории. Я использую edismax и определил qf как displayname_nge displayname_ng...

460 просмотров

solr n-gram edismax

01.02.2023

Elasticsearch — Nest — отсутствует первый символ

Я использую клиент Nest против Elasticsearch. Я использую анализатор индекса n-грамм. Я замечаю какое-то странное поведение - когда я ищу слова с самого начала, я не получаю никаких результатов. Однако, если я ищу со второго символа, он работает...

475 просмотров

nest n-gram text-analysis

21.08.2022

Могу ли я разделить большой массив памяти между процессами PHP?

Я использую PHP для обработки большого количества данных (понимая, что я, вероятно, захожу на территории, где я должен использовать другие языки и/или методы). Я делаю извлечение сущностей с помощью процесса PHP, который загружает массив,...

177 просмотров

php nlp data-mining n-gram text-extraction

23.08.2023

elasticsearch: как ранжировать первые появляющиеся слова или фразы выше

Например, если у меня есть следующие документы: 1. Casa Road 2. Jalan Casa Скажем, мой термин запроса "cas"... при поиске оба документа имеют одинаковые оценки. Я хочу, чтобы тот, у которого casa , появлялся раньше (т.е. документ 1 здесь)...

1014 просмотров

n-gram

29.06.2022

Пакет NLTK для оценки недоумения (unigram)

Я пытаюсь рассчитать недоумение для данных, которые у меня есть. Код, который я использую: import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from nltk.model import NgramModel from...

13804 просмотров

python-2.7 nlp nltk language-model n-gram

20.09.2022

Как извлечь глаголы и все соответствующие им наречия из текста?

Используя ngram в Python, моя цель — найти глаголы и соответствующие им наречия из входного текста. Что я сделал: Введите текст: ""Он странно говорит. Лошадь может быстро бегать. Там большое дерево. Солнце красивое. Место хорошо оформлено....

3802 просмотров

python nltk n-gram

25.07.2022

Языковая модель nltk TypeError: ngarms () получила неожиданный аргумент ключевого слова «pad_symbol»

Я выполняю следующий код: from nltk.corpus import brown from nltk.model import Ngram lm = NgramModel(2, brown.words(categories='news'), estimator=None) Но я получил ошибку: Я действительно не знаю, почему у меня есть эта проблема;...

543 просмотров

python nlp nltk language-model n-gram

15.04.2023

ElasticSearch: NGram с амперсандом, Plus, Power

Моя конфигурация поиска пока работает хорошо, но я не могу понять, как заставить NGram Tokenizer искать такие символы, как &, +, ² и т. д. Когда я использую «стандартный» токенизатор, он ищет символы и дает правильные результаты. Поэтому я думаю,...

214 просмотров

javascript json n-gram elasticsearch

04.08.2022

языковая модель с SRILM

Я пытаюсь построить языковую модель, используя SRILM. У меня есть список фраз, и я создаю модель, используя: ./ngram-count -text corpus.txt -order 3 -ukndiscount -interpolate -unk -lm corpus.lm После этого я попытался сделать пример, чтобы...

1461 просмотров

nlp language-model n-gram srilm

05.04.2022

обучить языковую модель с помощью Google Ngrams

Я хочу найти условную вероятность слова с учетом его предыдущего набора слов. Я планирую использовать Google N-grams для того же. Однако, будучи таким огромным ресурсом, я не думаю, что это вычислительно возможно сделать на моем ПК. (Чтобы...

908 просмотров

python nlp nltk n-gram

02.11.2022

Вычислить вероятность предложения с нехваткой словарного запаса

Я обучил языковые модели Ngram (униграмма и биграмма) на корпусе английского языка, и я пытаюсь вычислить вероятности предложений из непересекающегося корпуса. Например, учебный корпус состоит из 3 предложений: 1: я, я, Сэм 2: Сэм, я...

1723 просмотров

python nlp probability n-gram

24.09.2023

Выделите часть слова с помощью анализаторов ngram и пробелов

У меня есть индекс elasticsearch со следующими данными: «Команда А» (как пример) Мои настройки индекса: "index": { "number_of_shards": "1", "provided_name": "tyh.tochniyot", "creation_date": "1481039136127", "analysis": {...

492 просмотров

n-gram elasticsearch elasticsearch-5 elasticsearch-net

30.12.2022

Есть ли более эффективный способ найти наиболее распространенные n-граммы?

Я пытаюсь найти k самых распространенных n-грамм из большого корпуса. Я видел много мест, предлагающих наивный подход — простое сканирование всего корпуса и ведение словаря с подсчетом всех n-грамм. Есть лучший способ сделать это?

9338 просмотров

nlp algorithm n-gram

26.10.2023

Количество кортежей Python в списке

Есть ли способ подсчитать, сколько раз каждый кортеж встречается в этом списке токенов? Я пробовал метод count , но он не работает. Это список: ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] Это кортежи на...

3048 просмотров

python counter n-gram

06.04.2024

Вопросы по теме 'n-gram'

Похожие вопросы