Вопросы по теме 'n-gram'
Функция N-грамм в vb.net - ›создавать граммы для слов вместо символов
Недавно я узнал о n-граммах и классной возможности сравнивать с ними частоту фраз в теле текста. Теперь я пытаюсь создать приложение vb.net, которое просто получает тело текста и возвращает список наиболее часто используемых фраз (где n> = 2).
Я...
3708 просмотров
schedule
12.04.2022
Функция разделения N-грамм для сравнения сходства строк
В рамках упражнения, чтобы лучше понять F#, который я сейчас изучаю, я написал функцию для разделения заданной строки на n-граммы. 1) Я хотел бы получить отзыв о моей функции: можно ли ее написать проще или эффективнее?
2) Моя общая цель -...
3400 просмотров
schedule
07.02.2022
Solr NGramTokenizerFactory и PatternReplaceCharFilterFactory — результаты анализатора не соответствуют результатам запроса
В настоящее время я использую то, что, как я (ошибочно) считал довольно простой реализацией Solr NGramTokenizerFactory , но я получаю странные результаты, которые несовместимы между анализатором администрирования и фактическими результатами запроса,...
2197 просмотров
schedule
09.12.2023
более быстрый способ обнаружить н-граммы в строке?
Я нашел это решение на SO для обнаружения n-граммов в строке: (здесь: N- образование грамма из предложения )
import java.util.*;
public class Test {
public static List<String> ngrams(int n, String str) {
List<String>...
7962 просмотров
schedule
21.11.2022
как возвращать/искать документы с помощью биграмм nltk?
Что я хочу сделать, так это просмотреть мою базу данных искать каждый документ на наличие определенных перечисленных терминов — некоторые из которых я хотел бы, если необходимо, быть биграммой и триграммой. Если условия найдутся, я представлю...
567 просмотров
schedule
24.12.2022
elasticsearch ngrams: почему сопоставляется более короткий токен, а не более длинный?
У меня есть индекс со следующим сопоставлением и анализатором:
settings: {
analysis: {
char_filter: {
custom_cleaner: {
# remove - and * (we don't want them here)
type: "mapping",
mappings:...
1037 просмотров
schedule
20.07.2023
Поиск продуктов SOLR eDISMAX
Я новичок в SOLR и применяю его для поиска в нашем каталоге продуктов. Я создаю нграммы и пограничные нграммы в полях названия бренда, отображаемого имени и категории.
Я использую edismax и определил qf как displayname_nge displayname_ng...
460 просмотров
schedule
01.02.2023
Elasticsearch — Nest — отсутствует первый символ
Я использую клиент Nest против Elasticsearch. Я использую анализатор индекса n-грамм. Я замечаю какое-то странное поведение - когда я ищу слова с самого начала, я не получаю никаких результатов. Однако, если я ищу со второго символа, он работает...
475 просмотров
schedule
21.08.2022
Могу ли я разделить большой массив памяти между процессами PHP?
Я использую PHP для обработки большого количества данных (понимая, что я, вероятно, захожу на территории, где я должен использовать другие языки и/или методы).
Я делаю извлечение сущностей с помощью процесса PHP, который загружает массив,...
177 просмотров
schedule
23.08.2023
elasticsearch: как ранжировать первые появляющиеся слова или фразы выше
Например, если у меня есть следующие документы:
1. Casa Road
2. Jalan Casa
Скажем, мой термин запроса "cas"... при поиске оба документа имеют одинаковые оценки. Я хочу, чтобы тот, у которого casa , появлялся раньше (т.е. документ 1 здесь)...
1014 просмотров
schedule
29.06.2022
Пакет NLTK для оценки недоумения (unigram)
Я пытаюсь рассчитать недоумение для данных, которые у меня есть. Код, который я использую:
import sys
sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk")
from nltk.corpus import brown
from nltk.model import NgramModel
from...
13804 просмотров
schedule
20.09.2022
Как извлечь глаголы и все соответствующие им наречия из текста?
Используя ngram в Python, моя цель — найти глаголы и соответствующие им наречия из входного текста. Что я сделал:
Введите текст: ""Он странно говорит. Лошадь может быстро бегать. Там большое дерево. Солнце красивое. Место хорошо оформлено....
3802 просмотров
schedule
25.07.2022
Языковая модель nltk TypeError: ngarms () получила неожиданный аргумент ключевого слова «pad_symbol»
Я выполняю следующий код:
from nltk.corpus import brown
from nltk.model import Ngram
lm = NgramModel(2, brown.words(categories='news'), estimator=None)
Но я получил ошибку:
Я действительно не знаю, почему у меня есть эта проблема;...
543 просмотров
schedule
15.04.2023
ElasticSearch: NGram с амперсандом, Plus, Power
Моя конфигурация поиска пока работает хорошо, но я не могу понять, как заставить NGram Tokenizer искать такие символы, как &, +, ² и т. д.
Когда я использую «стандартный» токенизатор, он ищет символы и дает правильные результаты. Поэтому я думаю,...
214 просмотров
schedule
04.08.2022
языковая модель с SRILM
Я пытаюсь построить языковую модель, используя SRILM. У меня есть список фраз, и я создаю модель, используя:
./ngram-count -text corpus.txt -order 3 -ukndiscount -interpolate -unk -lm corpus.lm
После этого я попытался сделать пример, чтобы...
1461 просмотров
schedule
05.04.2022
обучить языковую модель с помощью Google Ngrams
Я хочу найти условную вероятность слова с учетом его предыдущего набора слов. Я планирую использовать Google N-grams для того же. Однако, будучи таким огромным ресурсом, я не думаю, что это вычислительно возможно сделать на моем ПК. (Чтобы...
908 просмотров
schedule
02.11.2022
Вычислить вероятность предложения с нехваткой словарного запаса
Я обучил языковые модели Ngram (униграмма и биграмма) на корпусе английского языка, и я пытаюсь вычислить вероятности предложений из непересекающегося корпуса.
Например, учебный корпус состоит из 3 предложений:
1: я, я, Сэм
2: Сэм, я...
1723 просмотров
schedule
24.09.2023
Выделите часть слова с помощью анализаторов ngram и пробелов
У меня есть индекс elasticsearch со следующими данными:
«Команда А» (как пример)
Мои настройки индекса:
"index": {
"number_of_shards": "1",
"provided_name": "tyh.tochniyot",
"creation_date": "1481039136127",
"analysis": {...
492 просмотров
schedule
30.12.2022
Есть ли более эффективный способ найти наиболее распространенные n-граммы?
Я пытаюсь найти k самых распространенных n-грамм из большого корпуса. Я видел много мест, предлагающих наивный подход — простое сканирование всего корпуса и ведение словаря с подсчетом всех n-грамм. Есть лучший способ сделать это?
9338 просмотров
schedule
26.10.2023
Количество кортежей Python в списке
Есть ли способ подсчитать, сколько раз каждый кортеж встречается в этом списке токенов?
Я пробовал метод count , но он не работает.
Это список:
['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay']
Это кортежи на...
3048 просмотров
schedule
06.04.2024