Публикации по теме 'lemmatization'
Предварительная обработка текстовых данных для машинного обучения: часть 1
Введение
В предыдущей статье мы обсудили различные методы выполнения заполнения семантического слота , очень распространенной проблемы в области обработки естественного языка. Мы обсудили различные методы решения таких проблем, такие как подходы на основе правил и подходы к машинному обучению (включая глубокое обучение), а также обсудили плюсы и минусы каждого метода. Поскольку естественный язык представляет собой сильно неструктурированную форму данных, его необходимо много раз..
Вопросы по теме 'lemmatization'
Интеграция лемматизации в Sphinx
У меня есть база данных MySQL с несколькими сотнями тысяч текстовых документов, и мне нужно выполнить поиск по этим текстовым файлам. Я решил использовать Sphinx для реализации функции поиска. Однако мне нужно, чтобы пользователи могли найти все...
627 просмотров
schedule
28.06.2022
Лемматизатор Wordnet для R
Я хотел бы использовать лемматизатор wordnet для лемматизации слов в a
> a<-c("He saw a see-saw on a sea shore", "she is feeling cold")
> a
[1] "He saw a see-saw on a sea shore" "she is feeling cold"
Я преобразовываю a в...
3580 просмотров
schedule
20.03.2022
Как выполнить лемматизацию в R?
Этот вопрос является возможным дубликатом лемматизатора в R или python (am, are, is -> be?) , но я добавляю его снова, так как предыдущий был закрыт, говоря, что он был слишком широким, и единственный ответ, который он имеет, неэффективен...
28770 просмотров
schedule
30.03.2022
WordNetLemmatizer не возвращает правильную лемму, если POS не является явным - Python NLTK
Я лемматизирую стенограмму набора данных Теда. Я заметил кое-что странное: не все слова лемматизируются. Сказать,
selected -> select
Какой правильный.
Однако involved !-> involve и horsing !-> horse , если я явно не ввел...
9488 просмотров
schedule
06.06.2024
Есть ли простой способ распечатать типизированный объект зависимости Стэнфорда в форме леммы?
Tree tree = sentence.get(TreeCoreAnnotations.TreeAnnotation.class);
TreebankLanguagePack tlp = new PennTreebankLanguagePack();
GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();
GrammaticalStructure gs =...
207 просмотров
schedule
21.02.2023
Пакет Treetag koRpus R
Во-первых, извините за мой английский, я очень плохо говорю по-английски.
Итак, у меня есть вопрос о функции treetag из пакета koRpus на R. Я хочу лемматизировать текст, и меня устраивает Treetagger. Я использовал функцию treetag:...
703 просмотров
schedule
29.01.2024
Как я могу лемматизировать строки в кадрах данных pandas?
У меня есть кадр данных Python Pandas, где мне нужно лемматизировать слова в двух столбцах. Я использую для этого использование spacy.
import spacy
nlp = spacy.load("en")
Я пытаюсь использовать лемматизацию на основе этого примера (который...
2089 просмотров
schedule
21.04.2024
Как улучшить леммы от Spacy
Хотя «PM» может означать «pm (время)», это также может означать «премьер-министр».
Я хочу запечатлеть последнее. Я хочу, чтобы лемма «ПМ» вернула «Премьер-министра». Как я могу это сделать с помощью spacy ?
Пример, возвращающий неожиданную...
1591 просмотров
schedule
20.06.2023
nltk: Как лемматизировать окружающие слова в контексте?
Следующий код выводит leaf :
from nltk.stem.wordnet import WordNetLemmatizer
lem = WordNetLemmatizer()
print(lem.lemmatize('leaves'))
Это может быть или не быть точным в зависимости от окружающего контекста, например. Mary leaves the room...
1839 просмотров
schedule
26.02.2024
Странный результат лемматизации в пакете r ,texttem
Я хотел бы получить лемму «нырнуть» от всех возможных форм слова с помощью пакета texttem в R.
Но когда я использовал пакетtexttem в r, основная форма стала очень странным результатом.
library(textstem)
words<-c("dived", "diving", "dive")...
709 просмотров
schedule
25.02.2022
Spacy - предварительная обработка и лемматизация занимают много времени
Я работаю над проблемой классификации текста, и я попробовал WordNetLemmmatizer, а затем TF-IDF, CountVectorizer. Теперь я пытаюсь очистить текст с помощью Spacy перед подачей в TF-IDF. Входной файл содержит около 20 000 записей, каждая из которых...
2792 просмотров
schedule
07.03.2022
OpenNLP: невозможно найти файл модели для Lemmatizer
Сводка : не удалось найти файл модели, используемый для Lemmatizer (english-lemmatizer.bin)
Подробности : Модели инструментов OpenNLP представляют собой исчерпывающий репозиторий для различные модели, используемые различными компонентами...
983 просмотров
schedule
04.05.2022
Как лемматизировать файл .txt, а не предложение с помощью pywsd.utils?
Я новичок в Python, который я пытаюсь изучить для базового анализа текста, моделирования тем и т. д.
Я написал следующий код для очистки моего текстового файла. Я предпочитаю функцию pywsed.utils lemmatize.sentence() функции WordNetLemmatizer()...
378 просмотров
schedule
19.07.2023
Удалить пробел после лемматизации
Я просто лемматизировал вектор символов. Проблема в том, что лемматизация создает пробел между словами, объединенными тире (например, краткосрочный становится краткосрочный ). Мой вектор символов полон этих слов, поэтому я хотел бы найти способ...
57 просмотров
schedule
27.10.2023
Как реализовать пространственный лемматизатор с аргументом univ_pos
tokens = [The, wage, productivity, nexus, the, process, of, development,....]
Я пытаюсь преобразовать список токенов в их лемматизированную форму, используя Lemmatizer SpaCy. Вот документация, которую я использую.
Мой код:
from...
576 просмотров
schedule
25.12.2023
просторная агрессивная лемматизация и удаление неожиданных слов
Я пытаюсь очистить некоторые текстовые данные. Сначала я удалил стоп-слова, затем я попытался лемматизировать текст. Но слова, такие как существительные, удаляются
Образцы данных...
480 просмотров
schedule
30.08.2023
Spacy token.lemma_ не идентифицирует существительные и местоимения
Я слежу за учебником по лемматизации - › https://www.machinelearningplus.com/nlp/lemmatization-examples-python/
Как было сказано в разделе пространственной лемматизации, я загрузил модель 'en-core-web-sm' , проанализировал и извлек леммы каждого...
310 просмотров
schedule
11.03.2022