Публикации по теме 'lemmatization'


Предварительная обработка текстовых данных для машинного обучения: часть 1
Введение В предыдущей статье мы обсудили различные методы выполнения заполнения семантического слота , очень распространенной проблемы в области обработки естественного языка. Мы обсудили различные методы решения таких проблем, такие как подходы на основе правил и подходы к машинному обучению (включая глубокое обучение), а также обсудили плюсы и минусы каждого метода. Поскольку естественный язык представляет собой сильно неструктурированную форму данных, его необходимо много раз..

Вопросы по теме 'lemmatization'

Интеграция лемматизации в Sphinx
У меня есть база данных MySQL с несколькими сотнями тысяч текстовых документов, и мне нужно выполнить поиск по этим текстовым файлам. Я решил использовать Sphinx для реализации функции поиска. Однако мне нужно, чтобы пользователи могли найти все...
627 просмотров
schedule 28.06.2022

Лемматизатор Wordnet для R
Я хотел бы использовать лемматизатор wordnet для лемматизации слов в a > a<-c("He saw a see-saw on a sea shore", "she is feeling cold") > a [1] "He saw a see-saw on a sea shore" "she is feeling cold" Я преобразовываю a в...
3580 просмотров
schedule 20.03.2022

Как выполнить лемматизацию в R?
Этот вопрос является возможным дубликатом лемматизатора в R или python (am, are, is -> be?) , но я добавляю его снова, так как предыдущий был закрыт, говоря, что он был слишком широким, и единственный ответ, который он имеет, неэффективен...
28770 просмотров
schedule 30.03.2022

WordNetLemmatizer не возвращает правильную лемму, если POS не является явным - Python NLTK
Я лемматизирую стенограмму набора данных Теда. Я заметил кое-что странное: не все слова лемматизируются. Сказать, selected -> select Какой правильный. Однако involved !-> involve и horsing !-> horse , если я явно не ввел...
9488 просмотров
schedule 06.06.2024

Есть ли простой способ распечатать типизированный объект зависимости Стэнфорда в форме леммы?
Tree tree = sentence.get(TreeCoreAnnotations.TreeAnnotation.class); TreebankLanguagePack tlp = new PennTreebankLanguagePack(); GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory(); GrammaticalStructure gs =...
207 просмотров

Пакет Treetag koRpus R
Во-первых, извините за мой английский, я очень плохо говорю по-английски. Итак, у меня есть вопрос о функции treetag из пакета koRpus на R. Я хочу лемматизировать текст, и меня устраивает Treetagger. Я использовал функцию treetag:...
703 просмотров
schedule 29.01.2024

Как я могу лемматизировать строки в кадрах данных pandas?
У меня есть кадр данных Python Pandas, где мне нужно лемматизировать слова в двух столбцах. Я использую для этого использование spacy. import spacy nlp = spacy.load("en") Я пытаюсь использовать лемматизацию на основе этого примера (который...
2089 просмотров
schedule 21.04.2024

Как улучшить леммы от Spacy
Хотя «PM» может означать «pm (время)», это также может означать «премьер-министр». Я хочу запечатлеть последнее. Я хочу, чтобы лемма «ПМ» вернула «Премьер-министра». Как я могу это сделать с помощью spacy ? Пример, возвращающий неожиданную...
1591 просмотров
schedule 20.06.2023

nltk: Как лемматизировать окружающие слова в контексте?
Следующий код выводит leaf : from nltk.stem.wordnet import WordNetLemmatizer lem = WordNetLemmatizer() print(lem.lemmatize('leaves')) Это может быть или не быть точным в зависимости от окружающего контекста, например. Mary leaves the room...
1839 просмотров

Странный результат лемматизации в пакете r ,texttem
Я хотел бы получить лемму «нырнуть» от всех возможных форм слова с помощью пакета texttem в R. Но когда я использовал пакетtexttem в r, основная форма стала очень странным результатом. library(textstem) words<-c("dived", "diving", "dive")...
709 просмотров
schedule 25.02.2022

Spacy - предварительная обработка и лемматизация занимают много времени
Я работаю над проблемой классификации текста, и я попробовал WordNetLemmmatizer, а затем TF-IDF, CountVectorizer. Теперь я пытаюсь очистить текст с помощью Spacy перед подачей в TF-IDF. Входной файл содержит около 20 000 записей, каждая из которых...
2792 просмотров
schedule 07.03.2022

OpenNLP: невозможно найти файл модели для Lemmatizer
Сводка : не удалось найти файл модели, используемый для Lemmatizer (english-lemmatizer.bin) Подробности : Модели инструментов OpenNLP представляют собой исчерпывающий репозиторий для различные модели, используемые различными компонентами...
983 просмотров
schedule 04.05.2022

Как лемматизировать файл .txt, а не предложение с помощью pywsd.utils?
Я новичок в Python, который я пытаюсь изучить для базового анализа текста, моделирования тем и т. д. Я написал следующий код для очистки моего текстового файла. Я предпочитаю функцию pywsed.utils lemmatize.sentence() функции WordNetLemmatizer()...
378 просмотров

Удалить пробел после лемматизации
Я просто лемматизировал вектор символов. Проблема в том, что лемматизация создает пробел между словами, объединенными тире (например, краткосрочный становится краткосрочный ). Мой вектор символов полон этих слов, поэтому я хотел бы найти способ...
57 просмотров
schedule 27.10.2023

Как реализовать пространственный лемматизатор с аргументом univ_pos
tokens = [The, wage, productivity, nexus, the, process, of, development,....] Я пытаюсь преобразовать список токенов в их лемматизированную форму, используя Lemmatizer SpaCy. Вот документация, которую я использую. Мой код: from...
576 просмотров
schedule 25.12.2023

просторная агрессивная лемматизация и удаление неожиданных слов
Я пытаюсь очистить некоторые текстовые данные. Сначала я удалил стоп-слова, затем я попытался лемматизировать текст. Но слова, такие как существительные, удаляются Образцы данных...
480 просмотров
schedule 30.08.2023

Spacy token.lemma_ не идентифицирует существительные и местоимения
Я слежу за учебником по лемматизации - › https://www.machinelearningplus.com/nlp/lemmatization-examples-python/ Как было сказано в разделе пространственной лемматизации, я загрузил модель 'en-core-web-sm' , проанализировал и извлек леммы каждого...
310 просмотров
schedule 11.03.2022