Публикации по теме 'spacy'
Обработка естественного языка для начинающих (детальный подход с несколькими библиотеками)
Введение
Обработка естественного языка — это область искусственного интеллекта, которая направлена на то, чтобы дать компьютерам возможность понимать язык так же, как люди. Он поддерживает множество реальных приложений, таких как обнаружение спама в электронной почте, машинный перевод и суммирование текста.
В Python есть много библиотек, очень полезных для обработки естественного языка, каждая из которых хороша по-своему. В этой статье я сделаю обзор трех библиотек: NLTK, spaCy и..
Как начать работу с НЛП — 6 уникальных методов выполнения токенизации
Обзор
Хотите начать работу с обработкой естественного языка (NLP)? Вот идеальный первый шаг Узнайте, как выполнять токенизацию — ключевой аспект подготовки данных для построения моделей НЛП. Мы представляем 6 различных способов токенизации текстовых данных.
Введение
Вы очарованы количеством текстовых данных, доступных в Интернете? Вы ищете способы работы с этими текстовыми данными, но не знаете, с чего начать? В конце концов, машины распознают числа, а не буквы нашего языка. И..
Вопросы по теме 'spacy'
Проблема с файлом Pickle при обработке естественного языка Spacy
Для пакета Spacy файлы моделей для deps, ner и pos выдают недопустимый ключ загрузки или ошибку EOF, когда я пытаюсь загрузить их с помощью pickle.
Я выполнил код в системах Windows и Linux. Я не думаю, что это проблема передачи двоичного режима....
904 просмотров
schedule
16.05.2024
TypeError: объект «модуль» не вызывается в Spacy Python
Я хочу напечатать Parse Tree , используя Spacy . Но код ниже дает ошибку
en_nlp = spacy.language('English') TypeError: объект 'module' не вызывается
Ошибка в этой en_nlp = spacy.loads('en') строке. Пробовал сбагрить как en_nlp =...
1619 просмотров
schedule
30.04.2023
Распознавание многословных выражений в Spacy
У меня есть текст вместе с записями указателя, некоторые из которых указывают на важные многословные выражения (MWE), встречающиеся в тексте (например, «губчатая кость» для текста по биологии). Я хотел бы использовать записи для создания...
1401 просмотров
schedule
26.03.2022
инвертированный индекс в python с пробелом в качестве токенизации и постоянной связью с исходными документами
Я хочу построить инвертированный индекс в python, используя отличную библиотеку https://spacy.io/ для токенизации слов. .
Они представляют собой отличный пример того, как одновременно выполнять предварительную обработку и в итоге получить...
584 просмотров
schedule
18.05.2024
как объединить объекты одного типа, если spaCy показывает несколько объектов из-за ',' '\ n' или 'любой другой причины'
Мне нужно извлечь название организации из писем компании. При извлечении сущностей из-за ',' или '\ n' или 'иногда по другой причине' имя организации разделяется.
spacy_data = nlp(text)
spacy_data.ents if ent.label_ in =='ORG'
expected output:...
716 просмотров
schedule
05.02.2022
Ошибка пространственной ссылки
При беге:
import spacy
nlp = spacy.load('en')
напечатано следующее:
Предупреждение: не найдена модель для 'en'. Загружается только токенизатор 'en'.
/site-packages/spacy/data пуст, за исключением файла инициализации. все пути к...
23438 просмотров
schedule
10.08.2022
Как исправить ошибку UnicodeDecodeError: кодек ascii не может декодировать байт?
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
Это ошибка, которую я получаю при попытке очистить список имен, которые я извлекаю с помощью spaCy с html-страницы.
Мой код:
import urllib...
6974 просмотров
schedule
29.06.2023
что делать с требованием без пипса в requirements.txt
Поэтому недавно я перенес свое приложение НЛП на новую машину. Добавлена та же среда Python с pyenv, что и на старой машине, и установлены все зависимости с помощью pip. Затем была своего рода «зависимость», которая не устанавливается pip,...
1029 просмотров
schedule
29.12.2022
Spacy IS_ALPHA matcher-pattern не работает?
Относительно следующей настройки:
import spacy
from spacy.matcher import Matcher
from spacy.attrs import POS, LOWER, IS_ALPHA
nlp_en = spacy.load('en')
text = nlp_en('A nice looking great blue house you have!')
matcher = Matcher(text.vocab)
OP...
294 просмотров
schedule
26.09.2023
Spacy говорит, что парсер зависимостей не загружен
Я установил spaCy v2.0.2 на Ubuntu 16.04. Затем я использовал
sudo python3 -m spacy download en
скачать английскую модель.
После этого я использую Spacy следующим образом:
from spacy.lang.en import English
p = English(parser=True,...
1518 просмотров
schedule
15.08.2022
Как я могу лемматизировать строки в кадрах данных pandas?
У меня есть кадр данных Python Pandas, где мне нужно лемматизировать слова в двух столбцах. Я использую для этого использование spacy.
import spacy
nlp = spacy.load("en")
Я пытаюсь использовать лемматизацию на основе этого примера (который...
2089 просмотров
schedule
21.04.2024
Как улучшить леммы от Spacy
Хотя «PM» может означать «pm (время)», это также может означать «премьер-министр».
Я хочу запечатлеть последнее. Я хочу, чтобы лемма «ПМ» вернула «Премьер-министра». Как я могу это сделать с помощью spacy ?
Пример, возвращающий неожиданную...
1591 просмотров
schedule
20.06.2023
Токенизация предложений в spacy - это плохо (?)
Почему разделитель / токенизатор предложений от Spacy плохо работает? nltk вроде работает нормально. Вот мой небольшой опыт:
import spacy
nlp = spacy.load('fr')
import nltk
text_fr = u"Je suis parti a la boulangerie. J'ai achete trois...
1440 просмотров
schedule
22.02.2023
Преобразовать прилагательное в наречие
Кто-нибудь знает, как преобразовать английское прилагательное в соответствующее наречие ? Python был бы идеальным, но на самом деле любой программный подход был бы отличным.
Я пробовал pattern.en , nltk wordnet и spacy Безрезультатно....
739 просмотров
schedule
15.07.2022
Сходство spaCy — установка sense2vec или word2vec по умолчанию
Я наткнулся на один из сообщений в блоге spaCy, который представляет идею sense2vec, а также есть онлайн интерфейс для игры с его наиболее похожей функцией , а также онлайн-инструмент для работы с функцией подобия, предоставленной spaCy.
Я...
1404 просмотров
schedule
04.06.2024
Переопределение токенизатора векторизатора scikitlearn с помощью spacy
Я хочу реализовать лемматизацию с пакетом Spacy . Вот мой код:
regexp = re.compile( '(?u)\\b\\w\\w+\\b' )
en_nlp = spacy.load('en')
old_tokenizer = en_nlp.tokenizer
en_nlp.tokenizer = lambda string:...
1108 просмотров
schedule
06.09.2022
spaCy 2.0: сохранение и загрузка пользовательской модели NER
Я обучил пользовательскую модель NER в spaCy с пользовательским токенизатором. Я хочу сохранить модель NER без токенизатора. Я попробовал следующий код, найденный на форуме поддержки spaCy:
import spacy
nlp = spacy.load("en")
nlp.tokenizer =...
7453 просмотров
schedule
04.04.2024
Как преобразовать данные простого стиля обучения в формат JSON командной строки spaCy?
У меня есть данные обучения для нового типа NER в «Обучение дополнительного типа сущности» в документации по spaCy.
TRAIN_DATA = [
("Horses are too tall and they pretend to care about your feelings", {
'entities': [(0, 6, 'ANIMAL')]...
1582 просмотров
schedule
29.03.2022
Spacy tokenizer добавляет исключение для n't
Я хочу преобразовать n't в not , используя этот код:
doc = nlp(u"this. isn't ad-versere")
special_case = [{ORTH: u"not"}]
nlp.tokenizer.add_special_case(u"n't",specia_case)
print [text.orth_ for text in doc]
Но я получаю результат как:...
1032 просмотров
schedule
18.05.2022
Поезд Spacy NER по индийским именам
Я пытаюсь настроить NER Спейси для идентификации индийских имен. Следуя этому руководству https://spacy.io/usage/training , я использую этот набор данных
Согласно коду, я должен предоставить данные для обучения в следующем формате:...
4400 просмотров
schedule
03.03.2024