Публикации по теме 'spacy'


Обработка естественного языка для начинающих (детальный подход с несколькими библиотеками)
Введение Обработка естественного языка — это область искусственного интеллекта, которая направлена ​​на то, чтобы дать компьютерам возможность понимать язык так же, как люди. Он поддерживает множество реальных приложений, таких как обнаружение спама в электронной почте, машинный перевод и суммирование текста. В Python есть много библиотек, очень полезных для обработки естественного языка, каждая из которых хороша по-своему. В этой статье я сделаю обзор трех библиотек: NLTK, spaCy и..

Как начать работу с НЛП — 6 уникальных методов выполнения токенизации
Обзор Хотите начать работу с обработкой естественного языка (NLP)? Вот идеальный первый шаг Узнайте, как выполнять токенизацию — ключевой аспект подготовки данных для построения моделей НЛП. Мы представляем 6 различных способов токенизации текстовых данных. Введение Вы очарованы количеством текстовых данных, доступных в Интернете? Вы ищете способы работы с этими текстовыми данными, но не знаете, с чего начать? В конце концов, машины распознают числа, а не буквы нашего языка. И..

Вопросы по теме 'spacy'

Проблема с файлом Pickle при обработке естественного языка Spacy
Для пакета Spacy файлы моделей для deps, ner и pos выдают недопустимый ключ загрузки или ошибку EOF, когда я пытаюсь загрузить их с помощью pickle. Я выполнил код в системах Windows и Linux. Я не думаю, что это проблема передачи двоичного режима....
904 просмотров
schedule 16.05.2024

TypeError: объект «модуль» не вызывается в Spacy Python
Я хочу напечатать Parse Tree , используя Spacy . Но код ниже дает ошибку en_nlp = spacy.language('English') TypeError: объект 'module' не вызывается Ошибка в этой en_nlp = spacy.loads('en') строке. Пробовал сбагрить как en_nlp =...
1619 просмотров
schedule 30.04.2023

Распознавание многословных выражений в Spacy
У меня есть текст вместе с записями указателя, некоторые из которых указывают на важные многословные выражения (MWE), встречающиеся в тексте (например, «губчатая кость» для текста по биологии). Я хотел бы использовать записи для создания...
1401 просмотров
schedule 26.03.2022

инвертированный индекс в python с пробелом в качестве токенизации и постоянной связью с исходными документами
Я хочу построить инвертированный индекс в python, используя отличную библиотеку https://spacy.io/ для токенизации слов. . Они представляют собой отличный пример того, как одновременно выполнять предварительную обработку и в итоге получить...
584 просмотров
schedule 18.05.2024

как объединить объекты одного типа, если spaCy показывает несколько объектов из-за ',' '\ n' или 'любой другой причины'
Мне нужно извлечь название организации из писем компании. При извлечении сущностей из-за ',' или '\ n' или 'иногда по другой причине' имя организации разделяется. spacy_data = nlp(text) spacy_data.ents if ent.label_ in =='ORG' expected output:...
716 просмотров
schedule 05.02.2022

Ошибка пространственной ссылки
При беге: import spacy nlp = spacy.load('en') напечатано следующее: Предупреждение: не найдена модель для 'en'. Загружается только токенизатор 'en'. /site-packages/spacy/data пуст, за исключением файла инициализации. все пути к...
23438 просмотров
schedule 10.08.2022

Как исправить ошибку UnicodeDecodeError: кодек ascii не может декодировать байт?
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128) Это ошибка, которую я получаю при попытке очистить список имен, которые я извлекаю с помощью spaCy с html-страницы. Мой код: import urllib...
6974 просмотров
schedule 29.06.2023

что делать с требованием без пипса в requirements.txt
Поэтому недавно я перенес свое приложение НЛП на новую машину. Добавлена ​​​​та же среда Python с pyenv, что и на старой машине, и установлены все зависимости с помощью pip. Затем была своего рода «зависимость», которая не устанавливается pip,...
1029 просмотров
schedule 29.12.2022

Spacy IS_ALPHA matcher-pattern не работает?
Относительно следующей настройки: import spacy from spacy.matcher import Matcher from spacy.attrs import POS, LOWER, IS_ALPHA nlp_en = spacy.load('en') text = nlp_en('A nice looking great blue house you have!') matcher = Matcher(text.vocab) OP...
294 просмотров
schedule 26.09.2023

Spacy говорит, что парсер зависимостей не загружен
Я установил spaCy v2.0.2 на Ubuntu 16.04. Затем я использовал sudo python3 -m spacy download en скачать английскую модель. После этого я использую Spacy следующим образом: from spacy.lang.en import English p = English(parser=True,...
1518 просмотров
schedule 15.08.2022

Как я могу лемматизировать строки в кадрах данных pandas?
У меня есть кадр данных Python Pandas, где мне нужно лемматизировать слова в двух столбцах. Я использую для этого использование spacy. import spacy nlp = spacy.load("en") Я пытаюсь использовать лемматизацию на основе этого примера (который...
2089 просмотров
schedule 21.04.2024

Как улучшить леммы от Spacy
Хотя «PM» может означать «pm (время)», это также может означать «премьер-министр». Я хочу запечатлеть последнее. Я хочу, чтобы лемма «ПМ» вернула «Премьер-министра». Как я могу это сделать с помощью spacy ? Пример, возвращающий неожиданную...
1591 просмотров
schedule 20.06.2023

Токенизация предложений в spacy - это плохо (?)
Почему разделитель / токенизатор предложений от Spacy плохо работает? nltk вроде работает нормально. Вот мой небольшой опыт: import spacy nlp = spacy.load('fr') import nltk text_fr = u"Je suis parti a la boulangerie. J'ai achete trois...
1440 просмотров
schedule 22.02.2023

Преобразовать прилагательное в наречие
Кто-нибудь знает, как преобразовать английское прилагательное в соответствующее наречие ? Python был бы идеальным, но на самом деле любой программный подход был бы отличным. Я пробовал pattern.en , nltk wordnet и spacy Безрезультатно....
739 просмотров
schedule 15.07.2022

Сходство spaCy — установка sense2vec или word2vec по умолчанию
Я наткнулся на один из сообщений в блоге spaCy, который представляет идею sense2vec, а также есть онлайн интерфейс для игры с его наиболее похожей функцией , а также онлайн-инструмент для работы с функцией подобия, предоставленной spaCy. Я...
1404 просмотров
schedule 04.06.2024

Переопределение токенизатора векторизатора scikitlearn с помощью spacy
Я хочу реализовать лемматизацию с пакетом Spacy . Вот мой код: regexp = re.compile( '(?u)\\b\\w\\w+\\b' ) en_nlp = spacy.load('en') old_tokenizer = en_nlp.tokenizer en_nlp.tokenizer = lambda string:...
1108 просмотров

spaCy 2.0: сохранение и загрузка пользовательской модели NER
Я обучил пользовательскую модель NER в spaCy с пользовательским токенизатором. Я хочу сохранить модель NER без токенизатора. Я попробовал следующий код, найденный на форуме поддержки spaCy: import spacy nlp = spacy.load("en") nlp.tokenizer =...
7453 просмотров
schedule 04.04.2024

Как преобразовать данные простого стиля обучения в формат JSON командной строки spaCy?
У меня есть данные обучения для нового типа NER в «Обучение дополнительного типа сущности» в документации по spaCy. TRAIN_DATA = [ ("Horses are too tall and they pretend to care about your feelings", { 'entities': [(0, 6, 'ANIMAL')]...
1582 просмотров
schedule 29.03.2022

Spacy tokenizer добавляет исключение для n't
Я хочу преобразовать n't в not , используя этот код: doc = nlp(u"this. isn't ad-versere") special_case = [{ORTH: u"not"}] nlp.tokenizer.add_special_case(u"n't",specia_case) print [text.orth_ for text in doc] Но я получаю результат как:...
1032 просмотров
schedule 18.05.2022

Поезд Spacy NER по индийским именам
Я пытаюсь настроить NER Спейси для идентификации индийских имен. Следуя этому руководству https://spacy.io/usage/training , я использую этот набор данных Согласно коду, я должен предоставить данные для обучения в следующем формате:...
4400 просмотров
schedule 03.03.2024