Публикации по теме 'nltk'


Тот самый Гамбургер!!
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА (ЧАСТЬ II) Далее это часть серии статей о НЛП. (Отметьте Часть I и Часть III ) Как мы видели в предыдущей статье, НЛП предоставляет интересные возможности, которые сегодня меняют многие отрасли. Круто, что компьютер может так много, но как ему это удается? О да, вы поняли, мы собираемся погрузиться в некоторые серьезные вещи! Структура НЛП Мы собираемся шаг за шагом построить структуру обработки естественного языка, и к концу этого «учебника»..

Машинное обучение — Идентификатор пола с NLTK менее чем в 15 строках кода
Обработка естественного языка - это действительно интересный мир, чтобы узнать больше о том, как компьютеры понимают человеческие языки почти на всех разговорных языках в мире, существующих сегодня. Как мы все знаем, разговорный язык сильно отличается от изучения языка, поскольку изучение языка является стандартным процессом, которому нужно следовать, но все же трудно использовать обучение, чтобы говорить на новом языке в повседневной жизни. Существует множество исключений, вариаций..

Обработка естественного языка для начинающих (детальный подход с несколькими библиотеками)
Введение Обработка естественного языка — это область искусственного интеллекта, которая направлена ​​на то, чтобы дать компьютерам возможность понимать язык так же, как люди. Он поддерживает множество реальных приложений, таких как обнаружение спама в электронной почте, машинный перевод и суммирование текста. В Python есть много библиотек, очень полезных для обработки естественного языка, каждая из которых хороша по-своему. В этой статье я сделаю обзор трех библиотек: NLTK, spaCy и..

N-граммы и как их реализовать с помощью библиотеки Python NLTK
Понимание и создание N-грамм для обработки естественного языка (NLP) с библиотекой Python NLTK При обработке естественного языка (NLP) мы обучаем модели, чтобы компьютеры могли понимать текст и произносимые слова так же, как люди. Человеческий язык полон двусмысленностей, таких как омонимы, омофоны, сарказм, идиомы, метафоры и грамматика, что усложняет обучение моделей, которые точно определяют предполагаемое значение текста. НЛП включает в себя несколько задач, некоторые из которых..

Как начать работу с НЛП — 6 уникальных методов выполнения токенизации
Обзор Хотите начать работу с обработкой естественного языка (NLP)? Вот идеальный первый шаг Узнайте, как выполнять токенизацию — ключевой аспект подготовки данных для построения моделей НЛП. Мы представляем 6 различных способов токенизации текстовых данных. Введение Вы очарованы количеством текстовых данных, доступных в Интернете? Вы ищете способы работы с этими текстовыми данными, но не знаете, с чего начать? В конце концов, машины распознают числа, а не буквы нашего языка. И..

🌳📖💻#4:😶 — POS-удаление
Безусловно универсальные речи Посмотрите на вещь , проверьте код , читайте ниже, если вам интересно :) Люди много говорят. Политические речи, например, имеют тенденцию быть длинными (но, честно говоря, речи всех). Итак, сегодня, играя с лингвистической концепцией Language Universals , я написал некоторый код, который пропалывает речи, удаляя все, кроме существительных и глаголов. Последующее чтение речи позволяет сделать, может быть, задумчивый, может быть, показательный,..

Вопросы по теме 'nltk'

Что мне следует использовать для извлечения имен и мест - LingPipe или NLTK?
Я хочу извлечь имена и места из очень коротких текстовых примеров. "cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes...
3998 просмотров
schedule 17.07.2023

Что такое энтропия и получение информации?
Я читаю эту книгу ( NLTK ), и она сбивает с толку. Энтропия определяется как : Энтропия - это сумма вероятности каждой метки, умноженная на логарифмическую вероятность той же самой метки. Как я могу применить энтропию и...
213290 просмотров
schedule 04.01.2023

Как идентифицировать идеи и понятия в заданном тексте
В данный момент я работаю над проектом, где было бы очень полезно иметь возможность определять, когда определенная тема/идея упоминается в тексте. Например, если текст содержал: Может быть, если вы расскажете мне немного больше о том, кто...
1728 просмотров

Разбить/Разложить сложные и составные предложения в nltk
Есть ли способ разложить сложные предложения на простые предложения в nltk или других библиотеках обработки естественного языка? Например: Парк так прекрасен, когда садится солнце и дует прохладный ветерок ==> Солнце садится. дует прохладный...
5602 просмотров
schedule 26.01.2024

Устранение неоднозначности слов в NLTK Python
Я новичок в NLTK Python, и я ищу пример приложения, которое может устранять неоднозначность слов. У меня много алгоритмов в результатах поиска, но нет примера приложения. Я просто хочу передать предложение и узнать смысл каждого слова, обратившись к...
16666 просмотров
schedule 14.06.2023

Пользовательский токенизатор и тегировщик nltk
Вот мое требование. Я хочу токенизировать и пометить абзац таким образом, чтобы это позволило мне добиться следующих результатов. Следует указать дату и время в абзаце и пометить их как ДАТА и ВРЕМЯ. Должен определять известные фразы в абзаце...
3776 просмотров
schedule 28.08.2023

Эффективный контекстно-свободный анализатор грамматики, предпочтительно дружественный к Python
Мне нужно проанализировать небольшое подмножество английского языка для одного из моих проектов, описанное как контекстно-свободная грамматика с (1-уровневыми) структурами функций ( example ), и мне нужно сделать это эффективно. Прямо сейчас я...
26621 просмотров
schedule 02.07.2023

RegEx Tokenizer для разделения текста на слова, цифры и знаки препинания
Что я хочу сделать, так это разделить текст на его конечные элементы. Например: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+')...
8023 просмотров
schedule 14.08.2023

Извлечение «полезной» информации из предложений?
В настоящее время я пытаюсь понять предложения этой формы: The problem was more with the set-top box than the television. Restarting the set-top box solved the problem. Я совершенно новичок в обработке естественного языка и начал использовать...
2170 просмотров

Является ли тегирование POS детерминированным?
Я пытался понять, почему это происходит, но надеюсь, что кто-то может пролить свет на это. Я пытаюсь пометить следующий текст: ae0.475 X mod ae0.842 X mod ae0.842 X mod ae0.775 X mod используя следующий код:...
395 просмотров
schedule 11.05.2023

Можно ли использовать XMLCorpusReader NLTK в многофайловом корпусе?
Я пытаюсь использовать NLTK делать какую-то работу на Аннотированный корпус New York Times , который содержит файл XML для каждой статьи (в текстовом формате новостной индустрии NITF). Я могу без проблем разобрать отдельные документы так: from...
3337 просмотров
schedule 31.08.2022

Можно ли интегрировать Python с Java?
У меня есть основное приложение, написанное на Java, но я хочу использовать Python, потому что NLTK lib. Я хочу знать, возможно ли выполнить некоторую интеграцию с этими двумя языками. Это похоже на передачу параметров из Java в Python и получение...
451 просмотров
schedule 22.04.2022

проблемы с импортом тега Stanford pos в nltk
Наверное, это очень банальный вопрос. Я пытаюсь использовать тег stanford pos через nltk с учетом здесь Проблема в том, что моя библиотека nltk не содержит модуль stanford. Поэтому я скопировал то же самое в соответствующую папку и скомпилировал...
6918 просмотров
schedule 05.07.2022

Подходит ли наивный байесовский классификатор NLTK для коммерческих приложений?
Мне нужно обучить наивный байесовский классификатор на двух корпусах, состоящих из ок. 15 000 токенов каждый. Я использую базовый экстрактор функций набора слов с двоичной маркировкой, и мне интересно, достаточно ли мощен NLTK, чтобы обрабатывать...
1445 просмотров
schedule 03.04.2024

NLTK Разделение на фрагменты и обход дерева результатов
Я использую NLTK RegexpParser для извлечения групп существительных и групп глаголов из помеченных токенов. Как мне пройтись по полученному дереву, чтобы найти только фрагменты, которые являются NP или V группами? from nltk.chunk import...
6799 просмотров
schedule 09.01.2023

Как считать слова в корпусном документе
Я хочу знать, как лучше всего считать слова в документе. Если у меня есть собственная настройка корпуса «corp.txt», и я хочу знать, как часто в файле «corp.txt» встречаются слова «students, trust, ayre». Что я мог использовать? Будет ли это одним...
13761 просмотров
schedule 20.01.2023

pos_tag в NLTK неправильно помечает предложения
Я использовал этот код: # Step 1 : TOKENIZE from nltk.tokenize import * words = word_tokenize(text) # Step 2 : POS DISAMBIG from nltk.tag import * tags = pos_tag(words) чтобы пометить два предложения: John is very nice. Джон очень милый?...
2439 просмотров
schedule 29.09.2023

Сравнение строк с булевыми функциями истинности
Я искал и до сих пор не имею ни малейшего понятия, поэтому, пожалуйста, потерпите меня. У меня есть строки, каждая из которых соответствует определенной матрице признаков . Примеры: 'a' = [-vegetable, +fruit, +apple, -orange] 'o' =...
323 просмотров
schedule 27.03.2024

Выбор наиболее беглого текста из набора возможностей с помощью проверки грамматики (Python)
Некоторый фон Я изучаю литературу в Новом колледже Флориды и в настоящее время работаю над чересчур амбициозным творческим проектом. Проект ориентирован на алгоритмическое создание поэзии . Он написан на Питоне. Мои знания Python и обработки...
3098 просмотров
schedule 30.12.2022

Реализация классификатора Bag-of-Words Naive-Bayes в NLTK
В основном у меня есть тот же вопрос как этот парень .. пример в книге NLTK для наивного байесовского классификатора рассматривает только то, встречается ли слово в документе как характеристику. слов»). Один из ответов предполагает, что это...
25654 просмотров
schedule 17.02.2024