Введение в Python NLTK

Обработка естественного языка - один из самых востребованных навыков на рынке труда. Согласно прогнозам Fortune Business Insights, совокупный годовой темп роста (CAGR) на рынке НЛП к 2026 году составит 32,4%. Этот рост можно объяснить ростом количества приложений для обмена сообщениями с чат-ботами, быстрым накоплением текстовых данных и обслуживанием клиентов. В этом посте я рассмотрю основы пакета обработки текста Python NLTK. Примеры в этом посте вдохновлены документацией NLTK, которую можно найти здесь.

Давайте начнем!

Во-первых, давайте откроем консоль Ipython и импортируем набор инструментов для естественного языка:

In [1]: import nltk

Затем давайте импортируем все книги, доступные в наборе инструментов для естественного языка:

In [2]: from nltk.book import *

Это должно вернуть следующий список книг:

Мы можем использовать метод согласования, чтобы показать каждое вхождение слова по нашему выбору. Давайте посмотрим на примеры слова «акции» в The Wall Street Journal:

In [3]: text7.concordance("stock")

Как насчет появления слова «инвестор»:

In [4]: text7.concordance("investor")

Метод согласования позволил нам увидеть слово по нашему выбору, используемое в контексте. Подобное позволяет нам использовать другие слова в аналогичном контексте. Например, если мы передадим «запас» в «аналогичный» метод, мы получим:

In [5]: text7.similar("stock")

А для «инвестора»:

In [6]: text7.similar("investor")

Еще мы можем использовать метод common_text, чтобы найти общий контекст между двумя словами. Давайте найдем общий контекст между «акциями» и «рынком»:

In [7]: text7.common_contexts(["market", "stock"])

Мы также можем создать график дисперсии, чтобы помочь визуализировать, как часто и когда слова появляются в текстах:

In [8]: text7.dispersion_plot(["stock", "market", "investor", "exchange", "acquiring"])

Я остановлюсь на этом, но не стесняйтесь применять такие методы, как concordance, Similar, common_contexts и дисперсионный график, к некоторым другим текстам, доступным в NLTK. Если вас интересует художественная литература, возможно, вы захотите проанализировать Моби Дика или Разум и чувствительность. Надеюсь, вам понравился этот пост. Спасибо за чтение!