5 библиотек с открытым исходным кодом, которые нужно освоить, чтобы стать профессионалом НЛП

Овладейте этими библиотеками, и вы продвинетесь в своей карьере в НЛП.

ПРОСТОРНЫЙ

SPACY — ведущий инструментарий НЛП для Python. Он разработан, чтобы помочь вам выполнять настоящую работу — создавать настоящие продукты или собирать настоящую информацию. Библиотека уважает ваше время и старается не тратить его зря. Его легко установить, а его API простой и продуктивный. Нам нравится думать о spaCy как о Ruby on Rails для обработки естественного языка.

Особенности:
— Неразрушающая токенизация
— Распознавание именованных сущностей
— Поддержка более 52 языков
— 23 статистические модели для 11 языков
— Предварительно обученные векторы слов
— Невероятная скорость
— Простая интеграция с глубоким обучением
— Тегирование частей речи
— Разбор зависимостей по меткам
— Предложение на основе синтаксиса сегментация
— Встроенные визуализаторы синтаксиса и NER
— Удобное сопоставление строк и хэшей
— Экспорт в массивы данных NumPy
— Эффективная двоичная сериализация
— Простота упаковка и развертывание модели
— Надежная, тщательно проверенная точность

TextBlob

TextBlob — это Python (2 и 3) библиотека для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP), такие как маркировка частей речи, извлечение именной фразы, анализ тональности, классификация, перевод и многое другое.

OpenNLP

Библиотека Apache OpenNLP — это основанный на машинном обучении инструментарий для обработки текста на естественном языке. Этот инструментарий полностью написан на Java и поддерживает повседневные задачи НЛП, такие как токенизация, сегментация предложений, тегирование частей речи, извлечение именованных сущностей, фрагментация, синтаксический анализ, разрешение кореферентности, определение языка и многое другое! Эти задачи обычно требуются для создания более сложных служб обработки текста. Цель проекта OpenNLP — стать зрелым набором инструментов для задач, упомянутых выше.

PyNLPl

PyNLPl — это библиотека Python для обработки естественного языка. Он содержит различные модули, полезные для частых и менее распространенных задач НЛП. PyNLPl можно использовать для базовых задач, таких как извлечение n-грамм и списков частот, а также построение простой языковой модели. Существуют также более сложные типы данных и алгоритмы. Кроме того, существуют парсеры для форматов файлов, распространенных в НЛП (например, FoLiA/Giza/Moses/ARPA/Timbl/CQL). Существуют также клиенты для взаимодействия с различными серверами NLP. PyNLPl имеет очень обширную библиотеку для работы с FoLiA XML (формат для лингвистической аннотации).

Полиглот

«Polyglot — это конвейер на естественном языке для Python, который поддерживает массовые многоязычные приложения. Polyglot зависит от библиотеки pycld2, которая зависит от библиотеки cld2 для определения языков, используемых в обычном тексте.

Возможности
— Токенизация (165 языков)
— Определение языка (196 языков)
— Распознавание именованных сущностей (40 языков)
— Часть речевых тегов (16 языков)
— Анализ тональности (136 языков)
— Встраивание слов (137 языков) )
— Морфологический анализ (135 языков)
— Транслитерация (69 языков)

И вот оно. Спасибо за чтение.

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.