Автокоррекция на основе НЛП

Обработка естественного языка (NLP) — это ветвь искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать человеческий язык и манипулировать им. НЛП опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.

Хотя обработка естественного языка не является новой наукой, технология быстро развивается благодаря повышенному интересу к общению человека с машиной, а также доступности больших данных, мощных вычислений и усовершенствованных алгоритмов.

Как человек, вы можете говорить и писать на английском, испанском или китайском языках. Но родной язык компьютера, известный как машинный код или машинный язык, по большей части непонятен большинству людей.

Как работает НЛП?

Обработка естественного языка включает в себя множество различных методов интерпретации человеческого языка, начиная от статистических методов и методов машинного обучения и заканчивая подходами на основе правил и алгоритмами. Нам нужен широкий спектр подходов, потому что текстовые и голосовые данные сильно различаются, как и практические приложения.

Основные задачи НЛП включают в себя токенизацию и синтаксический анализ, лемматизацию/выделение основы, тегирование частей речи, определение языка и идентификацию семантических отношений. Если вы когда-нибудь рисовали предложения в начальной школе, вы уже выполняли эти задачи вручную.

В общих чертах, задачи НЛП разбивают язык на более короткие, элементарные части, пытаются понять взаимосвязь между частями и исследуют, как части работают вместе, чтобы создать смысл.

Эти основные задачи часто используются в возможностях НЛП более высокого уровня, таких как:

1. Категоризация контента. Сводка документа на лингвистической основе, включая поиск и индексирование, оповещения о содержимом и обнаружение дублирования.

2. Открытие темы и моделирование. Точно фиксируйте смысл и темы в текстовых коллекциях и применяйте к тексту расширенную аналитику, например оптимизацию и прогнозирование.

3. Контекстное извлечение. Автоматически извлекайте структурированную информацию из текстовых источников.

4. Анализ настроений. Выявление настроения или субъективных мнений в больших объемах текста, в том числе среднего настроения и анализа мнений.

5. Преобразование речи в текст и преобразования текста в речь. Преобразование голосовых команд в письменный текст и наоборот.

6. Резюме документа. Автоматическое создание синопсисов больших объемов текста.

7. Машинный перевод. Автоматический перевод текста или речи с одного языка на другой.

Во всех этих случаях главная цель состоит в том, чтобы взять необработанный языковой ввод и использовать лингвистику и алгоритмы для преобразования или обогащения текста таким образом, чтобы он приносил большую ценность.

Введение в автокоррекцию

EВ эпоху, когда время — деньги, важность экономии времени, такой как автокоррекция, часто игнорируется. Автокоррекция, также известная как замена текста или просто автокоррекция, представляет собой функцию автоматической проверки данных, обычно используемую в текстовых процессорах и интерфейсах редактирования текста для смартфонов и компьютеров. Его основная цель как части средства проверки орфографии - исправлять распространенные орфографические или опечатки, экономя время пользователя. Он также используется для автоматического форматирования текста или вставки специальных символов путем распознавания использования конкретных символов, избавляя пользователя от необходимости использовать более утомительные функции.

Как работает автокоррекция?

Ввот 4 ключевых шага к построению модели автокоррекции, исправляющей орфографические ошибки:

1. Определите слова с ошибками. Как в этом примере мы узнаем, что слово «helo» написано неправильно? Если слово написано правильно, то это слово будет найдено в словаре, а если нет, то это, вероятно, слово с ошибкой. Поэтому, когда слово отсутствует в словаре, мы отмечаем его для исправления.

2. Найти строки на расстоянии редактирования n: редактирование — это операция, которая выполняется над строкой для преобразования ее в другую строку, а n — это просто расстояние редактирования (т. е. расстояние редактирования 1, 2, 3 и т. д.), которое учитывается. количество операций редактирования. Следовательно, расстояние редактирования n говорит нам, сколько операций отделяет одну строку от другой. Вот различные типы правок-

Вставить (добавить букву)

Удалить (удалить букву)

Переключить (поменять местами 2 соседние буквы)

Заменить (изменить 1 букву на другую)

С помощью этих 4 правок мы можем изменить любую строку. И комбинация этих правок позволяет нам найти список всех возможных строк, которые находятся на расстоянии n правок.

3. Фильтровать кандидатов: мы хотим рассматривать только правильно написанные настоящие слова из нашего списка кандидатов, поэтому мы сравниваем слова с известным словарем (например, в 1) и отфильтровываем слова в нашем списке кандидатов, которых нет в известном словаре.

4. Рассчитайте вероятности слов. С нашим списком фактических слов мы можем рассчитать вероятности слов и найти наиболее вероятное слово из наших кандидатов. Это требует, чтобы мы знали частоту слов и общее количество слов в корпусе.

Хотя для многих НЛП все еще остается футуристической наукой, это общепринятая реальность. Примерами общепринятой практики НЛП являются Лаборатория социальных машин Массачусетского технологического института, где НЛП управляет анализом социальных систем на предмет позитивных изменений, и Watson для кибербезопасности IBM, который использует НЛП для «извлечения информации из документов безопасности».

Путь вперед,

Я считаю НЛП будущим бизнес-аналитики? По мере того, как NLP продолжает делать «данные» более удобными для пользователя и разговорными, все больше и больше обычных пользователей будут использовать платформы данных, управляемые NLP. В некотором смысле NLP устранит существующие барьеры для входа на рынок Big Data BI. Когда-нибудь бизнес-пользователи смогут выполнять задачи бизнес-аналитики посредством диалогового взаимодействия с умными помощниками или чат-ботами. "Разговорная платформа" побудит многих сдержанных пользователей попробовать расширенные возможности бизнес-аналитики.

Спасибо, что дочитали до конца.

Автокоррекция на основе НЛП

Похожие вопросы