Современные подходы к обработке естественного языка предлагают оптимизацию процесса анализа документов за счет упрощения.
Проще говоря, существует тенденция отбрасывать сложные вещи (например, понимание содержания) в пользу более прямых методов, таких как просмотр слов, частота их появления в документах, какие другие слова появляются рядом с ними или где-то еще в том же документе; такая статистическая информация собирается и тщательно оптимизируется на этапе, который в машинном обучении называется этапом обучения. Практически говоря, человек вручную пометит документ, в котором говорится, например, о спорте, ярлыком «Спорт» (известный как «Цель»), и, когда этот документ будет обработан, движок соберет все присутствующие слова и пометит их. как потенциально ведущие к предположению, что они указывают на спортивный контекст. Когда будет проанализирован дополнительный контент из тренировочного набора документов, некоторые из этих слов будут снова присутствовать (подкрепляя идею о том, что они действительно указывают на область спорта), в то время как другие будут отсутствовать (смягчая вероятность того, что они имеют значение для предметной области).
Естественно, хотя упрощение привлекательно (из-за его скорости и отсутствия навыков, необходимых для решения задач, связанных с неструктурированными данными), оно также имеет свои недостатки. Более очевидным является то, что сбор слов в качестве абстрактных символов не имеет ничего общего с пониманием значения того, что было описано в документе, поэтому может показаться умеренно эффективным для документов в целом, но это не так. становится намного сложнее, чем более лазерным становится наше внимание (понимание предложения или, что еще сложнее, кто выполняет действие в предложении).

При более внимательном рассмотрении документов через эту призму также сразу становится очевидным, что большая часть нашего языка присутствует в каждом тексте, независимо от темы. Что вынуждает эти упрощенные подходы использовать очень большие обучающие наборы, чтобы компенсировать неоднозначное повторение, которое относится к тому факту, что большинство слов имеют много разных значений, и мы различаем их только благодаря их контекст, поэтому алгоритму ML требуется много экземпляров одного и того же слова для каждого значения, которое имеет это слово, умножая количество документов, необходимых для правильного обучения. Поскольку упрощение, о котором мы говорим, требует усилий в виде людей, вручную назначающих цели, о которых я упоминал выше, чем больше тренировочный набор, тем больше работы необходимо выполнить. И никакие сокращения не допускаются, потому что, если во многих документах используется слово с одним конкретным значением (и не во многих документах используется одно и то же слово с другими его значениями), результатом будет механизм, который предполагает, что одно слово может иметь только одно значение. (проблема, известная в ML как переоснащение).

Более точным способом решения описанных выше проблем является внедрение технологии, которая не пропускает этап понимания анализа естественного языка. В NLP не так много компонентов имеют такое же влияние, как теги POS. Ожидается, что POS-теггер поймет каждое предложение на грамматическом уровне. Более сложные будут распознавать имена собственные, фразы и идиомы, так что несколько слов могут быть сгруппированы вместе, когда это имеет смысл. Очень продвинутые POS-теггеры также будут распространять информацию по документу, так что информация, которая была распознана благодаря контексту в предложении, будет по-прежнему распознаваться в других предложениях того же документа, где этот полезный контекст отсутствует. , и это будет работать точно так же, даже если эта необходимая информация появляется в документе только позже (обычно это происходит посредством первого анализа, предназначенного только для устранения этих неоднозначностей, за которым следует второй анализ, который использует информацию, собранную во время первого прохода, чтобы правильно все остальное понятно).

Наконец, POS-теггер не будет полным, если он не сможет решить достаточное количество анафор (когда местоимение, например «она», связано с реальным именем в документе), а также правильно угадать роль собственных существительных в зависимости от того, как они используются.
Несколько примеров, чтобы лучше понять некоторые из функций, упомянутых выше:
- «Мы с женой Вашингтон отправились в путешествие по Восточному побережью. Вашингтону очень понравился Нью-Йорк.»: ясно, что здесь «Вашингтон» — это человек (как показано на скриншоте выше, который также отображает возможности распространения), и это не может быть правильно распознано, если не иметь правильное понимание всего утверждения и контекста вокруг каждого слова.
- «BMW, который я купил взамен своего Mercedes, — это хорошая машина». Эффективная POS-система Tagger распознает, что «хорошая машина», о которой мы говорим, — это BMW, даже если позиционно мы читаем «[…] мой «Мерседес» — хорошая машина».

Усовершенствованный POS-теггер, обычно в сочетании с другими компонентами НЛП (такими как График знаний и т. д.), — это то, что приводит к платформам, известным как Понимание естественного языка. В искусственном интеллекте, применяемом для анализа документов, будь то машинное обучение, символический/семантический или даже гибридный ИИ, NLU представляет собой повышенную форму NLP, которая переводит обработку языка на уровень, на котором ожидается более глубокое понимание контекста.