Безусловно универсальные речи

Посмотрите на вещь, проверьте код, читайте ниже, если вам интересно :)

Люди много говорят.

Политические речи, например, имеют тенденцию быть длинными (но, честно говоря, речи всех).

Итак, сегодня, играя с лингвистической концепцией Language Universals, я написал некоторый код, который пропалывает речи, удаляя все, кроме существительных и глаголов.
Последующее чтение речи позволяет сделать, может быть, задумчивый, может быть, показательный, но, скорее всего, всего лишь десятисекундный забавно-забавный дайджест бормотания какого-то бывшего президента США.

Надеюсь, вам понравится :)

Что такое языковые универсалии

Лингвистика определяет два типа языковых универсалий для естественных человеческих языков: безусловные и условные.

И на самом деле кажется, что их различие хорошо объясняется в происхождении и семантике двух слов. (Ох уж эти лингвисты… 😉)

В то время как условные языковые универсалии полагаются на некоторые условия для соблюдения (например, «если язык имеет изменение, он обычно также имеет деривацию»), безусловные языковые универсалии верны без дополнительных предварительных условий.

В своем коде я сосредоточусь на одном из безусловных LU, а именно:

В каждом языке есть существительные и глаголы.

В порядке. Легкий. Итак, давайте подумаем об этом…

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: я просто занимаюсь самообразованием (и развлекаюсь), поэтому ОСТАЛЬНЫЕ ИЗ ЭТИХ РАЗМЫШЛЕНИЙ НИЖЕ ЯВЛЯЮТСЯ НИЧЕМ, КАК САМОСТОЯТЕЛЬНЫМИ ИГРАМИ ДЛЯ РАЗВЛЕЧЕНИЯ И ПРАКТИКИ В ПРОГРАММИРОВАНИИ. Просто имейте это в виду. Также, если у вас есть комментарий: обратная связь и исправления очень приветствуются!

В сегодняшнем проекте я предположил, что существительные и глаголы являются основными частями речи в каждом языке, поскольку они являются общими для них всех.

Затем я хотел посмотреть, что произойдет с моим пониманием текста, если убрать все эти «несущественные» POS.

Готовы поговорить о процессе? Вот так!

Знакомство с НЛТК

НЛТК набит предзагруженными корпусами, и после посмотрев вступление я принялся за работу с президентскими речами.

Я стремился практиковать две основные концепции НЛП:

  • Токенизация и
  • Маркировка POS

У NLTK есть отличные оболочки для всего этого, так что и то, и другое может быть достигнуто всего несколькими строками кода (посмотрите tokenize_text() and tag_POS())

После сегментации текста с помощью токенизаторов слов и предложений я прикрепил информацию о POS к каждому слову. И на этом серьезная предобработка заканчивается и открываются поля для применения глупых идей. 😁

Я пошел дальше и заменил все несуществительные/глаголы незаметными точками.
. ‹- да, вот так.
Существительные и глаголы были разрешены.

Знакомство с президентами

Затем я снова сшил речь. Вот как выглядит начало речи Джона Кеннеди в 1962 году по своей сути:

PRESIDENT JOHN F. KENNEDY . ANNUAL ADDRESS TO A JOINT SESSION OF CONGRESS ON THE STATE . THE UNION . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. Mister Sam . Rayburn . . .
. . House . . . . . . . . .
. . . Congress . . Constitution . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . State . . Union . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . North . . South . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . ECONOMY . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . Mr. Khrushchev . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . Congress . . . First . . Manpower Training . Development Act . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Second . . Youth Employment Opportunities Act . . . . . . . . . . . . Americans . . . . . . . . . . . . . . . . Americans . . . . . . . . . Third . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . First . Presidential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Second . Presidential . . . . . . . . . . . . . . . Federal . . . . . . . Third . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Congress . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . World War II .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . Government . . . . . . . . . . . . . . . . . . . . Federal Pay Reform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Federal Budget .
. . . . . . . . . . . . . . . . . . . . . First . . . . . . . . . . . . . Secondly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Third . . . . . . . . . . . . . . . . . . . . . . . . . . .
GETTING AMERICA MOVING . . . . . . . . . . . Budget .
. . . . . . . . . . . . . . .
. A . America . . . . . America . . . . . America . . .
. . . . . . . . . . . . . . . . .

На самом деле мне было удивительно интересно посмотреть на выступления разных президентов после применения конвейера удаления закрытия.

Существует довольно много значений, которые можно вывести после стирания всего, кроме существительных и глаголов — даже в приведенном выше примере, где остались только существительные, можно вывести определенную общую тему и настроение речи.

Ознакомьтесь с полной основной версией на AWS».

Это также пример того, как выглядят автоматически сгенерированные страницы из моего кода. Хороший пергамент, а?

Конечно, пропущенные слова открывают путь к неверному толкованию, поэтому лучше не использовать их, чтобы претендовать на что-то существенное. С другой стороны, влияет и обилие слов. Так что я думаю, мы просто возвращаемся к тому факту, что языки беспорядочны. 😉

Это все на сегодня. Если вам хочется протолкнуть несколько речей, чтобы они вернутся пунктирными и измученными, пожалуйста, продолжайте и извлеките код.

Дайте мне знать, если вы найдете что-то веселое или захватывающее после фильтрации POS!