Безусловно универсальные речи
Посмотрите на вещь, проверьте код, читайте ниже, если вам интересно :)

Люди много говорят.
Политические речи, например, имеют тенденцию быть длинными (но, честно говоря, речи всех).
Итак, сегодня, играя с лингвистической концепцией Language Universals, я написал некоторый код, который пропалывает речи, удаляя все, кроме существительных и глаголов.
Последующее чтение речи позволяет сделать, может быть, задумчивый, может быть, показательный, но, скорее всего, всего лишь десятисекундный забавно-забавный дайджест бормотания какого-то бывшего президента США.
Надеюсь, вам понравится :)
Что такое языковые универсалии
Лингвистика определяет два типа языковых универсалий для естественных человеческих языков: безусловные и условные.
И на самом деле кажется, что их различие хорошо объясняется в происхождении и семантике двух слов. (Ох уж эти лингвисты… 😉)
В то время как условные языковые универсалии полагаются на некоторые условия для соблюдения (например, «если язык имеет изменение, он обычно также имеет деривацию»), безусловные языковые универсалии верны без дополнительных предварительных условий.
В своем коде я сосредоточусь на одном из безусловных LU, а именно:
В каждом языке есть существительные и глаголы.
В порядке. Легкий. Итак, давайте подумаем об этом…
ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: я просто занимаюсь самообразованием (и развлекаюсь), поэтому ОСТАЛЬНЫЕ ИЗ ЭТИХ РАЗМЫШЛЕНИЙ НИЖЕ ЯВЛЯЮТСЯ НИЧЕМ, КАК САМОСТОЯТЕЛЬНЫМИ ИГРАМИ ДЛЯ РАЗВЛЕЧЕНИЯ И ПРАКТИКИ В ПРОГРАММИРОВАНИИ. Просто имейте это в виду. Также, если у вас есть комментарий: обратная связь и исправления очень приветствуются!
В сегодняшнем проекте я предположил, что существительные и глаголы являются основными частями речи в каждом языке, поскольку они являются общими для них всех.
Затем я хотел посмотреть, что произойдет с моим пониманием текста, если убрать все эти «несущественные» POS.
Готовы поговорить о процессе? Вот так!
Знакомство с НЛТК
НЛТК набит предзагруженными корпусами, и после посмотрев вступление я принялся за работу с президентскими речами.
Я стремился практиковать две основные концепции НЛП:
- Токенизация и
- Маркировка POS
У NLTK есть отличные оболочки для всего этого, так что и то, и другое может быть достигнуто всего несколькими строками кода (посмотрите tokenize_text() and tag_POS())
После сегментации текста с помощью токенизаторов слов и предложений я прикрепил информацию о POS к каждому слову. И на этом серьезная предобработка заканчивается и открываются поля для применения глупых идей. 😁
Я пошел дальше и заменил все несуществительные/глаголы незаметными точками.
. ‹- да, вот так.
Существительные и глаголы были разрешены.
Знакомство с президентами
Затем я снова сшил речь. Вот как выглядит начало речи Джона Кеннеди в 1962 году по своей сути:
PRESIDENT JOHN F. KENNEDY . ANNUAL ADDRESS TO A JOINT SESSION OF CONGRESS ON THE STATE . THE UNION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mister Sam . Rayburn . . . . . House . . . . . . . . . . . . Congress . . Constitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . State . . Union . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . North . . South . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ECONOMY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mr. Khrushchev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Congress . . . First . . Manpower Training . Development Act . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Second . . Youth Employment Opportunities Act . . . . . . . . . . . . Americans . . . . . . . . . . . . . . . . Americans . . . . . . . . . Third . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . First . Presidential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Second . Presidential . . . . . . . . . . . . . . . Federal . . . . . . . Third . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Congress . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . World War II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Government . . . . . . . . . . . . . . . . . . . . Federal Pay Reform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Federal Budget . . . . . . . . . . . . . . . . . . . . . . First . . . . . . . . . . . . . Secondly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Third . . . . . . . . . . . . . . . . . . . . . . . . . . . GETTING AMERICA MOVING . . . . . . . . . . . Budget . . . . . . . . . . . . . . . . . A . America . . . . . America . . . . . America . . . . . . . . . . . . . . . . . . . .
На самом деле мне было удивительно интересно посмотреть на выступления разных президентов после применения конвейера удаления закрытия.
Существует довольно много значений, которые можно вывести после стирания всего, кроме существительных и глаголов — даже в приведенном выше примере, где остались только существительные, можно вывести определенную общую тему и настроение речи.
Ознакомьтесь с полной основной версией на AWS».
Это также пример того, как выглядят автоматически сгенерированные страницы из моего кода. Хороший пергамент, а?
Конечно, пропущенные слова открывают путь к неверному толкованию, поэтому лучше не использовать их, чтобы претендовать на что-то существенное. С другой стороны, влияет и обилие слов. Так что я думаю, мы просто возвращаемся к тому факту, что языки беспорядочны. 😉
Это все на сегодня. Если вам хочется протолкнуть несколько речей, чтобы они вернутся пунктирными и измученными, пожалуйста, продолжайте и извлеките код.
Дайте мне знать, если вы найдете что-то веселое или захватывающее после фильтрации POS!