Какие слова опустить?

Я пытаюсь найти некоторую меру сходства между двумя предложениями. Для этого я использую индивидуальное семантическое сходство двух слов. Но в словаре много слов, которые я составляю из имеющихся у меня предложений. Я хочу исключить из предложений некоторые слова, которые, по моему мнению, не передают информацию о содержании. Сначала я удалил слова с меньшим количеством букв, но я не думаю, что это разумно, потому что также удаляются некоторые информативные слова.

Посмотрите на части некоторых предложений здесь

"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."

Если бы у меня был текстовый файл с этими словами, я бы удалил их из своего словаря и оставил там только информативные слова.

Есть ли какой-нибудь список таких слов, которые вы знаете для английского языка, чтобы я мог использовать их для фильтрации своего словаря?


person petrichor    schedule 19.12.2012    source источник
comment
Мой подход к этому типу проблем заключается в удалении головы и хвоста распределения. Очень распространенные слова (например, стоп-слова) почти не добавляют информации о сходстве. И наоборот, очень редкие слова, как правило, являются опечатками. Вы должны быть осторожны с порогом уникальности. YMMV.   -  person Diego Basch    schedule 20.12.2012
comment
Это очень умная идея. Спасибо за комментарий. Я думаю, что это может также работать для других языков. Не могли бы вы дать свой комментарий в качестве ответа. Итак, я могу принять это, если не будет других хороших ответов.   -  person petrichor    schedule 20.12.2012


Ответы (2)


Доступны списки общих «стоп-слов», например, здесь .

Стоп-слова также могут в некоторой степени зависеть от предметной области. Например, полнотекстовая база данных патентов США, по-видимому, рассматривает "заявку" и "воплощение". " быть чрезвычайно распространенным явлением, что, я сомневаюсь, верно для документов, не относящихся к конкретным патентам.

person kc2001    schedule 21.12.2012
comment
На самом деле, ключевое слово, которое я искал, это стоп-слова. Когда я ищу наиболее часто встречающиеся слова, я вижу языковые курсы :) Большое спасибо. - person petrichor; 21.12.2012
comment
Да, стоп-слова — это не тот термин, который сразу приходит на ум. Как подумает об этом тот, кто еще не знаком с этим термином? - person kc2001; 21.12.2012

Один из подходов к такому типу проблем — удалить голову и хвост распределения. Очень распространенные слова (например, стоп-слова) почти не добавляют информации о сходстве. И наоборот, очень редкие слова, как правило, являются опечатками. Вы должны быть осторожны с порогом уникальности, и он будет зависеть от происхождения и неоднородности вашего корпуса: пользовательский ввод, как правило, содержит гораздо больше уникальных опечаток, чем контент из курируемых источников, таких как Википедия.

person Diego Basch    schedule 19.12.2012