Я пытаюсь найти некоторую меру сходства между двумя предложениями. Для этого я использую индивидуальное семантическое сходство двух слов. Но в словаре много слов, которые я составляю из имеющихся у меня предложений. Я хочу исключить из предложений некоторые слова, которые, по моему мнению, не передают информацию о содержании. Сначала я удалил слова с меньшим количеством букв, но я не думаю, что это разумно, потому что также удаляются некоторые информативные слова.
Посмотрите на части некоторых предложений здесь
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
Если бы у меня был текстовый файл с этими словами, я бы удалил их из своего словаря и оставил там только информативные слова.
Есть ли какой-нибудь список таких слов, которые вы знаете для английского языка, чтобы я мог использовать их для фильтрации своего словаря?