Я загружаю длинный список строк тем моего электронного письма с намерением найти списки адресов электронной почты, членом которых я был много лет назад, и хотел бы удалить их из своей учетной записи Gmail (что становится довольно медленно).
Я специально имею в виду информационные бюллетени, которые часто приходят с одного и того же адреса и повторяют название продукта / услуги / группы в теме.
Я знаю, что могу выполнять поиск / сортировку по общему появлению элементов с определенного адреса электронной почты (и я намереваюсь это сделать), но я хотел бы сопоставить эти данные с повторяющимися строками темы ....
Теперь многие строки темы не смогут сопоставить строку, но «Друзья Google: Наши последние новости» «Друзья Google: Чем мы занимаемся сегодня» больше похожи друг на друга, чем случайная строка темы, например: «У Virgin Airlines есть отличная распродажа сегодня "" Летите рейсом Virgin Airlines "
Итак - как я могу начать автоматически извлекать тенденции / примеры строк, которые могут быть более похожими.
Подходы, которые я рассмотрел и отверг («потому что должен быть какой-то лучший способ»):
- Извлечение всех возможных подстрок и их упорядочение по частоте их появления, а также выбор соответствующих подстрок вручную.
- Удаление первого или двух слов, а затем подсчет появления каждой подстроки
- Сравнение расстояния Левенштейна между записями
- Какой-то индекс подобия строк ...
Большинство из них были отклонены из-за значительной неэффективности или вероятности необходимости огромного количества ручного вмешательства. Думаю, мне нужно какое-то нечеткое сопоставление строк ..?
В конце концов, я могу придумать неуклюжие способы сделать это, но я ищу что-то более общее, поэтому я добавил к своему набору инструментов, а не специальную оболочку для этого набора данных.
После этого я бы сопоставил появление определенных строк темы с адресами 'От' - я не уверен, есть ли хороший способ построить структуру данных, которая представляет, насколько вероятно / нет два сообщения являются частью 'одного и того же электронного письма. list »или путем фильтрации всех моих тем / адресов электронной почты в пулы вероятных« связанных »писем, а не - но эту проблему нужно решить после этого.
Любое руководство будет оценено.