Вопросы по теме 'stringdist'

R искать аббревиатуру в полной строке
Я ищу эффективный способ в R определить, может ли одна строка быть аббревиатурой для другой. Основной подход, который я использую, заключается в том, чтобы проверить, появляются ли буквы в более короткой строке в том же порядке, что и в более длинной...
524 просмотров
schedule 28.10.2023

Вычисление процента сходства в текстовых строках путем исключения идентичных записей в R
данный скрипт R вычисляет сходство в % между двумя именами, как показано на рисунке. Здесь у нас есть два столбца «names1» и «names2» с соответствующими идентификаторами в id1 и id2. Мое требование состоит в том, что когда мы выполняем скрипт,...
379 просмотров

Как использовать пользовательскую функцию SQL в dbplyr?
Я хотел бы рассчитать расстояние строки Яро-Винклера в базе данных. Если я перенесу данные в R (с collect ), я могу легко использовать функцию stringdist из пакета stringdist . Но мои данные очень большие, и я хотел бы отфильтровать расстояния...
1307 просмотров
schedule 16.03.2023

Заказать независимое сопоставление строк в R
Я пытаюсь сопоставить имена в таблице A с именами, присутствующими в главной таблице. Порядок имен, представленных в таблице A, не совсем соответствует формату, что означает, что не обязательно имя будет начинаться с имени, все это случайно, в...
239 просмотров
schedule 02.10.2023

Нечеткое сопоставление со строками, содержащими числа
Я пытаюсь приблизить совпадения между эталонной и целевой строками. Я пробовал adist и stringdist в R с различными доступными расстояниями. Хотя алгоритмы хорошо справляются со строками, содержащими только буквы алфавита, они не могут...
432 просмотров

Эффективный способ обработки сходства строк?
Я застрял на некоторых проблемах сходства строк. Вот как выглядят мои данные (исходные данные огромны): SerialNumber SubSerialID Date AGCC0775CFNDA1040TMT775 AVCC0775CFNDA1040 2018/01/08 AGCC0775CFNDA1040...
63 просмотров
schedule 26.06.2023

stringdist_semi_join показывает только столбцы из dataframe1
У меня есть два фрейма данных: df1 <- data.frame(City=c("Munchen_Paris","Munchen_Paris","Barcelona_Milan", "Londen_Dublin","Madrid_Malaga"), value1=c(11,21,33,2,53)) df2 <-...
36 просмотров
schedule 30.04.2023