Я хотел бы рассчитать расстояние строки Яро-Винклера в базе данных. Если я перенесу данные в R (с collect
), я могу легко использовать функцию stringdist
из пакета stringdist
.
Но мои данные очень большие, и я хотел бы отфильтровать расстояния Яро-Винклера перед переносом данных в R.
Есть код SQL для Яро-Винклера (https://androidaddicted.wordpress.com/2010/06/01/jaro-winkler-sql-code/ и версию для T-SQL), но я не знаю, как лучше всего заставить этот код SQL работать с dbplyr
. Я счастлив попробовать сопоставить функцию stringdist
с кодом sql
Яро-Винклера, но я не знаю, с чего начать. Но было бы замечательно даже что-то более простое, например выполнение кода SQL непосредственно из R на удаленных данных.
Я надеялся, что перевод SQL в dbplyr
документации может помочь, но я не я так не думаю.