Вопросы по теме 'record-linkage'

Нечеткая логика для больших наборов данных с использованием Python
Моя команда застряла в запуске алгоритма нечеткой логики на двух больших наборах данных. Первое (подмножество) составляет около 180 тыс. Строк, содержащих имена, адреса и электронные письма людей, которых нам нужно сопоставить во втором...
4665 просмотров

Обучение Dedupe на основе существующих данных меток
Мне известно, что Dedupe использует активное обучение для удаления дубликатов и связывания записей. Тем не менее, я хотел бы знать, можем ли мы передать лист Excel с уже совпавшими парами (данные метки) в качестве входных данных для активного...
680 просмотров

Вычисление процента сходства в текстовых строках путем исключения идентичных записей в R
данный скрипт R вычисляет сходство в % между двумя именами, как показано на рисунке. Здесь у нас есть два столбца «names1» и «names2» с соответствующими идентификаторами в id1 и id2. Мое требование состоит в том, что когда мы выполняем скрипт,...
379 просмотров

Создание столбца оценок во фрейме данных Pyspark с помощью пакета jellyfish
У меня есть такой фрейм данных df = [id1, id2, name1, name2, address1, address2, DOB1, DOB2] Я хотел бы получить оценку Jaro_winkler (в новом столбце) для столбцов column1 и column2 в фрейме данных Pyspark. Я пытаюсь использовать пакет...
72 просмотров

Соедините два набора данных с двумя идентификаторами столбцов с отсутствующими данными в R
Мне нужно объединить два data.frame в R , и у обоих из них есть два кандидата id, но много недостающих данных (поэтому я не могу просто выбрать один и отфильтровать остальные). ИЗМЕНИТЬ воспроизводимый пример обоих наборов данных и желаемого...
55 просмотров
schedule 25.06.2023