Обучение Dedupe на основе существующих данных меток

Мне известно, что Dedupe использует активное обучение для удаления дубликатов и связывания записей.

Тем не менее, я хотел бы знать, можем ли мы передать лист Excel с уже совпавшими парами (данные метки) в качестве входных данных для активного обучения?


person Venkateshwar reddy Jambula    schedule 01.12.2017    source источник


Ответы (1)


Не напрямую.

Вам необходимо преобразовать данные в формат, который markPairs может потреблять.

Что-то типа:

labeled_examples = {'match'    : [],
                    'distinct' : [({'name' : 'Georgie Porgie'},
                                   {'name' : 'Georgette Porgette'})]
                    }
deduper.markPairs(labeled_examples)

Мы предоставляем удобную функцию для преобразования данных электронных таблиц в этот формат trainingDataDedupe .

(Я автор дедупликации)

person fgregg    schedule 06.12.2017
comment
Мне удалось сгенерировать первый уровень результатов, введя помеченные данные. Но, как показано в видео Dedupe.io, как я могу дополнительно настроить результаты? - person Venkateshwar reddy Jambula; 12.01.2018
comment
Эта функциональность не является частью библиотеки дедупликации, а только частью dedupe.io. - person fgregg; 12.01.2018
comment
Спасибо за вашу помощь. - person Venkateshwar reddy Jambula; 18.01.2018
comment
что означает показатель уверенности, равный 1,0? например: 0,84, 1,23, 4,56, 7,65, 3,4 - person Venkateshwar reddy Jambula; 18.01.2018
comment
Этот вопрос кажется далеким. - person fgregg; 20.01.2018
comment
Я действительно удивлен, что дедупликация работает хорошо с меньшим количеством данных (10%) и плохо с большим количеством обучающих данных (100%). Как мы должны выбрать количество выборок для обучения? - person Venkateshwar reddy Jambula; 12.02.2018