У меня есть большие сомнения по поводу того, как мне следует кластеризовать наборы с помощью MinHash вместе с техникой объединения.
Я предполагаю, что все читающие хорошо знакомы с MinHash, поэтому я не буду определять большинство терминов, которые использую.
Моя цель — использовать MinHash для кластеризации пользователей по сходству их подписей. В локальных, негруппированных настройках это было бы тривиально: если их хэш подписи одинаков, они входят в один и тот же кластер.
Если мы разделим сигнатуры на группы и обработаем их независимо, я смогу обработать группу, как я уже говорил, и сгенерировать группу кластеров для каждой полосы. У меня вопрос: как мне объединить эти кластеры? Просто объединить их, если у них есть хотя бы один общий элемент? Или я должен сделать что-то другое?
Спасибо