Есть ли способ получить взаимосвязь из неконтролируемого набора данных?

У меня есть некоторые данные, набор данных включает такие функции, как идентификатор устройства (int), телефон (int), имя (строка), id устройства и т. д. Но все данные не имеют метки. моя задача - получить вероятность того, что человек использует несколько идентификаторов или несколько устройств. Понятия не имею, как это сделать, у кого-нибудь есть идеи?

для ясности, вот пример. набор данных похож

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

Итак, мы можем найти, что у Джейсона 2 телефонных номера,
как мне узнать вероятность, используя метод машинного обучения или метод глубокого обучения?




Ответы (1)


Один из возможных способов сделать это - вычислить сходство пользователя.

Насколько я понимаю, ваша конечная цель - схожесть устройств для пользователя.

Для начала объедините поле имени и идентификатора, которое однозначно идентифицирует пользователя. Сгенерируйте вектор признаков для всего остального в виде массива.

После этого вы можете просто запустить вложенный цикл for со всеми пользователями поверх других. Это даст вам наиболее близкое соответствие, и вы можете установить порог или выбрать kNN для этого.

взгляните на это: Преобразовать вложенный словарь в Pyspark Dataframe

person ved prakash    schedule 02.11.2020
comment
Я думаю, что в нынешнем состоянии ваше предлагаемое решение расплывчато. Например, какая мера расстояния будет использоваться для вычисления сходства? kNN - это классификатор и не имеет отношения к кластеризации? - person mnm; 03.11.2020
comment
Спасибо за ответ, это действительно полезно. Я могу добавить некоторые детали к этому вопросу. 1. Это не только схожесть идентификатора устройства, но и использование других функций, таких как имя, телефон и т. Д., Чтобы судить о сходстве между двумя выборками данных (2 строки). 2. есть ли возможность перевести phone number или device id в векторный формат? поэтому я могу вычислить сходство между двумя векторами. Ждем Вашего ответа. - person h2222; 03.11.2020
comment
@mmm Что касается вашего вопроса №1, какую меру расстояния следует использовать? На практике выбор метрики расстояния будет зависеть от вида косинусного сходства данных или может быть применена любая мера подобия. вопрос № 2: он не имеет ничего общего с кластеризацией, K ближайший сосед по существу выберет k подобных устройств из всей совокупности вычисляемых устройств. - person ved prakash; 03.11.2020
comment
@ h2222, если бы вы могли использовать одни и те же данные для репликации, это помогло бы найти решение. Я согласен, что дело не в устройстве, а во всем сходстве строк, которое я упоминал в контексте устройства bcoz, чтобы выделить это. Спасибо..!! - person ved prakash; 03.11.2020