Я хочу использовать библиотеку Spark mllib.recommendation
для создания прототипа рекомендательной системы. Однако формат пользовательских данных, который у меня есть, имеет следующий формат:
AB123XY45678
CD234WZ12345
EF345OOO1234
GH456XY98765
....
Если я хочу использовать библиотеку mllib.recommendation
, в соответствии с API класса Rating
идентификаторы пользователей должны быть целыми числами (также должны быть непрерывными?)
Похоже, что необходимо выполнить какое-то преобразование между реальными идентификаторами пользователей и числовыми, используемыми Spark. Но как мне это сделать?