У меня есть некоторые несбалансированные данные в моем LabeledPoint
. то, что я хочу сделать, это выбрать все положительные и n
раза больше отрицательных (случайным образом). Например, если у меня есть 100
положительных и 30000
отрицательных, я хочу создать новый LabeledPoint
со всеми 100
положительными и 300
отрицательными (n=3
).
И в реальном сценарии я не знаю, сколько плюсов и минусов у меня было в начале.