Я относительно новичок в R, поэтому прошу прощения, если это глупый/очевидный вопрос! Я заинтересован в создании нового набора данных, состоящего из коллекций строк, передискретизированных с заменой из большего набора данных.
Набор данных, который у меня есть, выглядит примерно так: несколько строк на группирующую переменную.
> df <- data.frame(value=c(1:5,1:4,1:3),ID=c(rep(1,5),rep(2,4),rep(3,3)))
> df
value ID
1 1 1
2 2 1
3 3 1
4 4 1
5 5 1
6 1 2
7 2 2
8 3 2
9 4 2
10 1 3
11 2 3
12 3 3
Что я хотел бы сделать, так это создать новый набор данных, который подвергается повторной выборке (с заменой) на основе переменной группировки. Таким образом, набор данных с повторной выборкой может выглядеть примерно так:
value ID
1 1 1
2 2 1
3 3 1
4 4 1
5 5 1
6 1 3
7 2 3
8 3 3
9 1 1
10 2 1
11 3 1
12 4 1
13 5 1
Спасибо за любые предложения!
df[sample(nrow(df)), ]
? - person Ronak Shah   schedule 22.02.2016dplyr
и группировку, вы можете попробовать что-то вроде этого:df %>% group_by(ID) %>% slice(sample(n(), 3, replace = TRUE))
. Это работает с фиксированным числом образцов. В противном случае вам нужно написать цикл сrbind
. - person Gopala   schedule 22.02.2016