Нумерация строк внутри групп во фрейме данных

Работа с фреймом данных подобна этому:

set.seed(100)  
df <- data.frame(cat = c(rep("aaa", 5), rep("bbb", 5), rep("ccc", 5)), val = runif(15))             
df <- df[order(df$cat, df$val), ]  
df  

   cat        val  
1  aaa 0.05638315  
2  aaa 0.25767250  
3  aaa 0.30776611  
4  aaa 0.46854928  
5  aaa 0.55232243  
6  bbb 0.17026205  
7  bbb 0.37032054  
8  bbb 0.48377074  
9  bbb 0.54655860  
10 bbb 0.81240262  
11 ccc 0.28035384  
12 ccc 0.39848790  
13 ccc 0.62499648  
14 ccc 0.76255108  
15 ccc 0.88216552

Я пытаюсь добавить столбец с нумерацией внутри каждой группы. Очевидно, что при этом не используются возможности R:

 df$num <- 1  
 for (i in 2:(length(df[,1]))) {  
   if (df[i,"cat"]==df[(i-1),"cat"]) {  
     df[i,"num"]<-df[i-1,"num"]+1  
     }  
 }  
 df  

   cat        val num  
1  aaa 0.05638315   1  
2  aaa 0.25767250   2  
3  aaa 0.30776611   3  
4  aaa 0.46854928   4  
5  aaa 0.55232243   5  
6  bbb 0.17026205   1  
7  bbb 0.37032054   2  
8  bbb 0.48377074   3  
9  bbb 0.54655860   4  
10 bbb 0.81240262   5  
11 ccc 0.28035384   1  
12 ccc 0.39848790   2  
13 ccc 0.62499648   3  
14 ccc 0.76255108   4  
15 ccc 0.88216552   5

Что было бы хорошим способом сделать это?

r dataframe r-faq

eli-k 16.10.2012 источник

comment

Я бы предложил добавить что-то вроде seq по уровням или подсчета реплик в заголовке вопроса, так как именно так я нашел этот вопрос, и это именно то, что я искал - crazysantaclaus 17.12.2019

comment

@crazysantaclaus Если бы это было название, я бы не нашел то, что искал :-( Я буквально искал, как пронумеровать строки внутри групп во фрейме данных - Zimano 30.01.2020

Ответы (9)

arrow_upward
318
arrow_downward

Используйте ave, ddply, dplyr или data.table:

df$num <- ave(df$val, df$cat, FUN = seq_along)

or:

library(plyr)
ddply(df, .(cat), mutate, id = seq_along(val))

or:

library(dplyr)
df %>% group_by(cat) %>% mutate(id = row_number())

или (самый эффективный с точки зрения памяти, поскольку он назначается по ссылке в DT):

library(data.table)
DT <- data.table(df)

DT[, id := seq_len(.N), by = cat]
DT[, id := rowid(cat)]

mnel 16.10.2012

comment

Возможно, стоит упомянуть, что ave дает здесь float вместо int. В качестве альтернативы можно было изменить df$val на seq_len(nrow(df)). Я только что столкнулся с этим здесь: stackoverflow.com/questions/42796857/ - Frank; 15.03.2017

comment

Интересно, что это data.table решение кажется быстрее, чем использование frank:

library(microbenchmark); microbenchmark(a = DT[, .(val                           ,num = frank(val)), by = list(cat)]                ,b =DT[, .(val                           , id = seq_len(.N)), by = list(cat)]                , times = 1000L)

- hannes101; 28.07.2017

comment

Спасибо! dplyr решение хорошее. Но если, как и я, вы продолжали получать странные ошибки при использовании этого подхода, убедитесь, что у вас не возникают конфликты между plyr и dplyr, как описано в в этом сообщении Этого можно избежать, явно вызвав dplyr::mutate(...) - EcologyTom; 10.04.2018

comment

другой data.table метод - setDT(df)[, id:=rleid(val), by=.(cat)] - chinsoon12; 23.05.2018

comment

Как изменить ответы library(plyr) и library(dplyr), чтобы столбец рейтинга val располагался в порядке убывания? - Przemyslaw Remin; 24.07.2018

comment

Я попытался использовать метод plyr и получил сообщение об ошибке: Ошибка в unique.default (x): unique () применяется только к векторам - кто-нибудь когда-нибудь видел, чтобы это происходило? - James S.; 17.09.2018

comment

@PrzemyslawRemin Вы можете просто отсортировать весь набор данных заранее. df <- df[order(df$val),] - Markus Graf; 01.10.2018

comment

data.table был наиболее эффективным способом, на вычисление около 17000 строк не ушло ни секунды. Используя ddply, он работал вечно, поэтому мне пришлось убить процесс R. - Markus Graf; 01.10.2018

comment

Как я могу это сделать, если у меня есть NA для переменной val, и я не хочу учитывать эти строки при создании переменной num, хотя я хочу, чтобы они отображались в моем фрейме данных с NA в столбце num? - Dekike; 15.09.2020

arrow_upward
29
arrow_downward

Для создания вопроса r-faq более полная, базовая альтернатива R с sequence и rle:

df$num <- sequence(rle(df$cat)$lengths)

что дает желаемый результат:

> df
   cat        val num
4  aaa 0.05638315   1
2  aaa 0.25767250   2
1  aaa 0.30776611   3
5  aaa 0.46854928   4
3  aaa 0.55232243   5
10 bbb 0.17026205   1
8  bbb 0.37032054   2
6  bbb 0.48377074   3
9  bbb 0.54655860   4
7  bbb 0.81240262   5
13 ccc 0.28035384   1
14 ccc 0.39848790   2
11 ccc 0.62499648   3
15 ccc 0.76255108   4
12 ccc 0.88216552   5

Если df$cat - факторная переменная, вам нужно сначала обернуть ее в as.character:

df$num <- sequence(rle(as.character(df$cat))$lengths)

Jaap 06.10.2017

comment

Только что заметили, это решение требует сортировки cat столбца? - zx8754; 26.04.2019

comment

@ zx8754 да, если вы не хотите пронумеровать последовательными повторениями cat - Jaap; 26.04.2019

arrow_upward
12
arrow_downward

Вот небольшой прием, позволяющий сортировать val внутри групп:

# 1. Data set
set.seed(100)
df <- data.frame(
  cat = c(rep("aaa", 5), rep("ccc", 5), rep("bbb", 5)), 
  val = runif(15))             

# 2. 'dplyr' approach
df %>% 
  arrange(cat, val) %>% 
  group_by(cat) %>% 
  mutate(id = row_number())

Andrii 22.09.2018

comment

Разве нельзя отсортировать по group_by? - zcoleman; 09.01.2019

arrow_upward
9
arrow_downward

Вот вариант, использующий цикл for по группам, а не по строкам (как это сделал OP)

for (i in unique(df$cat)) df$num[df$cat == i] <- seq_len(sum(df$cat == i))

alittleboy 16.10.2012

arrow_upward
9
arrow_downward

Другая dplyr возможность может быть:

df %>%
 group_by(cat) %>%
 mutate(num = 1:n())

   cat      val   num
   <fct>  <dbl> <int>
 1 aaa   0.0564     1
 2 aaa   0.258      2
 3 aaa   0.308      3
 4 aaa   0.469      4
 5 aaa   0.552      5
 6 bbb   0.170      1
 7 bbb   0.370      2
 8 bbb   0.484      3
 9 bbb   0.547      4
10 bbb   0.812      5
11 ccc   0.280      1
12 ccc   0.398      2
13 ccc   0.625      3
14 ccc   0.763      4
15 ccc   0.882      5

tmfmnk 28.06.2019

comment

В некоторых случаях вместо 1:n() использование seq_len(n()) более безопасно, в том случае, если в вашей последовательности операций у вас есть ситуация, когда n() может возвращать 0, потому что 1:0 дает вам вектор длины два, а seq_len(0) дает вектор длины нулевого, таким образом избегая длины ошибка несоответствия с mutate(). - Brian Stamper; 11.07.2019

arrow_upward
8
arrow_downward

Я хотел бы добавить вариант data.table с использованием функции rank(), которая предоставляет дополнительную возможность изменить порядок и, таким образом, делает его немного более гибким, чем решение seq_len(), и очень похоже на функции row_number в СУБД.

# Variant with ascending ordering
library(data.table)
dt <- data.table(df)
dt[, .( val
   , num = rank(val))
    , by = list(cat)][order(cat, num),]

    cat        val num
 1: aaa 0.05638315   1
 2: aaa 0.25767250   2
 3: aaa 0.30776611   3
 4: aaa 0.46854928   4
 5: aaa 0.55232243   5
 6: bbb 0.17026205   1
 7: bbb 0.37032054   2
 8: bbb 0.48377074   3
 9: bbb 0.54655860   4
10: bbb 0.81240262   5
11: ccc 0.28035384   1
12: ccc 0.39848790   2
13: ccc 0.62499648   3
14: ccc 0.76255108   4

# Variant with descending ordering
dt[, .( val
   , num = rank(desc(val)))
    , by = list(cat)][order(cat, num),]

Отредактируйте 2021-04-16, чтобы сделать переключение между нисходящим и восходящим порядком более надежным.

hannes101 18.06.2018

arrow_upward
2
arrow_downward

Использование функции rowid() в data.table:

> set.seed(100)  
> df <- data.frame(cat = c(rep("aaa", 5), rep("bbb", 5), rep("ccc", 5)), val = runif(15))
> df <- df[order(df$cat, df$val), ]  
> df$num <- data.table::rowid(df$cat)
> df
   cat        val num
4  aaa 0.05638315   1
2  aaa 0.25767250   2
1  aaa 0.30776611   3
5  aaa 0.46854928   4
3  aaa 0.55232243   5
10 bbb 0.17026205   1
8  bbb 0.37032054   2
6  bbb 0.48377074   3
9  bbb 0.54655860   4
7  bbb 0.81240262   5
13 ccc 0.28035384   1
14 ccc 0.39848790   2
11 ccc 0.62499648   3
15 ccc 0.76255108   4
12 ccc 0.88216552   5

AKRosenblad 10.01.2020

comment

Спасибо за ваш ответ, но, похоже, он уже рассмотрен в последнем предложении в ответе @mnel - eli-k; 10.01.2020

arrow_upward
1
arrow_downward

Другое базовое решение R - это split фрейм данных на cat, после чего с помощью lapply: добавить столбец с номером 1:nrow(x). Последний шаг - вернуть окончательный фрейм данных с помощью do.call, то есть:

        df_split <- split(df, df$cat)
        df_lapply <- lapply(df_split, function(x) {
          x$num <- seq_len(nrow(x))
          return(x)
        })
        df <- do.call(rbind, df_lapply)

Pittoro 27.10.2020

arrow_upward
1
arrow_downward

Очень простые, аккуратные решения.

Номер строки для всего data.frame

library(tidyverse)

iris %>%
  mutate(row_num = seq_along(Sepal.Length)) %>%
  head

    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species row_num
1            5.1         3.5          1.4         0.2     setosa       1
2            4.9         3.0          1.4         0.2     setosa       2
3            4.7         3.2          1.3         0.2     setosa       3
..           ...         ...          ...         ...     ......     ...
148          6.5         3.0          5.2         2.0  virginica     148
149          6.2         3.4          5.4         2.3  virginica     149
150          5.9         3.0          5.1         1.8  virginica     150

Номер строки по группе в data.frame

iris %>% 
  group_by(Species) %>% 
  mutate(num_in_group=seq_along(Species)) %>% 
  as.data.frame


    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species num_in_group
1            5.1         3.5          1.4         0.2     setosa            1
2            4.9         3.0          1.4         0.2     setosa            2
3            4.7         3.2          1.3         0.2     setosa            3
..           ...         ...          ...         ...     ......           ..
48           4.6         3.2          1.4         0.2     setosa           48
49           5.3         3.7          1.5         0.2     setosa           49
50           5.0         3.3          1.4         0.2     setosa           50
51           7.0         3.2          4.7         1.4 versicolor            1
52           6.4         3.2          4.5         1.5 versicolor            2
53           6.9         3.1          4.9         1.5 versicolor            3
..           ...         ...          ...         ...     ......           ..
98           6.2         2.9          4.3         1.3 versicolor           48
99           5.1         2.5          3.0         1.1 versicolor           49
100          5.7         2.8          4.1         1.3 versicolor           50
101          6.3         3.3          6.0         2.5  virginica            1
102          5.8         2.7          5.1         1.9  virginica            2
103          7.1         3.0          5.9         2.1  virginica            3
..           ...         ...          ...         ...     ......           ..
148          6.5         3.0          5.2         2.0  virginica           48
149          6.2         3.4          5.4         2.3  virginica           49
150          5.9         3.0          5.1         1.8  virginica           50

stevec 04.05.2021

Нумерация строк внутри групп во фрейме данных

Ответы (9)

Похожие вопросы