пожалуйста, вы можете мне помочь еще раз?
У меня есть фрейм данных, который содержит 4 столбца, которые являются либо символом гена, либо рангом, который я присвоил символу гена следующим образом:
mb_rank mb_gene ts_rank ts_gene
[1] 1 BIRCA 1 MYCN
[2] 2 MYCN 2 MOB4
[3] 3 ATXN1 3 ABHD17C
[4] 4 ABHD17C 4 AEBP2
5 etc... for up to 6000 rows in some data sets.
the ts columns are usually a lot longer than the mb columns.
Я хочу упорядочить данные так, чтобы не дубликаты удалялись, оставляя только гены, которые появляются в обоих столбцах фрейма данных, например.
mb_rank mb_gene ts_rank ts_gene
[1] 2 MYCN 1 MYCN
[2] 4 ABHD17C 3 ABHD17C
В этом примере желаемого результата недублированные гены были удалены, остались только гены, которые изначально были в обоих списках.
Я пробовал много вещей, таких как:
`df[df$mb_gene %in% df$ts_gene,]`
но это не работает и, кажется, попадает в какой-то ген 2) я пытался написать функцию IF
, но мои навыки слишком ограничены.
Я надеюсь, что описал это достаточно хорошо, но если я могу что-то уточнить, пожалуйста, спрашивайте, я действительно застрял. Заранее спасибо!
dput(head(df,n))
для лучшей воспроизводимости. - person NelsonGon   schedule 16.04.2020df[df$mb_gene == df$ts_gene,]
? - person bouncyball   schedule 16.04.2020