У меня есть два data.frames с шатким форматированием. Один из них — большая ссылка, а другой — подмножество, которое я хотел бы найти для извлечения дополнительных данных из ссылки, но форматирование затруднено.
Меньшее подмножество выглядит так:
> head(lookup, n = 2)
gene_id class_code nearest_ref_id
1 XLOC_001184 <NA> <NA>
2 XLOC_001225 <NA> <NA>
> gene_short_name
1 ORF%20Transcript_11308%7Cg.37058%20Transcript_11308%7Cm.37058%20type%3Acomplete%20len%3A195%20%28%2B%29
2 ORF%20Transcript_11347%7Cg.37236%20Transcript_11347%7Cm.37236%20type%3A5prime_partial%20len%3A87%20%28%2B%29
locus length coverage
1 Transcript_11308:0-1727 NA NA
2 Transcript_11347:0-1584 NA NA
И ссылка выглядит следующим образом (Примечание: некоторые последовательности были удалены вручную, чтобы они не были слишком длинными для отображения здесь):
> head(refRna, n=2)
seq_names sequences
1 Transcript_0 len=550 GTTTTATTTGTTGTTGTTGTTGTTTTTATATGTA
2 Transcript_1 len=760 GACCACACCACTCGTCTGAATTCTCGATGTGGAA
В reference$seq_names
есть пробел, :
в lookup$locus
с некоторыми дополнительными цифрами после него.
Некоторые из reference$seq_names
имеют дополнительную информацию с большим количеством пробелов. Например:
4 Transcript_3 len=440 CDS=1-439 exon=0-440 five_prime_UTR=439-440 gene=0-440 mRNA=0-440 three_prime_UTR=0-1
Бит Transcript_1234
является уникальным идентификатором.
В конечном итоге я хотел бы получить reference$sequences
для каждого lookup$locus
и добавить его в новый столбец lookup$sequence
или создать новый фрейм данных только с битами XLOC_1234
, Transcript_1234
и соответствующей последовательностью. Ценю любые советы.