добавить сегменты к диаграмме рассеяния

(это следует за ggplot2 loess Q, на который я получил хороший ответ) - приводит к этому сюжету:

изображение ответа на первый вопрос

Мои знания R довольно ограничены (извините!)

Я рисую разброс, используя данные из таблицы data1.

data1<-NaRV.omit(data[,c(2,3,7,10)]) #(2=start, 3=end, 7=value, 10=type)
ylabs='E / A - ratio'
p1<-ggplot(data1, aes(x=start, y=value)) +
ylim(0,5) +
geom_point(shape=points, col=pointcol1, na.rm=T) +
geom_hline(aes(yintercept=1, col=linecol)) +
geom_smooth(method="loess", span=spanv, fullrange=F, se=T, na.rm=T) +
#
xlab(xlabs) +
ylab(ylabs)

В некоторых регионах нет данных (включая одну большую область посередине, но также и более мелкие дискретные области), где я хотел бы нарисовать цветные сегменты при y = 0, чтобы проиллюстрировать этот факт.

Я объединил оба типа данных в одну таблицу со столбцом метки # 10 = 'type' (содержимое для scatter data = 'cnv' и для no-data = 'nregion'). nregions имеют 0 в столбце значений.

Как я могу взять только данные cnv для разброса и только данные nregion для рисования сегментов; оба на одном участке?

Я нашел geom_segment:

+ geom_segment(aes(x=data1$start, y=0, xend=data1$end, yend=0))

НО я не нашел способа подмножества для каждого подзаголовка ggplot.

Спасибо

#### follow up on @gauden solution

Привет @gauden, я попробовал ваш подход, и он частично сработал. Моя проблема в том, что я не могу разделить свои данные так же хорошо, как вы, используя] -1; 0], потому что мои n-области разбросаны (представлены синими точками и линиями на рисунке) и различны для каждого нового графика, как на этом изображении:

целевое изображение с несколькими сегментами

Следовательно, лесс по-прежнему проходит через большую территорию. Как предотвратить появление лёсса в регионах?

#############################
## plot settings (edit below)
spanv<-0.1
pointcol1="#E69F00"
pointcol2="#56B4E9"
pointcol3="#009E73"
points=20
onecol="green"
colnreg="blue"
xlabs=paste(onechr, " position", " (loess-span=", spanv, ")", sep="")

##### end edit ##############

########################################################
## using the center coordinate of each segment and points

## prepare plot #1
# plot E / A - ratio
## draw loess average for cnv
## draw line for nregion
ylabs='E / A - ratio'
p1<-ggplot(chrdata, aes(x=start+1000, y=E.R, group=type, label=type)) +
ylim(0,5) +
geom_hline(aes(yintercept=1, col=onecol)) +
geom_point(data = chrdata[chrdata$type != 'nregion',], shape=points, col=pointcol2) +
geom_smooth(data = chrdata[chrdata$type != 'nregion',], method="loess", span=spanv) +
geom_point(data = chrdata[chrdata$type == 'nregion',], col=colnreg) +
geom_segment(data = chrdata[chrdata$type == 'nregion',], aes(x=start, y=E.R, xend=end, yend=E.R), colour=colnreg, linetype=1, size=1) +
xlab(xlabs) +
ylab(ylabs)

person splaisan    schedule 10.05.2012    source источник


Ответы (1)


РЕДАКТИРОВАТЬ: полная версия для уточнения запроса

Вот мой целевой график: многосегментный график рассеяния

И вот код, который его производит:

library("ggplot2")

# CREATE DATA FRAME
# This is the sort of data that I understand you to have
start <- rnorm(200)
value <- rnorm(200) 
df <- data.frame( cbind(start, value) )
df[ df$start > -0.6 & df$start <= 0, "value"] <- 0
df[ df$start > -1.6 & df$start <= -1.3, "value"] <- 0
df[ df$start > 0.9 & df$start <= 1.2, "value"] <- 0

df$type <- rep('cnv', 200)
df[ df$value == 0, "type"] <- 'nregion'
df[ df$value != 0, "type"] <- 'cnv'

# SORT the data frame by value so that the 'cnv' and 
# 'nregion' chunks become contiguous
df <- df[order(start),]

# See note below. 
r <- rle(df$type)
df$label <- rep(seq(from=0, length=length(r$lengths)), times=r$lengths)

# set up plot with colour aesthetic to distinguish the three regions
# playing around with colour and group produces different effects
p <- ggplot(df, aes(x = start, 
                    y= value,
                    colour=type,
                    group = label)
            )
p <- p + theme_bw()
# draw points outside the 'nregion'
p <- p + geom_point( data = df[df$type != 'nregion',] )

# draw smoothed lines outside the 'nregion'
p <- p + geom_smooth( data = df[df$type != 'nregion',] )


# plot zero points inside the 'nregion' 
p <- p + geom_smooth( data = df[df$type == 'nregion',], size = 2 )
p

Использование rle дополнительно объясняется в ответе на дополнительный вопрос

person daedalus    schedule 11.05.2012
comment
это именно то, что я искал, огромное спасибо @gauden. Теперь мне нужно ТОЛЬКО понять R-синтаксис и преобразовать его в мои собственные данные. Отличная поддержка !! - person splaisan; 14.05.2012
comment
Уважаемый @gauden, я добавил дополнительную информацию в свой верхний пост со ссылкой на новую картинку. (PS: как я могу поставить галочку на Stackoverflow? У меня недостаточно очков для голосования ‹15?) - person splaisan; 15.05.2012
comment
ты волшебник !! Я также восхищаюсь совместными усилиями нескольких других людей, ответивших на ваш дополнительный вопрос (как я могу лучше всех вас вознаградить?). Теперь это полностью соответствует моим потребностям. Я понимаю, что мне еще предстоит пройти долгий путь в R, имея только базовые знания Perl, которые здесь нелегко перевести. Векторная структура противоречит моему разуму биолога, и мне всегда приходится бороться, чтобы понять ее. В любом случае, я желаю вам очень хорошего дня и огромное СПАСИБО за помощь и обучение. - person splaisan; 17.05.2012
comment
Рад, что это сработало для вас. Просто продолжайте отвечать и задавать вопросы по SO, и это награда для всех :) Вскоре я удалю свои болтливые комментарии здесь, чтобы уменьшить беспорядок ... - person daedalus; 17.05.2012