Веб-парсинг изображения

Я начинающий.

Я создал небольшой код для парсинга веб-страниц с помощью rvest. Я нашел очень удобный код %>% html_node ()%>% html_text ()%>% as.numeric (), но мне не удалось правильно изменить код для парсинга url изображения.

Мой код для URL-адреса веб-скрапинга изображения:

UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")

img <- UrlPage%>% html_node (". wp-image-5984")%>% html_attrs ()

Результат:

class "Aligncenter size-full wp-image-5984" `enter code here`title "Blog gdp 2012_10_1" alt '" src "Http://eyeonhousing.files.wordpress.com/2012/11/blog-gdp-2012_10_1.jpg" height "337" width "450"

Вопрос. Как получить единственную ссылку без других атрибутов? (Только )

Пожалуйста, помогите мне найти решение. Спасибо!


person Welcome1    schedule 07.06.2015    source источник


Ответы (2)


Вам необходимо указать, какой атрибут вы хотите извлечь в качестве параметра для html_attr. Кроме того, вы можете сделать свой селектор CSS, параметр для html_node, более конкретным. Вот мой код:

library(rvest)

UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
ImgNode <- UrlPage %>% html_node("img.wp-image-5984")
link <- html_attr(ImgNode, "src")

Переменная ссылки теперь содержит URL-адрес.

Вы можете найти достойный справочник по селекторам css здесь: http://www.w3schools.com/cssref/css_selectors.asp

Также в документации rvest есть несколько хороших примеров использования его функций: http://cran.r-project.org/web/packages/rvest/rvest.pdf

person klib    schedule 07.06.2015
comment
re .: Переменная ссылки теперь содержит URL. Как мне теперь загрузить само изображение в файл на жестком диске или сохранить в переменной R. - person hackR; 05.01.2018

клиб прав. только что обновил html (устаревший) до read_html и добавил команду загрузки.

library(rvest)    

myurl <- read_html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
mynode <- myurl %>% html_node("img.wp-image-5984")
link <- html_attr(mynode, "src")
download.file(url = link,destfile = "test.jpg")
person doubleh2    schedule 21.01.2018