RSelenium: парсинг ссылок на странице

Я относительно новичок в RSelenium. Мне удалось войти на сайт, с которого мне нужно вытащить все веб-ссылки.

Страница обзора выглядит так:

<a title="Search 'A2A'" href="/search?company=a2a&amp;rf=13">A2A</a>
<a title="Search 'ABB'" href="/search?company=abb&amp;rf=13">ABB</a>
<a title="Search 'Achmea'" href="/search?company=achmea&amp;rf=13">Achmea</a>

и т.д ... это продолжается еще ~ 6000 ссылок

Я попытался использовать следующую строку, чтобы получить все ссылки, но это не сработало:

remDr$findElement(using="link text", value="href")

Я был бы очень благодарен, если бы кто-нибудь показал мне, как получить все ссылки, включая названия компаний, такие как «A2A», «ABB», «Achmea» и т. Д.

С уважением, mr_bungles


person mr_bungles    schedule 06.08.2017    source источник


Ответы (1)


Я предлагаю вам использовать rvest и tidyverse вместе с RSelenium.

library(tidyverse)
library(rvest)

url <- 'add your url here'

pg <- read_html(url)

tbl <- tibble(
    text = pg %>% html_nodes('add css selector here') %>% html_text()
    link = pg %>% html_nodes('add css selector here') %>% html_attr('href')
)
person ryanhnkim    schedule 01.08.2018