Использование R для извлечения соответствующих данных из нескольких онлайн-файлов XML для создания базы данных
Я только начал изучать R для анализа текста. Вот что я пытаюсь сделать: я пытаюсь использовать rvest in r для создания базы данных CSV с резюме счетов 116-го Конгресса из онлайн-файлов XML. В базе данных должно быть два столбца:
- Название законопроекта.
- Сводный текст законопроекта.
Источник веб-сайта: https://www.govinfo.gov/bulkdata/BILLSUM/116/hr
У меня проблема
Я хотел бы собрать все выступления, которые вернулись из поиска. Поэтому мне нужно очистить несколько ссылок. Но я не знаю, как гарантировать, что r запускает функцию с серией разных ссылок, а затем извлекает ожидаемые данные.
Я пробовал следующий код, но не уверен, как именно применить их к моей конкретной проблеме. Кроме того, я получил отчет об ошибке моего кода. Пожалуйста, посмотрите мой код ниже. Спасибо за любую помощь заранее!
library(rvest)
library(tidyverse)
library(purrr)
html_source <- "https://www.govinfo.gov/bulkdata/BILLSUM/116/hr?page="
map_df(1:997, function(i) {
cat(".")
pg <- read_html(sprintf(html_source, i))
data.frame(title = html_text(html_nodes(pg, "title")),
bill_text %>% html_node("summary-text") %>% html_text(),
stringsAsFactors = FALSE)
}) -> Bills
Ошибка в open.connection (x, "rb"): ошибка HTTP 406.