Я пытаюсь очистить содержимое этого веб-сайта с помощью rvest
(< strong> не связанных статей / рефератов, а только количество, название, авторов и т. д.).
По умолчанию на странице отображаются только документы 2016 года, и очистить данные за 2016 год не было проблемой. Я надеялся, что URL-адрес изменится после изменения «2016» на «все годы», но он остался прежним. Я обратился к html_form
. Изучив «ресурсы» веб-страницы, я обнаружил, что соответствующее имя входа - filteryear
.
R-код:
library(rvest)
rdc <- html_session("https://sfb649.wiwi.hu-berlin.de/fedc/discussionPapers_formular_content.php")
form <- html_form(rdc)
form <- set_values(form, filteryear = "all years")
#Error: Unknown field names: filteryear
Очевидно, filteryear
не является частью формы. С ограниченными знаниями HTML, которые у меня есть, я почти уверен, что нижеследующее говорит мне, что форма состоит из трех входов: filterTypeName
, filterName
и filteryear
.
HTML из ресурса:
<form action='discussionPapers_formular_content.php' method='post'>
<select name='filterTypeName'>
<option value='AUTHORS'>Author</option>
<option value='PROJECT'>Project Code</option>
...
<option value='JEL'>JEL</option
</select> </td> # Is this </td> the problem?!
<td valign='baseline'>
<input type='text' size='35' name='filterName' >
</td>
<td valign='baseline'>
<select name='filteryear'>
<option value='2005'>2005</option>
...
<option value='2016'>2016</option>
<option value='all'>all years</option>
</select>
</td>
<td valign='baseline'>
<INPUT type='submit' value='Search' name='B1'></INPUT>
</td></tr>
</form>
Почему html_form
не распознает эту форму полностью? И, что более важно, есть ли способ решить эту проблему?