Я пытаюсь начать заниматься веб-скрейпингом. Теперь моя цель — получить фильмы с моим личным рейтингом со страницы moviepilot.de.
Для этого мне нужно получить доступ к следующей странице: http://www.moviepilot.de/users/schlusie/rated/movies. Но без аутентификации это невозможно.
Я читал, что пакет httr
может сделать что-то подобное, сохранить его как обработчик с помощью handle
, а затем перейти по домашней странице с вашей регистрационной информацией. И, таким образом, доступ к нужной странице. Это должно выглядеть так:
library(httr)
mp = handle("http://moviepilot.de")
# authentication step
GET(handle=mp, path="/users/schlusie/rated/movies")
Это страница входа: http://www.moviepilot.de/login
Может кто-нибудь, пожалуйста, дайте мне какие-нибудь указатели?
httr
, а неRCurl
напрямую (httr
в значительной степени является оболочкойRCurl
). Взгляните на этот пост SO и посмотрите, сможете ли вы модифицировать его для своих нужд. - person hrbrmstr   schedule 13.04.2014httr
вам не нужно ничего делать, чтобы файлы cookie сохранялись между запросами, он делает это по умолчанию. Чтобы выяснить, какой запрос вам нужно отправить для входа в систему, вам нужно проверить html или использовать функции отладки браузера. - person hadley   schedule 14.04.2014POST
для доступа к странице? - person schlusie   schedule 14.04.2014