войти на страницу в R httr moviepilot

Я пытаюсь начать заниматься веб-скрейпингом. Теперь моя цель — получить фильмы с моим личным рейтингом со страницы moviepilot.de.

Для этого мне нужно получить доступ к следующей странице: http://www.moviepilot.de/users/schlusie/rated/movies. Но без аутентификации это невозможно.

Я читал, что пакет httr может сделать что-то подобное, сохранить его как обработчик с помощью handle, а затем перейти по домашней странице с вашей регистрационной информацией. И, таким образом, доступ к нужной странице. Это должно выглядеть так:

library(httr)
mp = handle("http://moviepilot.de")
# authentication step
GET(handle=mp, path="/users/schlusie/rated/movies")

Это страница входа: http://www.moviepilot.de/login

Может кто-нибудь, пожалуйста, дайте мне какие-нибудь указатели?


person schlusie    schedule 13.04.2014    source источник
comment
Технически это не дубликат -- Как использовать файлы cookie с RCurl? -- так как вы используете httr, а не RCurl напрямую (httr в значительной степени является оболочкой RCurl). Взгляните на этот пост SO и посмотрите, сможете ли вы модифицировать его для своих нужд.   -  person hrbrmstr    schedule 13.04.2014
comment
С httr вам не нужно ничего делать, чтобы файлы cookie сохранялись между запросами, он делает это по умолчанию. Чтобы выяснить, какой запрос вам нужно отправить для входа в систему, вам нужно проверить html или использовать функции отладки браузера.   -  person hadley    schedule 14.04.2014
comment
Спасибо. Im король новичок в этом. Знаете ли вы какие-нибудь учебники или помощники, как проверить, что мне нужно POST для доступа к странице?   -  person schlusie    schedule 14.04.2014
comment
Я предлагаю использовать инструменты разработчика (например, в Google Chrome > Вид > Разработчик > Инструменты разработчика) в разделе Сеть, где вы можете наблюдать за отправленными запросами. Вам повезло с вашим проектом? Я тоже пробую аналогичную задачу.   -  person Verena Haunschmid    schedule 23.01.2016