Сайты парсинга, требующие поддержки javascript

Возможный дубликат:
Скребок экрана с веб-страницы с большим количеством Javascript

Я просто хочу выполнять такие задачи, как ввод формы и веб-скрапинг, но на сайтах, требующих поддержки javascript. И мне также нужно вводить формы, парсить и т. Д. В одном сеансе. В идеале мне нужен способ управления веб-браузером из командной строки. И я также хочу использовать для всего этого только Linux, поэтому я не могу использовать .NET.

Я нашел библиотеку веб-браузера для Python, но ее возможности выглядят очень ограниченными. Было бы замечательно, если бы это могло взаимодействовать с Mechanize и BeautifulSoup. Какие-либо предложения? Спасибо!


person Lin    schedule 11.08.2009    source источник


Ответы (2)


Конечно, вы могли бы написать XUL-приложение с Mozilla (запускать его с Firefox, Xulrunner и т. Д.), Которое создает скрипты для веб-браузера. Для таких задач обычно используется Javascript.

Я обнаружил, что сложно подавить все виды диалоговых окон, которые в противном случае создавал бы браузер - вы фактически должны переопределить поведение классов сервера XPCOM, которые вызываются для каждого типа диалога, и есть много разных единицы (например, если ваш сайт решает перенаправить на сайт https с просроченным сертификатом).

Конечно, вы НЕ должны использовать такой механизм для нарушения политики любого сайта в отношении использования роботами. Обычно вы никогда не должны отправлять форму с помощью робота.

person MarkR    schedule 11.08.2009
comment
Никогда раньше не знал о XUL. Спасибо, посмотрю. - person Lin; 12.08.2009