Разбор искаженного HTML с помощью Mechanize (Ruby)

Я хотел бы обработать ответ HTTP, который содержит много HTML, но сам не является допустимым файлом HTML.

Я знаю, что могу использовать Nokogiri следующим образом: page = Nokogiri::HTML.parse(page.body) однако я хотел бы иметь доступ к Mechanize методам, таким как Mechanize::Page.search. Есть ли способ работать с этим HTML как с Mechanize::Page или через какой-либо другой класс механизации?

ruby web-scraping mechanize

bgcode 16.08.2012 источник

comment

Mechanize::Page.search -> это фактически передано методу nokogiri. Вы можете использовать «search» и «at» как с Mechanize::Page, так и с Nokogiri::HTMLDocument. - pguardiario 16.08.2012

Ответы (1)

arrow_upward
2
arrow_downward

Собственно, похоже, я нашел ответ на свой вопрос:

 page  = Mechanize::Page.new(URI.parse('http://example.com'), {'content-type'=>'text/html'},(page.body), 200, agent)

bgcode 16.08.2012

Разбор искаженного HTML с помощью Mechanize (Ruby)

Ответы (1)

Похожие вопросы