Разбор искаженного HTML с помощью Mechanize (Ruby)

Я хотел бы обработать ответ HTTP, который содержит много HTML, но сам не является допустимым файлом HTML.

Я знаю, что могу использовать Nokogiri следующим образом: page = Nokogiri::HTML.parse(page.body) однако я хотел бы иметь доступ к Mechanize методам, таким как Mechanize::Page.search. Есть ли способ работать с этим HTML как с Mechanize::Page или через какой-либо другой класс механизации?


person bgcode    schedule 16.08.2012    source источник
comment
Mechanize::Page.search -> это фактически передано методу nokogiri. Вы можете использовать «search» и «at» как с Mechanize::Page, так и с Nokogiri::HTMLDocument.   -  person pguardiario    schedule 16.08.2012


Ответы (1)


Собственно, похоже, я нашел ответ на свой вопрос:

 page  = Mechanize::Page.new(URI.parse('http://example.com'), {'content-type'=>'text/html'},(page.body), 200, agent)
person bgcode    schedule 16.08.2012