Использование Casparjs для очистки правительственной базы данных

Каждый сайт Superfund имеет уникальный идентификатор (например, KYD980501076), и его можно закодировать в URL-адресе для создания страницы результатов: http://iasgovvirpub.epa cerclis?fac_search=site_epa_id&fac_value=KYD980501076&fac_search_type=Начало+С&postal_code=&location_address=&add_search_type=Начало+С&city_name=&county_name=&state_code=&program_search=1&report=2&page_no=1&output_sql_switch=TRUE&CLIS_type=>

Для каждого из сайтов Superfund я хотел бы зафиксировать название, город, штат, широту и долготу.

Приведенный ниже код работает для поиска всех TD, но мне не удалось заставить его просматривать только таблицу с классом «результат».

Любое понимание очень ценится...

(следующими шагами будет добавление результатов в файл json)


 var casper = require('casper').create();


function getTd() {
    var td = document.querySelectorAll('TD');    

  return Array.prototype.map.call(td, function(e) {    
     return e.innerText   
  });    
}

var url = "http://iaspub.epa.gov/enviro/efsystemquery.cerclis?fac_search=site_epa_id&fac_value=KYD980501076&fac_search_type=Beginning+With&postal_code=&location_address=&add_search_type=Beginning+With&city_name=&county_name=&state_code=&program_search=1&report=2&page_no=1&output_sql_switch=TRUE&database_type=CERCLIS";

  casper.start(url);

 casper.then(function()  {
   td = this.evaluate(getTd);    
 });

 casper.run(function()  {
   this.echo(td.join('  '))
  this.exit();
});

person Matt H    schedule 17.01.2014    source источник
comment
Соответствующий ответ можно найти здесь: stackoverflow.com/questions/21288883/   -  person Matt H    schedule 24.02.2014


Ответы (1)


если вы готовы попробовать другое решение, вы можете использовать phantomjscloud.com и следовать пример "Pinterest to JSON" на странице документации.

если вы это сделаете, вы можете написать свой синтаксический анализатор в jquery, и ваши результаты будут возвращены как json.

отказ от ответственности: я работал над phantomjscloud

person JasonS    schedule 17.01.2014