Ошибка HtmlUnit и GWT

У меня есть приложение GWT, которое я пытаюсь проиндексировать.

Я использую HtmlUnit для получения содержимого сгенерированного HTML:

WebClient webClient = new WebClient(BrowserVersion.FIREFOX
<td align="center" style="vertical-align: top;">
    <table class="refDesignGrid" cellspacing="5">
      <colgroup>
        <col/>
      </colgroup>
      <tbody align="left">
        <tr>
          <td align="left" style="vertical-align: top;">
            <table cellpadding="0" class="categoryItem" cellspacing="0">
              <tbody align="left">
                <tr>
                  <td align="left" style="vertical-align: top;">
                    <div class="header4">
                      C++
                    </div>
                  </td>
                </tr>
              </tbody>
            </table>
          </td>
          <td align="left" style="vertical-align: top;">
            <table cellpadding="0" class="categoryItem" cellspacing="0">
              <tbody align="left">
                <tr>
                  <td align="left" style="vertical-align: top;">
                    <div class="header4">
                      Java
                    </div>
                  </td>
                </tr>
              </tbody>
            </table>
          </td>
          <td align="left">
            <table cellpadding="0" class="categoryItem" cellspacing="0">
              <tbody align="left">
                <tr>
                  <td align="left" style="vertical-align: top;">
                    <div class="header4">
                      C#
                    </div>
                  </td>
                </tr>
              </tbody>
            </table>
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
      </tbody>
    </table>
  </td>
</tr>
</tbody>
</table>
</div>
6); HtmlPage refDesing = webClient.getPage("http://localhost:8080/MyGWTApp/#page2"); FileOutputStream fos1 = new FileOutputStream("D:\\work\\out\\page2.html"); fos1.write(refDesing.asXml().getBytes()); fos1.close();

Но я получаю следующую ошибку, и страница возвращается примерно пустой!

Dec 22, 2010 6:16:25 PM com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl notify
WARNING: Expected content type of 'application/javascript' or 'application/ecmascript' for remotely loaded JavaScript element at 'http://xxxxxxxxxxxx/xxxxxxxx/xxxxxxxx/xxxxxxxxxx.nocache.js', but got 'application/x-javascript'.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [485:24] Error in expression. Invalid token "=". Was expecting one of: <S>, <COMMA>, "/", <PLUS>, "-", <HASH>, <STRING>, ")", <URI>, "inherit", <EMS>, <EXS>, <LENGTH_PX>, <LENGTH_CM>, <LENGTH_MM>, <LENGTH_IN>, <LENGTH_PT>, <LENGTH_PC>, <ANGLE_DEG>, <ANGLE_RAD>, <ANGLE_GRAD>, <TIME_MS>, <TIME_S>, <FREQ_HZ>, <FREQ_KHZ>, <DIMENSION>, <PERCENTAGE>, <NUMBER>, <FUNCTION>, <IDENT>.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [485:29] Error in style rule. Invalid token "\n". Was expecting one of: "}", ";".
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler warning
WARNING: CSS warning: null [485:29] Ignoring the following declarations in this rule.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [518:24] Error in expression. Invalid token "=". Was expecting one of: <S>, <COMMA>, "/", <PLUS>, "-", <HASH>, <STRING>, ")", <URI>, "inherit", <EMS>, <EXS>, <LENGTH_PX>, <LENGTH_CM>, <LENGTH_MM>, <LENGTH_IN>, <LENGTH_PT>, <LENGTH_PC>, <ANGLE_DEG>, <ANGLE_RAD>, <ANGLE_GRAD>, <TIME_MS>, <TIME_S>, <FREQ_HZ>, <FREQ_KHZ>, <DIMENSION>, <PERCENTAGE>, <NUMBER>, <FUNCTION>, <IDENT>.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [518:29] Error in style rule. Invalid token "\n  ". Was expecting one of: "}", ";".
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler warning
WARNING: CSS warning: null [518:29] Ignoring the following declarations in this rule.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [541:24] Error in expression. Invalid token "=". Was expecting one of: <S>, <COMMA>, "/", <PLUS>, "-", <HASH>, <STRING>, ")", <URI>, "inherit", <EMS>, <EXS>, <LENGTH_PX>, <LENGTH_CM>, <LENGTH_MM>, <LENGTH_IN>, <LENGTH_PT>, <LENGTH_PC>, <ANGLE_DEG>, <ANGLE_RAD>, <ANGLE_GRAD>, <TIME_MS>, <TIME_S>, <FREQ_HZ>, <FREQ_KHZ>, <DIMENSION>, <PERCENTAGE>, <NUMBER>, <FUNCTION>, <IDENT>.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [541:29] Error in style rule. Invalid token "\n  ". Was expecting one of: "}", ";".
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler warning
WARNING: CSS warning: null [541:29] Ignoring the following declarations in this rule.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [951:24] Error in expression. Invalid token "=". Was expecting one of: <S>, <COMMA>, "/", <PLUS>, "-", <HASH>, <STRING>, ")", <URI>, "inherit", <EMS>, <EXS>, <LENGTH_PX>, <LENGTH_CM>, <LENGTH_MM>, <LENGTH_IN>, <LENGTH_PT>, <LENGTH_PC>, <ANGLE_DEG>, <ANGLE_RAD>, <ANGLE_GRAD>, <TIME_MS>, <TIME_S>, <FREQ_HZ>, <FREQ_KHZ>, <DIMENSION>, <PERCENTAGE>, <NUMBER>, <FUNCTION>, <IDENT>.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [951:29] Error in style rule. Invalid token "\n". Was expecting one of: "}", ";".
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler warning
WARNING: CSS warning: null [951:29] Ignoring the following declarations in this rule.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [977:24] Error in expression. Invalid token "=". Was expecting one of: <S>, <COMMA>, "/", <PLUS>, "-", <HASH>, <STRING>, ")", <URI>, "inherit", <EMS>, <EXS>, <LENGTH_PX>, <LENGTH_CM>, <LENGTH_MM>, <LENGTH_IN>, <LENGTH_PT>, <LENGTH_PC>, <ANGLE_DEG>, <ANGLE_RAD>, <ANGLE_GRAD>, <TIME_MS>, <TIME_S>, <FREQ_HZ>, <FREQ_KHZ>, <DIMENSION>, <PERCENTAGE>, <NUMBER>, <FUNCTION>, <IDENT>.
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler error
WARNING: CSS error: null [977:29] Error in style rule. Invalid token "\n". Was expecting one of: "}", ";".
Dec 22, 2010 6:16:27 PM com.gargoylesoftware.htmlunit.DefaultCssErrorHandler warning
WARNING: CSS warning: null [977:29] Ignoring the following declarations in this rule.

ИЗМЕНИТЬ:

Что я имею в виду под приблизительно пустым, так это снимок возвращенного HTML:

Обратите внимание, что не все данные, отображаемые на исходной странице (которая исходная получена из БД), возвращаются HtmlUnit. Также что "?" означает? Я не думаю, что это означает какую-либо ошибку кодирования, потому что все слова являются четкими символами ASCII.

<td align="center" style="vertical-align: top;">
    <table class="refDesignGrid" cellspacing="5">
      <colgroup>
        <col/>
      </colgroup>
      <tbody align="left">
        <tr>
          <td align="left" style="vertical-align: top;">
            <table cellpadding="0" class="categoryItem" cellspacing="0">
              <tbody align="left">
                <tr>
                  <td align="left" style="vertical-align: top;">
                    <div class="header4">
                      C++
                    </div>
                  </td>
                </tr>
              </tbody>
            </table>
          </td>
          <td align="left" style="vertical-align: top;">
            <table cellpadding="0" class="categoryItem" cellspacing="0">
              <tbody align="left">
                <tr>
                  <td align="left" style="vertical-align: top;">
                    <div class="header4">
                      Java
                    </div>
                  </td>
                </tr>
              </tbody>
            </table>
          </td>
          <td align="left">
            <table cellpadding="0" class="categoryItem" cellspacing="0">
              <tbody align="left">
                <tr>
                  <td align="left" style="vertical-align: top;">
                    <div class="header4">
                      C#
                    </div>
                  </td>
                </tr>
              </tbody>
            </table>
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
        <tr>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
          <td>
            ?
          </td>
        </tr>
      </tbody>
    </table>
  </td>
</tr>
</tbody>
</table>
</div>

person Muhammad Hewedy    schedule 22.12.2010    source источник


Ответы (2)


HtmlUnit может быть немного болтливым и, в частности, может сделать вещи хуже, чем они есть на самом деле.

Создайте эти два класса:

import org.w3c.css.sac.CSSException;
import org.w3c.css.sac.CSSParseException;
import com.gargoylesoftware.htmlunit.DefaultCssErrorHandler;

/*
 * get rid of warnings... and provide a place to hang a break point
 */
public class QuietCssErrorHandler
    extends DefaultCssErrorHandler
{

    @Override public void error( CSSParseException e ) throws CSSException 
    {
        super.error( e ) ;
    }

    @Override public void fatalError( CSSParseException e ) throws CSSException 
    { 
        super.fatalError( e ) ; 
    }

    @Override public void warning( CSSParseException e ) throws CSSException 
    {
    }
}

а также

import com.gargoylesoftware.htmlunit.IncorrectnessListener;

public class SilentIncorrectnessListener
    implements IncorrectnessListener
{
    @Override public void notify( String message, Object origin ) 
    {
        // do nuttin' honey!
    }
}

затем, когда вы создаете свой WebClient...

wc.setIncorrectnessListener( new SilentIncorrectnessListener() ) ;
wc.setCssErrorHandler( new QuietCssErrorHandler() ) ;

И тогда вы должны получать меньше предупреждений.

Что касается "примерно пустого"... что это значит?

person Rodney Gitzel    schedule 22.12.2010
comment
Эти обработчики показывают мне те же ошибки при регистрации в экземпляре WebClient. Пожалуйста, смотрите мое редактирование о примерно пустом - person Muhammad Hewedy; 23.12.2010

Ответ находится здесь: http://htmlunit.sourceforge.net/faq.html#AJAXDoesNotWork

Основной поток, использующий HtmlUnit, может завершать выполнение, прежде чем разрешить выполнение фоновых потоков. У вас есть несколько вариантов:

webClient.setAjaxController (новый NicelyResynchronizingAjaxController()); сообщит вашему экземпляру WebClient повторно синхронизировать асинхронный XHR. webClient.waitForBackgroundJavaScript(10000); или webClient.waitForBackgroundJavaScriptStartingBefore(10000); сразу после получения страницы и перед манипулированием ею. Явно подождите, пока условие, которое ожидается, будет выполнено при запуске вашего JavaScript, например.

//try 20 times to wait .5 second each for filling the page.
for (int i = 0; i < 20; i++) {
    if (condition_to_happen_after_js_execution) {
         break;
     }
     synchronized (page) {
         page.wait(500);
     }
}
person Muhammad Hewedy    schedule 20.02.2011
comment
Хотя теоретически это может ответить на вопрос, было бы предпочтительнее включить сюда основные части ответа и предоставить ссылку для справки. - person Bill the Lizard; 27.10.2011