У меня есть исходный код HTML, и я должен получить информационный текст в HTML. Я не могу использовать DOM, потому что документ неправильно сформирован.
Возможно, источник мог измениться позже, я не могу быть в курсе этой ситуации. Таким образом, решение этой проблемы должно быть целесообразным для большинства ситуаций.
Я получаю исходный код с помощью curl и отредактирую его с помощью функции preg_match_all и регулярных выражений.
Источник:
...<TR Class="Head1">
<TD width="15%"><font size="12">Name</font></TD>
<TD>: </TD>
<TD align="center"><font color="red">Alex</font></TD>
<TD width="25%"><b>Job</b></TD>
<TD>: </B></TD>
<TD align="center" width="25%"><font color="red">Doctor</font></TD>
</TR>
< br /> ...
... <TR Class="Head2">
<TD width="15%" align="left">Age</B></TD>
<TD>: </TD>
<TD align="center"><font color="red">32</font></TD>
<TD width="15%"><font size="10">data</TD></font>
<TD> </B></TD>
<TD width="40%"> </TD>
/> </TR>
...
Как мы видели, источник не является корректным. На самом деле ужасно! Но я ничего не могу сделать. Источник длиннее этого.
Как я могу получить данные из источника? Я могу удалить все HTML-коды, но как узнать последовательность данных? Что я могу сделать с preg_match_all и regex? Что еще я могу сделать?
Я жду твоей помощи.
DOM
? Вы можете подавить ошибки, используя@
, и даже если он неправильно сформирован, он все равно работает. - person Jake N   schedule 27.01.2011