Мне нужно создать синтаксический анализатор html, который с учетом URL-адреса блога возвращает список со всеми сообщениями на странице.
- т.е. если на странице 10 сообщений, она должна вернуть список из 10 элементов div, где каждый элемент div содержит h1 и p сильный>
Я не могу использовать его rss-канал, потому что мне нужно точно знать, как он выглядит для пользователя, есть ли в нем какая-либо реклама, изображение и т. д., и, в отличие от некоторых блогов, есть только сводка его содержания, а в ленте есть все, наоборот.
Во всяком случае, я сделал один, который загружает его ленту и выполняет поиск аналогичного контента в html, он очень хорошо работает для некоторых блогов, но не для других.
Я не думаю, что смогу сделать синтаксический анализатор, который работает для 100% анализируемых им блогов, но я хочу сделать как можно лучше.
Каким должен быть лучший подход? Ищите теги, у которых атрибут id равен «post», «content»? Ищите теги p? и т. д. и т. д. и т. д.
Заранее благодарю за любую помощь!