Scrapy- Как проверить, опубликована ли новая запись в блоге?

Scrapy — довольно интересный фреймворк. Пара вопросов у меня теперь есть:

1) В более раннем вопросе я выяснил, как извлечь все сообщения в блоге с помощью scrapy, но в решении есть сбой. Видите ли, сообщение в блоге обычно имеет URL-адрес «продолжить чтение», который при нажатии показывает вам полное сообщение. Итак, как мне извлечь весь пост?.. Это мой код

2) Как я могу закодировать паука для проверки нового сообщения в блоге с помощью scrapy?

3) Как очистить извлеченные данные? Один из подходов, который я придумал, заключался в том, чтобы импортировать библиотеку регулярных выражений в класс паука scrapy. Но когда я пытаюсь выполнить сканирование, я получаю сообщение об ошибке импорта, что модуль регулярного выражения не найден? Значит ли это, что я не могу выполнить очистку данных в пауке? У меня есть, чтобы написать отдельный класс для него?

Какие-либо предложения?


person mnm    schedule 02.10.2015    source источник
comment
Чтобы проверить наличие новой записи в блоге, вам необходимо извлечь данные из RSS-канала блога. Если вы не ограничены скраппингом, есть несколько программ для планирования извлечения и очистки данных. Например, datascraping.co , import.io и Kimono.   -  person Vikash Rathee    schedule 09.11.2015
comment
@VikashRathee спасибо, что нашли время ответить. Но я ищу базовую логику, которая может выполнить эту задачу, а не какой-то программный API.   -  person mnm    schedule 11.11.2015