Scrapy — довольно интересный фреймворк. Пара вопросов у меня теперь есть:
1) В более раннем вопросе я выяснил, как извлечь все сообщения в блоге с помощью scrapy, но в решении есть сбой. Видите ли, сообщение в блоге обычно имеет URL-адрес «продолжить чтение», который при нажатии показывает вам полное сообщение. Итак, как мне извлечь весь пост?.. Это мой код
2) Как я могу закодировать паука для проверки нового сообщения в блоге с помощью scrapy?
3) Как очистить извлеченные данные? Один из подходов, который я придумал, заключался в том, чтобы импортировать библиотеку регулярных выражений в класс паука scrapy. Но когда я пытаюсь выполнить сканирование, я получаю сообщение об ошибке импорта, что модуль регулярного выражения не найден? Значит ли это, что я не могу выполнить очистку данных в пауке? У меня есть, чтобы написать отдельный класс для него?
Какие-либо предложения?