Я пишу веб-пауков для удаления некоторых продуктов с веб-сайтов, используя структуру scrapy в python. Мне было интересно, как лучше всего рассчитать покрытие и недостающие элементы написанных пауков.
То, что я использую прямо сейчас, — это регистрация случаев, которые не удалось проанализировать или вызвать исключения. В качестве примера: когда я ожидаю определенного формата для цены продукта или адреса места и обнаруживаю, что мои написанные регулярные выражения не соответствуют вырезанным строкам. или когда мои селекторы xpath
для конкретных данных ничего не возвращают.
Иногда также, когда продукты перечислены на одной или нескольких страницах, я использую curl
и grep
для приблизительного подсчета количества продуктов. но мне было интересно, есть ли лучшие способы справиться с этим.