После многих лет неохотного кодирования парсеров как мешанины из регулярных выражений, BeautifulSoup и т. д. я нашел Scrapy, который мне очень понравился. считать рождественским подарком в этом году самому себе! Его естественно использовать, и, кажется, он был создан, чтобы сделать практически все элегантным и пригодным для повторного использования.
Но я в ситуации, которую не знаю, как решить: мой паук сканирует и очищает страницу со списком A, из которой я создаю набор элементов. Но для каждого элемента мне нужно получить отдельную дополнительную ссылку (созданную из некоторой извлеченной информации, но не явную ссылку на странице, по которой может перейти Scrapy), чтобы получить дополнительную информацию.
Мой вопрос состоит из двух частей: каков протокол для получения URL-адреса вне процесса сканирования? как элегантно создавать элементы из нескольких источников?
Это частично было задано (и ответили) в предыдущий вопрос на StackOverflow. Но меня больше интересует, какой должна быть философия Scrapy в этом случае использования — наверняка не непредвиденная возможность? Интересно, является ли это одной из целей, для которых предназначены конвейеры (добавление информации из вторичного источника, выведенной из первичной информации, является экземпляром «постобработки»), но как лучше всего это сделать, чтобы не полностью испортить эффективную асинхронную организацию Scrapy?