Получить возвращаемое значение обратного вызова в scrapy — фреймворк python

Я ищу способ получать электронные письма со всех URL-адресов с веб-сайтов - в основном, index.php, contact.php и других URL-адресов. Мой сканер просматривает каждую страницу, делает запрос и извлекает электронные письма из исходного кода каждого ответа. Если в index.php есть электронная почта, я хочу сохранить ее и добавить больше электронных писем, которые можно найти в contact.php. Это будет означать, что item['emails'] будет содержать список электронных писем, который будет расширяться по мере сканирования большего количества страниц.

Мой вопрос заключается в том, что я использую extract_emails() в качестве обратного вызова для получения электронных писем (в пределах get_emails()), как мне заставить его возвращать электронные письма и добавлять его в список, который позже будет назначен item['emails']

def parse_site(self, response):
            item = response.meta['item']
            item['websites'] = response.xpath("//div[@class='company-contact-information']/table/tr/td/a/@href").extract()

            item['websites'] = self.remove_blacklist_links(item['websites'])
            # item['websites'] = ['http://www.kai-hsiang.com.tw','http://www.yangshitex.com']
            print(item['websites'])

            time.sleep(1)

            for web in item['websites']:
                request = scrapy.Request(web, callback=self.get_emails, dont_filter=True)
                print(web)
                print(request)
                time.sleep(2)
                yield request

        def get_emails(self, response):
            # the_leads = []
            item = response.meta['item']
            for l in response.xpath('//a'):
                link = l.xpath('@href').extract()[0]
                print(link)
                ju = urlparse.urljoin(response.url,  link)
                # the_leads.append(self.extract_email) --> Just added this now to explain what is 
                # possible if not for the request and yield
                request = scrapy.Request(ju, callback=self.extract_emails, dont_filter=True, meta={'item': item}) # ---> How do i get a return value for extract_emails ?
                print(response.url, ju, link, "*" * 100)
                yield request
            # item['emails'] = all_leads
            # return item


        def extract_emails(self, response):
            item = response.meta['item']

            regex = re.compile(r'([\w\-\.]{1,100}@(\w[\w\-]+\.)+[\w\-]+)')
            emails = list(set(regex.findall(response.body)))
            all_emails = [email[0].lower() for email in emails]
            item['emails'] = all_emails
            # print(item)
            # print("*" * 20)

            return item  # this overrites the emails

person Jide Koso    schedule 14.07.2015    source источник


Ответы (1)


Добавьте новый список к существующему с помощью:

item['emails'] = item['emails'] + all_emails
person Frank Martin    schedule 14.07.2015