Моя цель состоит в том, чтобы иметь скрипт python, который будет получать доступ к определенным веб-страницам, извлекать все файлы PDF на каждой странице, в имени файла которых есть определенное слово, преобразовывать их в html/xml, а затем просматривать файлы html для чтения данных из PDF-файлов. столы.
До сих пор я импортировал механизм (для просмотра страниц/поиска pdf-файлов) и у меня есть pdfminer, однако я не уверен, как использовать его в скрипте для выполнения тех же функций, что и в командной строке.
Какая группа библиотек наиболее эффективна для решения моей задачи и как бы вы рекомендовали подходить к каждому шагу? Я извиняюсь, если это слишком специфично для stackoverflow, но у меня возникли проблемы с использованием поиска Google и скудной документации, чтобы собрать воедино, как это закодировать. Спасибо!
РЕДАКТИРОВАТЬ: Итак, я решил использовать Scrapy. Пока мне это очень нравится, но теперь у меня новый вопрос. Я определил класс PDFItem() для использования с моим пауком с полями title и url. У меня есть селектор, который захватывает все ссылки, которые я хочу, и я хочу пройти по этим ссылкам и создать PDFItem для каждой из них. Вот код, который у меня есть ниже:
links = sel.xpath('//a[contains(@href, "enforcementactions.pdf") and contains(@class, "titlelink")]')
item = PDFItem()
for link in links:
item['title'] = link.xpath('/text()')
item['url'] = URL + link.xpath('@href').extract()[0]
Строка URL работает хорошо, но я не знаю, как сделать то же самое для заголовка. Думаю, я мог бы просто выполнить запрос вверху, но добавив '/text()' в конец селектора, но это кажется чрезмерным. Есть ли лучший способ просто просмотреть каждый объект ссылки в массиве ссылок и получить текст и значение href?