Итак, я наткнулся на несколько сообщений, посвященных преобразованию PDF-файлов в HTML или преобразованию их в текст, однако все они касаются этого из файла, сохраненного на компьютере. Есть ли способ извлечь текст из PDF-страницы веб-страницы без загрузки самого файла PDF (поскольку я буду делать это для большого количества файлов, перебирая список URL-адресов)?
Мне также любопытно, какая библиотека лучше всего подходит для этого. pdfkit, pdf2txt, pdfminer и т. д.?
Вот пример веб-сайта в формате, с которым я буду иметь дело: http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf