Работа с отдельными страницами с помощью PDFMiner

У меня есть несколько PDF-документов, из которых я не могу извлечь текст с помощью PyPDF, только с помощью PDFMiner. Следующий код отлично работает для извлечения всего текста из PDF-файлов, он проходит через весь документ, а затем возвращает весь текст. Есть ли способ работать только с определенными страницами PDF? Все PDF-файлы, которые у меня есть, имеют длину 2000-3000, и мне нужно работать только с каждой второй страницей.

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
         interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

person user2665140    schedule 08.03.2016    source источник


Ответы (1)


Не могли бы вы использовать enumerate для получения номера страницы и содержимого страницы при переборе всех страниц? Если вам нужна только каждая вторая страница, используйте модуль. Если вам нужны только определенные страницы, используйте диапазоны.

Пример:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for pagenumber, page in enumerate(PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True)):
        print pagenumber
        if pagenumber % 2 == 0:
            print("even page number")
            interpreter.process_page(page)
        else:
            print("odd page number")
        if 5 <= pagenumber <= 10:
            print("pages 5 to 10")

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text
person jDo    schedule 08.03.2016
comment
Спасибо, это то, что я искал. - person user2665140; 09.03.2016