PDF в текст в Python, возвращающий пустые результаты в файлах изображений

У меня есть этот файл в формате PDF. PDF-файл с низким разрешением на основе изображения. Я пытаюсь извлечь из него данные, и все варианты, которые я пробовал, не работают.

Вариант 1 — использование pdfminer

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

Вариант 2 — использование tika

from tika import parser # pip install tika
raw = parser.from_file(path)
text=raw['content']
# I don't like to use it very much because it often corrupts the file

Вариант 3 – использование pypdf

    import PyPDF2
    pdf_file = open(path, 'rb')
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.getPage(0)
    page_content = page.extractText()
    text=page_content.encode('utf-8')

Все варианты возвращают пустые результаты. Я предполагаю, что это может быть связано с качеством файла. Я знаю, что мы могли бы работать с изображениями и увеличивать их характеристики, чтобы упростить извлечение данных (увеличивать размер изображения, работать с пороговыми значениями и т. д., вы можете делать многое с помощью PIL). Есть ли эффективный способ сделать это с файлами PDF?


person aabujamra    schedule 19.02.2021    source источник


Ответы (2)


Я только когда-либо пробовал извлекать тексты из несканированных pdf-файлов, и я помню, что pdfminer давал наилучшие результаты. Однако это! может помочь вам, также для этой цели есть некоторые другие библиотеки Python OCR.

person SubtleSnack    schedule 19.02.2021

В конце концов я придумал решение, которое не является идеальным, но сработало для меня с использованием pdfminer и pytesseract:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_image_to_text(file_path):
    from pdf2image import convert_from_path
    import pytesseract

    dpi = 350 # dots per inch
    pages = convert_from_path(file_path ,dpi)
    text=""

    for i in range(len(pages)):
        page = pages[i]
        a=pytesseract.image_to_string(page)
        text=text+a

    return text

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()

# extracting data from image pdfs

if "a" not in text or "A" not in text and extract_image_pdfs==True:
    # my pdfs will always have an "a" that's why I use this if sentence above
    try:
        print('starting to convert to image')
        text=convert_pdf_image_to_text(path)
        print('finished converting to image')
    except:
        text="no text"
        print("not pdf nor image")

return text
person aabujamra    schedule 23.02.2021