Я пытаюсь извлечь данные в виде элементов HTML в python, используя pdfminer.

Я пытаюсь извлечь данные в виде HTML из pdf с помощью pdfminer, хотя мне удалось извлечь текст из того же pdf, теперь я получаю сообщение об ошибке при извлечении данных в формате HTML. Мне нужно дополнительно отфильтровать данные, чтобы классифицировать их в CSV. Это сценарий.

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)

И это ошибка, которую я получаю. Нажмите здесь


person Rajat Nagarkar    schedule 21.08.2020    source источник
comment
Какую версию pdfminer и python вы используете? Я не могу найти этот метод «extract_text_to_fp», который вы импортируете в текущем дистрибутиве. Для проверки запустите pip show pdfminer.   -  person Bastien Harkins    schedule 21.08.2020
comment
Помогите нам помочь вам, отредактируйте свой вопрос, чтобы включить ошибку в виде текста, а не связанного изображения.   -  person Bastien Harkins    schedule 21.08.2020
comment
Я смог решить ошибку, я использовал файловый объект вместо выходной строки, и это помогло.   -  person Rajat Nagarkar    schedule 21.08.2020
comment
Я использую pdfminer.six, и мне удалось импортировать его, используя только pdfminer.   -  person Rajat Nagarkar    schedule 21.08.2020


Ответы (1)


Добавьте круглые скобки к StringIO таким образом: output_string = StringIO() это вызовет конструкцию класса, и код может работать с этим

person Mna    schedule 17.04.2021