Я пытаюсь извлечь данные в виде элементов HTML в python, используя pdfminer.

Я пытаюсь извлечь данные в виде HTML из pdf с помощью pdfminer, хотя мне удалось извлечь текст из того же pdf, теперь я получаю сообщение об ошибке при извлечении данных в формате HTML. Мне нужно дополнительно отфильтровать данные, чтобы классифицировать их в CSV. Это сценарий.

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)

И это ошибка, которую я получаю. Нажмите здесь

Rajat Nagarkar 21.08.2020 источник

comment

Какую версию pdfminer и python вы используете? Я не могу найти этот метод «extract_text_to_fp», который вы импортируете в текущем дистрибутиве. Для проверки запустите pip show pdfminer. - Bastien Harkins 21.08.2020

comment

Помогите нам помочь вам, отредактируйте свой вопрос, чтобы включить ошибку в виде текста, а не связанного изображения. - Bastien Harkins 21.08.2020

comment

Я смог решить ошибку, я использовал файловый объект вместо выходной строки, и это помогло. - Rajat Nagarkar 21.08.2020

comment

Я использую pdfminer.six, и мне удалось импортировать его, используя только pdfminer. - Rajat Nagarkar 21.08.2020

Ответы (1)

arrow_upward
0
arrow_downward

Добавьте круглые скобки к StringIO таким образом: output_string = StringIO() это вызовет конструкцию класса, и код может работать с этим

Mna 17.04.2021

Я пытаюсь извлечь данные в виде элементов HTML в python, используя pdfminer.

Ответы (1)

Похожие вопросы