Я пытаюсь извлечь данные в виде HTML из pdf с помощью pdfminer, хотя мне удалось извлечь текст из того же pdf, теперь я получаю сообщение об ошибке при извлечении данных в формате HTML. Мне нужно дополнительно отфильтровать данные, чтобы классифицировать их в CSV. Это сценарий.
from io import StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp
output_string = StringIO
with open('mini.pdf','rb') as fn:
extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)
И это ошибка, которую я получаю. Нажмите здесь