Tabula Py не обнаруживает таблицы в PDF

Я использовал следующий код, но ничего не обнаруживается. Я также пробовал различные другие форматы PDF, но получил тот же результат.

from tabula import read_pdf,convert_into

df=read_pdf("1415_048.pdf",output_format="dataframe",encoding='utf-8',java_options=None,multiple_tables=True)

Где PDF-файл выглядит так: введите здесь описание изображения

[] #This is the result I'm getting 

person Duke Glacia    schedule 06.01.2019    source источник
comment
Та же проблема здесь. Я пытаюсь извлечь текст из этого PDF.   -  person Girishkumar    schedule 07.01.2019


Ответы (1)


tabula-py основан на tabula-java. И это работает только с текстовым PDF.

Согласно веб-сайту tabula.app https://tabula.technology/:

Примечание. Табула работает только с текстовыми PDF-файлами, но не с отсканированными документами.

person chezou    schedule 06.02.2019