Преобразование pdf-документа, который включает таблицы в файл csv, с использованием python или любого другого языка

Я попытался преобразовать документ pdf (включая таблицы) в файл csv. К сожалению, я потерпел неудачу. Я использовал следующие подходы:

Используемый pdfminer сначала преобразовал pdf в текст, но структура текстового файла не такая, как у файла pdf.
Используемый pypdf2 сначала преобразовал pdf в текст, но структура текстового файла не такая, как у файла pdf.
Используемый pdftotext сначала преобразовал PDF в текст, но структура текстового файла не такая, как у файла PDF.
Используемый slate сначала преобразовал pdf в текст, но структура текстового файла не такая, как у файла pdf.

Пожалуйста, подскажите подходящий способ конвертировать PDF в файл CSV. Некоторые люди рекомендовали мне преобразовать документ в файл xml, а затем в файл csv. Даже тогда у меня не было решения.

Документ PDF выглядит следующим образом:

Есть ли лучшие инструменты, которые могут конвертировать PDF-документ (включая сложные таблицы) в CSV-файл?

Мы будем очень благодарны за решения на языке Python.

Umair.P 31.03.2017 источник

comment

Не могли бы вы связать страницу документа; изображение не говорит мне достаточно о форматировании? - Ari Cooper-Davis 31.03.2017

Ответы (1)

arrow_upward
0
arrow_downward

Возможно, стоит попробовать PDFTables, у них есть библиотека Python / API для Преобразование PDF в CSV, и вы получите бесплатные страницы, чтобы опробовать его.

tristanojbacon 31.03.2017

Преобразование pdf-документа, который включает таблицы в файл csv, с использованием python или любого другого языка

Ответы (1)

Похожие вопросы