Преобразование pdf-документа, который включает таблицы в файл csv, с использованием python или любого другого языка

Я попытался преобразовать документ pdf (включая таблицы) в файл csv. К сожалению, я потерпел неудачу. Я использовал следующие подходы:

  1. Используемый pdfminer сначала преобразовал pdf в текст, но структура текстового файла не такая, как у файла pdf.

  2. Используемый pypdf2 сначала преобразовал pdf в текст, но структура текстового файла не такая, как у файла pdf.

  3. Используемый pdftotext сначала преобразовал PDF в текст, но структура текстового файла не такая, как у файла PDF.

  4. Используемый slate сначала преобразовал pdf в текст, но структура текстового файла не такая, как у файла pdf.

Пожалуйста, подскажите подходящий способ конвертировать PDF в файл CSV. Некоторые люди рекомендовали мне преобразовать документ в файл xml, а затем в файл csv. Даже тогда у меня не было решения.

Документ PDF выглядит следующим образом:

Изображение PDF-документа находится здесь

Есть ли лучшие инструменты, которые могут конвертировать PDF-документ (включая сложные таблицы) в CSV-файл?

Мы будем очень благодарны за решения на языке Python.


person Umair.P    schedule 31.03.2017    source источник
comment
Не могли бы вы связать страницу документа; изображение не говорит мне достаточно о форматировании?   -  person Ari Cooper-Davis    schedule 31.03.2017


Ответы (1)


Возможно, стоит попробовать PDFTables, у них есть библиотека Python / API для Преобразование PDF в CSV, и вы получите бесплатные страницы, чтобы опробовать его.

person tristanojbacon    schedule 31.03.2017