Как преобразовать PDF в документ без microsoft.office.interop?

Мне нужно преобразовать файлы PDF в файлы .doc с помощью С#. На компьютере нет файловой системы, хотя на нем не установлен Office. Любые хорошие идеи, как я могу подойти к этому? Я провел небольшое исследование, и большинство людей используют службы взаимодействия.


person HoBa    schedule 22.04.2011    source источник
comment
Что именно вы подразумеваете под компьютером без файловой системы, потому что утверждение не имеет смысла. Честно говоря, лучший подход — офисное взаимодействие.   -  person Security Hound    schedule 22.04.2011
comment
Возможно, не установлена ​​операционная система Windows?   -  person Ian Jacobs    schedule 22.04.2011
comment
Ну, компьютер в значительной степени просто работает... Кроме того, мне нужно преобразовать PDF в PNG и DOC в PNG... Я понятия не имею, как это сделать без взаимодействия.   -  person HoBa    schedule 22.04.2011
comment
почему бы вам не купить инструмент, чтобы сделать это. Если вы не готовы сделать это и хотите написать это самостоятельно, то вопрос слишком широк.   -  person David Heffernan    schedule 22.04.2011


Ответы (3)


Вы должны понимать, что PDF на самом деле не реализован как единый формат документа.

Если ваши PDF-документы создаются путем рендеринга текста в файл PDF, то прямое преобразование PDF не только возможно, но и может быть очень хорошим (надежным).

Если источником вашего PDF-файла является сканер или факс (по сути, сканер ...), то у вас есть документ с «изображением» текста. С этим сценарием работать сложнее. Если вы откроете разметку для этого, «текст» не будет преобразован. В этой ситуации вам придется иметь дело с каким-то способом OCR (оптическим распознаванием символов), который менее надежен из-за множества проблем.

Если у вас есть возможность перехватить данные до того, как они будут преобразованы в PDF (скажем, как в SSRS или Crystal), вам будет лучше обойти стадию PDF и переместить данные в документ Word.

Если вы вынуждены получать факсы, а затем вам нужно интерпретировать их содержимое, приготовьтесь к аду OCR. Прошло некоторое время с тех пор, как я был там, поэтому я надеюсь, что это стало лучше.

Даже если на вашем компьютере не установлен офис, у вас есть доступ (с Visual Studios) к набору инструментов разработчика Office, который позволит вам создавать документы для распространения в форматах Word (.doc/.docx).

person Cos Callis    schedule 22.04.2011

Вариант/идея может состоять в том, чтобы конвертировать PDF в Html, который можно открыть в Word?

person Mark Redman    schedule 22.04.2011

используйте набор aspose pdf для преобразования pdf в текст, а затем текст в документ с помощью файлового потока или aspose doc

person WhoIsNinja    schedule 28.04.2011