Мне нужно преобразовать файлы PDF в файлы .doc с помощью С#. На компьютере нет файловой системы, хотя на нем не установлен Office. Любые хорошие идеи, как я могу подойти к этому? Я провел небольшое исследование, и большинство людей используют службы взаимодействия.
Как преобразовать PDF в документ без microsoft.office.interop?
Ответы (3)
Вы должны понимать, что PDF на самом деле не реализован как единый формат документа.
Если ваши PDF-документы создаются путем рендеринга текста в файл PDF, то прямое преобразование PDF не только возможно, но и может быть очень хорошим (надежным).
Если источником вашего PDF-файла является сканер или факс (по сути, сканер ...), то у вас есть документ с «изображением» текста. С этим сценарием работать сложнее. Если вы откроете разметку для этого, «текст» не будет преобразован. В этой ситуации вам придется иметь дело с каким-то способом OCR (оптическим распознаванием символов), который менее надежен из-за множества проблем.
Если у вас есть возможность перехватить данные до того, как они будут преобразованы в PDF (скажем, как в SSRS или Crystal), вам будет лучше обойти стадию PDF и переместить данные в документ Word.
Если вы вынуждены получать факсы, а затем вам нужно интерпретировать их содержимое, приготовьтесь к аду OCR. Прошло некоторое время с тех пор, как я был там, поэтому я надеюсь, что это стало лучше.
Даже если на вашем компьютере не установлен офис, у вас есть доступ (с Visual Studios) к набору инструментов разработчика Office, который позволит вам создавать документы для распространения в форматах Word (.doc/.docx).
Вариант/идея может состоять в том, чтобы конвертировать PDF в Html, который можно открыть в Word?
используйте набор aspose pdf для преобразования pdf в текст, а затем текст в документ с помощью файлового потока или aspose doc