Какой хороший способ извлечения текста из PDF с помощью C# или классического ASP (VBScript)?

Есть ли хорошая библиотека для извлечения текста из PDF? Я готов заплатить за это, если мне придется.

Что-то, что работает с C# или классическим ASP (VBScript), было бы идеальным, и мне также нужно иметь возможность отделять страницы от PDF.

В этом вопросе было несколько интересных вещей, особенно pdftotext, но я хотел бы по возможности избегать вызова внешнего приложения командной строки.


person Mark Biek    schedule 05.09.2008    source источник


Ответы (5)


Вы можете использовать интерфейс IFilter, встроенный в Windows, для извлечения текста и свойств (автор, заголовок и т. д.) из файлов любого поддерживаемого типа. Это COM-интерфейс, поэтому вам придется использовать средства взаимодействия .NET.

Вам также необходимо загрузить бесплатный драйвер PDF IFilter от Adobe.

person Ferruccio    schedule 05.09.2008

Вот хороший список: Библиотеки с открытым исходным кодом для PDF/C#

Большинство из них предназначены для создания PDF-файлов, но они также должны иметь возможность чтения.

Есть и такой: iText.

Раньше я играл только с iText. Ничего серьезного.

person Doanair    schedule 05.09.2008

Мы использовали Aspose с хорошими результатами.

person Community    schedule 05.09.2008

Дополнение к утвержденному ответу: существуют также альтернативные коммерческие решения для замены Adobe IFilter для индексации текста (предоставляющие аналогичный API, но также предлагающие дополнительные функциональные возможности премиум-класса):

  1. Foxit PDF IFilter: обеспечивает гораздо более быструю индексацию текста по сравнению с подключаемым модулем Adobe.
  2. PDFLib PDF iFilter: включает поддержку поврежденных PDF-документов, а также дополнительный API для запуска ваши собственные запросы.

Если вы ищете единый инструмент, который можно использовать как в управляемых приложениях .NET, так и в устаревших языках программирования, таких как классический ASP или VB6, то именно здесь можно найти коммерческий ByteScout PDF Extractor SDK подойдет, так как он предоставляет как .NET, так и ActiveX/COM API.

Отказ от ответственности: я работаю в ByteScout

person Eugene    schedule 24.02.2015

библиотеку Docotic.Pdf можно использовать для извлечения форматированного или простого текста из PDF-документов.

Библиотека может читать PDF-документы любой версии (вплоть до последнего опубликованного стандарта). Извлечение страниц также поддерживается библиотекой.

Ссылки на пример кода:

Отказ от ответственности: я работаю на поставщика библиотеки.

person Bobrovsky    schedule 21.01.2012