Текстовый редактор Ghostscript сохраняет пустые строки

Я пытаюсь преобразовать PDF-файлы в текстовые файлы. Я использую эту команду для выполнения преобразования:

gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=output.txt input.pdf

Версия Ghostscript 9.07.

Я получаю весь текст, показанный в PDF. Я хотел бы сохранить пустые строки в текстовом файле, если это возможно.

Спасибо


person Will    schedule 20.03.2016    source источник
comment
Как правило, в PDF нет пустых строк. Даже понятие «строка» довольно широкое — спецификации позволяют отображать последовательность текста в одной строке, но также допускают любую позицию x и y для любого текста. Для такой цели вы должны сравнить положение y каждой «линии» и решить, достаточно ли расстояние друг от друга, чтобы считаться пустым.   -  person Jongware    schedule 21.03.2016


Ответы (1)


Вы должны обновиться, текущая версия Ghostscript 9.18 и 9.19 будет выпущена очень скоро. Каждая из промежуточных версий включает исправления для устройства txtwrite.

Хотя PDF-файлы действительно не содержат пустых строк, устройство txtwrite имеет режим, в котором оно попытается создать разумное представление исходного макета, используя пробелы и пустые строки в текстовом файле.

Это действие по умолчанию в текущей версии txtwrite, поэтому вы уже должны его получить, если только вы не выбрали другой TextFormat.

Этот режим очень эвристичен, его легко обмануть, он плохо справляется с верхними и нижними индексами, значительными изменениями размера точек и, возможно, другими атрибутами, которые затрудняют воспроизведение макета. Очевидно, не видя вашего входного файла, я больше ничего не могу вам сказать.

person KenS    schedule 21.03.2016