У нас есть несколько файлов PDF в нашей файловой системе, которые загружаются на сервер Marklogic через MLCP. После загрузки PDF-файла в Marklogic срабатывает CPF, для которого преобразование по умолчанию включено. Это приводит к преобразованию файлов PDF в файлы XML (формат docbook). PDF-файл может содержать предложение в конце страницы, и некоторая часть текста переносится на следующую страницу. Проблема в том, что при преобразовании текст с каждой страницы сохраняется в теге, а это означает, что перетекающий текст со следующей страницы появляется в отдельном теге. Например, рассмотрите предложение «Быстрая коричневая лиса перепрыгивает через ленивую собаку». Теперь «быстрая коричневая лиса» появляется на одной странице PDF-файла, а остальные «перепрыгивают через ленивую собаку» переходят на следующую страницу. После преобразования это то, что появляется в XML:
......
<para>The quick brown fox</para>
...... (some information about headers)
<para>jumps over the lazy dog</para>
Есть ли способ сохранить непрерывность текста во время преобразования?