Извлечение структурных данных из файлов ODP или ODF

Я пытаюсь извлечь иерархию информации в файлах ODP (презентация OpenDocument): заголовки, субтитры, основной текст...

Знаете ли вы какой-нибудь инструмент или технику, которая могла бы выполнить эту работу?

В противном случае, есть ли способ проанализировать эти документы ODP, чтобы извлечь информацию о стилях? Так что позже я могу определить структуру документа по его стилю.

Я боюсь, что структура файла XML внутри файла ODP может зависеть от программного обеспечения или версии. Так что я бы предпочел найти решение высокого уровня, чем анализировать этот XML-файл напрямую.

Codophage 26.04.2017 источник

comment

Структура XML определяется стандартом OpenDocument XML. Так что это не будет зависеть от программного обеспечения. Однако у стандарта есть разные версии, текущая версия 1.2. См., например. здесь: en.wikipedia.org/wiki/OpenDocument - a_horse_with_no_name 26.04.2017

Ответы (1)

arrow_upward
1
arrow_downward

Поскольку я не смог найти ни одного инструмента, который позволял бы извлекать структуру, заголовки, текст... из файлов презентации, я создал Exide, API с открытым исходным кодом, поддерживающий файлы ODP, PPTX и beamer, он позволяет:

Извлечение заголовка слайда
Извлечение основного текста слайда
Распознавание именованных объектов (неточное)
Подчеркнутое распознавание текста
Распознавание URL-адресов
Обнаружение структуры и создание контура
Recognition of the following silde types :
- Introduction
- Вывод
- Определение
- Пример
- Оглавление
- использованная литература
- Заголовок раздела

Для получения дополнительной информации посетите страницу проекта на github.

Codophage 11.08.2017

Извлечение структурных данных из файлов ODP или ODF

Ответы (1)

Похожие вопросы