Извлечение структурных данных из файлов ODP или ODF

Я пытаюсь извлечь иерархию информации в файлах ODP (презентация OpenDocument): заголовки, субтитры, основной текст...

Знаете ли вы какой-нибудь инструмент или технику, которая могла бы выполнить эту работу?

В противном случае, есть ли способ проанализировать эти документы ODP, чтобы извлечь информацию о стилях? Так что позже я могу определить структуру документа по его стилю.

Я боюсь, что структура файла XML внутри файла ODP может зависеть от программного обеспечения или версии. Так что я бы предпочел найти решение высокого уровня, чем анализировать этот XML-файл напрямую.


person Codophage    schedule 26.04.2017    source источник
comment
Структура XML определяется стандартом OpenDocument XML. Так что это не будет зависеть от программного обеспечения. Однако у стандарта есть разные версии, текущая версия 1.2. См., например. здесь: en.wikipedia.org/wiki/OpenDocument   -  person a_horse_with_no_name    schedule 26.04.2017


Ответы (1)


Поскольку я не смог найти ни одного инструмента, который позволял бы извлекать структуру, заголовки, текст... из файлов презентации, я создал Exide, API с открытым исходным кодом, поддерживающий файлы ODP, PPTX и beamer, он позволяет:

  • Извлечение заголовка слайда
  • Извлечение основного текста слайда
  • Распознавание именованных объектов (неточное)
  • Подчеркнутое распознавание текста
  • Распознавание URL-адресов
  • Обнаружение структуры и создание контура
  • Recognition of the following silde types :
    • Introduction
    • Вывод
    • Определение
    • Пример
    • Оглавление
    • использованная литература
    • Заголовок раздела

Для получения дополнительной информации посетите страницу проекта на github.

person Codophage    schedule 11.08.2017