Я пытаюсь загрузить несколько крупных биомедицинских онтологий в оптимизированный репозиторий GraphDB Owl Horst вместе с десятками миллионов троек, использующих термины из этих онтологий. Я могу загрузить эти данные в репозиторий, оптимизированный для RDFS+, менее чем за 1 час, но я не могу загрузить даже одну из онтологий (chebi_lite), если я оставлю это на ночь. Это использует loadrdf на 64-ядерном процессоре, Сервер AWS 256 ГБ.
Мой предыдущий вопрос Может ли GraphDB загрузить 10 миллионов операторов с помощью рассуждений OWL? приводит к предложению использовать команду preload
с последующим повторным выводом. Предзагрузка действительно прошла очень быстро, но когда дело доходит до реинферинга, используется только одно ядро. Я не могу отпустить его уже больше часа. Является ли повторный вывод с использованием только одного ядра следствием использования бесплатной версии? Может ли loadrdf
работать лучше, если я просто лучше настрою?
Когда я использую loadrdf
, все ядра приближаются к 100%, но использование памяти никогда не превышает 10% или около того. Я немного повозился с настройками памяти JVM, но я действительно не знаю, что делаю. Например
-Xmx80g -Dpool.buffer.size=2000000