Ошибка при сохранении базы данных Huge graph в формате GraphSON

Я работаю над сохранением огромной графовой базы данных с примерно 80 миллионами узлов и 120 миллионами ребер (хранится на 3 машинах Cassandra) в расширенном формате GraphSON в локальной файловой системе. Однако, как только файл достигает 28 ГБ, оболочка гремлина всегда дает сбой с этой ошибкой:

  java.lang.IllegalStateException: Could not find type for id: 322
    at com.google.common.base.Preconditions.checkState(Preconditions.java:176)
    at com.thinkaurelius.titan.graphdb.types.vertices.TitanTypeVertex.getName(TitanTypeVertex.java:30)
    at com.thinkaurelius.titan.graphdb.transaction.StandardTitanTx$VertexConstructor.get(StandardTitanTx.java:321)
    at com.thinkaurelius.titan.graphdb.transaction.StandardTitanTx$VertexConstructor.get(StandardTitanTx.java:291)
    at com.thinkaurelius.titan.graphdb.transaction.vertexcache.GuavaVertexCa

Примечание. Цель сохранения в формате GraphSON — перенести его на версию Titan 0.5. Я уже пытался перенести его в HDFS с помощью Faunus на основе этого вопроса Каковы методы переноса миллионов узлов и ребер с версии 0,44 на версию 0,5? я писал ранее , но это не помогло.

Метод, используемый для сохранения файла GraphSON: saveGraphSON после загрузки графика со следующими параметрами:

storage.backend=cassandra
storage.hostname=sve1,sve2,sve3
storage.port=9160
storage.batch-loading=true
storage.buffer-size=8196
storage.keyspace=dbgraph
ids.block-size=50000
cache.db-cache=true
cache.db-cache-size=0.5

Пожалуйста, не могли бы вы дать мне предложения по успешному сохранению графика в формате GraphSON.


person pjesudhas    schedule 27.01.2015    source источник
comment
Может быть дело не в больших объемах данных, а в процессе миграции какие-то данные испортились. Обычно я получаю это исключение, когда вношу изменения в индексацию и прочее в уже развернутом кластере. Эта ошибка исчезнет, ​​если я удалю все данные и начну заново. См. также эту проблему: /а>. Из всех этих доказательств может быть вероятность того, что данные каким-то образом повреждены/не проиндексированы должным образом, и поэтому во время поиска они выдают эту ошибку.   -  person Rash    schedule 01.03.2015