Почему Сезам ограничен, скажем, 150-метровыми тройками?

Я бы не сказал, что он ограничен, но пока я вижу, что данные рекомендации относятся к типу «Если вам нужно выйти за рамки этого, вы можете изменить внутренний магазин ...». Почему? Почему Sesame не так эффективен, как, скажем, OWLIM или Allegrgraph, когда он выходит за пределы 150-200-метровых троек. Какие оптимизации реализованы для того, чтобы стать таким большим? Отличаются ли базовые структуры данных?


person Todor Kolev    schedule 30.03.2013    source источник
comment
Дубликат answers.semanticweb.com/questions/21881/   -  person Jeen Broekstra    schedule 31.03.2013


Ответы (1)


Здесь ответила @Jeen Broekstra: lets-say-150m-triples" rel="nofollow noreferrer">http://answers.semanticweb.com/questions/21881/why-is-sesame-limited-to-lets-say-150m-triples

  1. фактические значения, из которых состоят операторы RDF (то есть субъекты, предикаты и объекты), индексируются в относительно простом хеше, сопоставляя целочисленные идентификаторы с фактическими значениями данных. Этот индекс выполняет много кэширования в памяти для ускорения поиска, но по мере увеличения размера хранилища вероятность (во время вставки или поиска) того, что значение отсутствует в кеше и его необходимо извлечь с диска, увеличивается, и кроме того, сам поиск на диске становится более дорогим по мере увеличения размера хэша.
  2. поиск данных в собственном хранилище был сбалансирован для оптимального использования размера страницы файловой системы для максимальной скорости поиска узлов B-дерева. Эта оптимизация основана на последовательном поиске с повторным использованием одного и того же блока данных, что позволяет повторно использовать кеш страниц на уровне ОС. Однако эта эвристика начинает давать сбои чаще по мере роста размеров транзакций (и, следовательно, B-деревьев).
  3. по мере того, как B-деревья растут в размерах, увеличиваются шансы на большие каскадные расщепления.
person Todor Kolev    schedule 26.05.2013
comment
Обратите внимание, что вы должны опубликовать основные части ответа здесь, на этом сайте, иначе ваше сообщение может быть удалено см. FAQ, где упоминаются ответы, которые являются «чуть больше, чем ссылкой». Вы все равно можете включить ссылку, если хотите, но только как «ссылку». Ответ должен стоять сам по себе, без ссылки. - person Taryn; 26.05.2013