GeoMesa - Различия между поддерживаемыми хранилищами данных?

Я просматриваю документацию GeoMesa, и в оглавлении отображается число поддерживаемых хранилищ данных, которые можно использовать:

Конкретные внутренние реализации описаны в следующих главах:

    Accumulo Data Store
    Kafka Data Store
    HBase Data Store
    Bigtable Data Store
    Cassandra Data Store

В то время как документация по хранилищам данных Accumulo и Kafka содержит много контента, это не относится к HBase, Bigtable и Cassandra. В нем не перечислены отсутствующие функции, примечания о том, подходит ли хранилище данных для использования в продакшене.

Мне не удалось найти сравнение уровня реализации (например, поддерживаемых/отсутствующих функций, стабильности и т. д.) этих хранилищ данных.

Мои вопросы:

  1. Какая польза от использования Accumulo вместо, например, Cassandra в качестве хранилища данных для GeoMesa?
  2. Все ли хранилища данных находятся на одном уровне реализации?

person j9dy    schedule 15.03.2017    source источник


Ответы (1)


Отличный вопрос; это недавно появилось в списке пользователей GeoMesa.

На высоком уровне все реализации GeoMesa представляют собой хранилища данных GeoTools, используют аналогичные инструменты командной строки и интегрируются с GeoServer. Если вам просто нужен общий доступ, подойдет любое хранилище данных.

Поддержка GeoMesa Accumulo существует дольше всех, поэтому есть дополнительные функции, такие как передача расчетов статистики и создание тепловых карт на серверы баз данных. Accumulo и HBase достаточно похожи, поэтому перенести эти возможности в HBase должно быть просто, и эта работа продолжается (это происходит в линейке GeoMesa 1.3.x).

Хранилища данных Accumulo, HBase (и, следовательно, Google Cloud Bigtable) поддерживают Spark/Spark SQL. (Начиная с GeoMesa версии 1.3.1.)

Для C* также ведется активное развертывание для достижения паритета функций. Судя по тому, что я видел, в C* не так просто добавить обработку запросов на стороне сервера (итераторы Accumulo великолепны; фильтры HBase и сопроцессоры тоже очень хороши).

Kafka Data Store предназначен для потоковой передачи данных. Если в вашем приложении есть потоковые геоданные, и вы хотите создавать их представления почти в реальном времени и/или обрабатывать их «вживую», тогда Kafka для вас. Другие хранилища данных предназначены для долгосрочного хранения, запросов и пакетного анализа.

person GeoMesaJim    schedule 15.03.2017