Мы пытаемся подключить MS 9.4 к HBase через коннектор Impala.
Сначала мы создали таблицы куста, сравнив их с таблицами HBase со следующей таблицей создания (как мы видели в документах):
CREATE TABLE hiveTableName1
(key int, columnName1 codClient, columnName2 clientName)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,columnfamily1:columnName1,columnfamily1:columnName2")
TBLPROPERTIES ("hbase.table.name" = "hbaseTableName1");
Мы сделали это дважды, так как хотим создать две таблицы hive и соответствующие им таблицы hbase, чтобы позже выполнить соединение между ними с помощью MS.
Для соединения между MS с HBase мы следуем шагам, выбирая драйвер ODBC MicroStrategy для протокола Impala Wire и заполнив имя источника данных (источник данных Impala, ранее созданный с помощью драйвера Impala), хост и порт (оба для установки Impala). в нашей инфраструктуре AWS) и impala/impala для учетных данных.
Дело в том, что когда мы закончим работу мастера и выберем пространство имен по умолчанию (единственное доступное пространство. Никаких других ns создано не было), мы увидим таблицы кустов, которые мы создали ранее, вместо таблиц hbase.
Я имею в виду:
hiveTableName1
hiveTableName2
вместо
hbaseTableName1
hbaseTableName2
И, поскольку это единственные доступные таблицы, мы можем выполнить наш отчет только с этими двумя таблицами: очень простое соединение между этими двумя таблицами по одному полю. Обе таблицы содержат 200 000 записей, и соединение занимает более 1 минуты. Я уверен, что мы что-то здесь упускаем, и процесс привязки таблиц hive к таблицам hbase не совсем правильный. Есть ли способ подключиться к этим двум таблицам hbase вместо hive? Любая помощь будет действительно оценена.