сливной улей kafka hdfs

Я использую слияние для импорта данных из kafka в hive, пытаясь сделать то же самое: Записи сегмента на основе времени (kafka-hdfs-connector)

мой конфиг стока такой:

{
    "name":"yangfeiran_hive_sink_9",
    "config":{
        "connector.class":"io.confluent.connect.hdfs.HdfsSinkConnector",
        "topics":"peoplet_people_1000",
        "name":"yangfeiran_hive_sink_9",
        "tasks.max":"1",
        "hdfs.url":"hdfs://master:8020",
        "flush.size":"3",
        "partitioner.class":"io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner",
        "partition.duration.ms":"300000",
        "path.format":"'year'=YYYY/'month'=MM/'day'=dd/'hour'=HH/'minute'=mm/",
        "locale":"en",
        "logs.dir":"/tmp/yangfeiran",
        "topics.dir":"/tmp/yangfeiran",
        "hive.integration":"true",
        "hive.metastore.uris":"thrift://master:9083",
        "schema.compatibility":"BACKWARD",
        "hive.database":"yangfeiran",
        "timezone": "UTC",
    }
}

Все работает нормально, я вижу, что данные находятся в hdfs, таблица создается в улье, за исключением случаев, когда я использую «выбрать * из ян», чтобы проверить, есть ли данные уже в улье.

Он печатает ошибку:

FAILED: SemanticException Невозможно определить, зашифрован ли hdfs://master:8020/tmp/yangfeiran/people_people_1000: java.lang.IllegalArgumentException: Wrong FS: hdfs://master:8020/tmp/yangfeiran/peoplet_people_1000, ожидается: hdfs: //nsstargate

Как решить эту проблему?

Фейран


person Feiran    schedule 22.12.2016    source источник
comment
Ваш hdfs находится в режиме HA?   -  person Yuri Tceretian    schedule 22.12.2016
comment
да, я должен запретить это?   -  person Feiran    schedule 22.12.2016
comment
да, попробуйте не указывать номер порта в URL-адресе hdfs.   -  person Yuri Tceretian    schedule 22.12.2016
comment
Спасибо бро, работает. Брови!   -  person Feiran    schedule 22.12.2016
comment
Однако производственная среда требует, чтобы мы применяли режим высокой доступности, есть ли способ сосуществования?   -  person Feiran    schedule 22.12.2016
comment
Я думаю, что единственный способ - реализовать свой собственный ParquetWriter.   -  person Yuri Tceretian    schedule 22.12.2016
comment
Здорово дружище, попробую. Вы сделали мой день!   -  person Feiran    schedule 22.12.2016
comment
Добро пожаловать! Кстати, для этой проблемы есть запрос на извлечение. github.com/confluentinc/kafka-connect-hdfs/pull/90   -  person Yuri Tceretian    schedule 22.12.2016
comment
Я решил это, добавив hive.conf.dir: /etc/hive/conf.   -  person Feiran    schedule 22.12.2016
comment
После этого: groups.google.com/forum/#!msg /confluent-platform/wKa6gC32Gwo/   -  person Feiran    schedule 22.12.2016