Как задать количество документов, обрабатываемых в пакете?

В Spark 2.2.0 контрольные точки работают немного иначе, чем в версиях. Существует папка коммитов, которая создается, и после завершения каждого пакета файл записывается в папку.

Я сталкиваюсь со сценарием, в котором у меня около 10 тыс. начинается с начала и происходит дублирование данных 5k записей.

Насколько я понимаю, похоже, что когда записывается файл фиксации, и когда вы перезапускаете, он выбирает из последнего смещения, в противном случае он повторно обрабатывает данные в последнем успешном пакете.

Как задать количество обрабатываемых документов в пакете?

apache-spark spark-structured-streaming checkpointing

vkr 20.07.2017 источник

comment

Что такое Источник? Являются ли записи документов в источнике? - Jacek Laskowski 20.07.2017

comment

Источником являются данные JSON. - vkr 20.07.2017

Ответы (1)

arrow_upward
1
arrow_downward

Есть ли способ установить количество документов, которые будут обрабатываться в пакете?

Используйте maxFilesPerTrigger для файлов и maxOffsetsPerTrigger для формата kafka.

Jacek Laskowski 20.07.2017

Как задать количество документов, обрабатываемых в пакете?

Ответы (1)

Похожие вопросы