Маленькие полоски Spark ORC

Мы используем Spark для выравнивания данных потока посещений, а затем записываем то же самое в S3 в формате ORC+zlib. Я пытался изменить многие настройки в Spark, но все же результирующие размеры полос создаваемого файла ORC очень малы (‹2 МБ).

Вещи, которые я пробовал до сих пор, чтобы уменьшить размер полосы,

Раньше каждый файл был размером 20 МБ, используя объединение, я теперь создаю файлы размером 250-300 МБ, но все еще есть 200 полос на файл, т.е. каждая полоса ‹2 МБ

Попытался использовать hivecontext вместо sparkcontext, установив для hive.exec.orc.default.stripe.size значение 67108864, но spark не учитывает эти параметры.

Итак, любая идея о том, как я могу увеличить размер полосы создаваемых файлов ORC? потому что проблема с маленькими полосами заключается в том, что когда мы запрашиваем эти файлы ORC с помощью Presto и когда размер полосы меньше 8 МБ, Presto будет читать весь файл данных вместо выбранных полей в запросе.

Тема, связанная с проблемой Presto Stripe: https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA


person Rajiv    schedule 14.01.2018    source источник


Ответы (1)


Я разместил тот же вопрос на платформе сообщества HDP и получил следующий ответ:

«Это связано с HIVE-13232 (исправлено в Hive 1.3.0, 2.0). .1, 2.1.0), но все Apache Spark по-прежнему используют библиотеку Hive 1.2.1.

Не могли бы вы попробовать HDP 2.6.3+ (последняя версия 2.6.4). В HDP Spark 2.2 есть эта фиксированная библиотека кустов».

person Rajiv    schedule 16.01.2018
comment
Подробнее см. здесь community.hortonworks.com/questions/159893/ - person Rajiv; 16.01.2018