Маленькие полоски Spark ORC

Мы используем Spark для выравнивания данных потока посещений, а затем записываем то же самое в S3 в формате ORC+zlib. Я пытался изменить многие настройки в Spark, но все же результирующие размеры полос создаваемого файла ORC очень малы (‹2 МБ).

Вещи, которые я пробовал до сих пор, чтобы уменьшить размер полосы,

Раньше каждый файл был размером 20 МБ, используя объединение, я теперь создаю файлы размером 250-300 МБ, но все еще есть 200 полос на файл, т.е. каждая полоса ‹2 МБ

Попытался использовать hivecontext вместо sparkcontext, установив для hive.exec.orc.default.stripe.size значение 67108864, но spark не учитывает эти параметры.

Итак, любая идея о том, как я могу увеличить размер полосы создаваемых файлов ORC? потому что проблема с маленькими полосами заключается в том, что когда мы запрашиваем эти файлы ORC с помощью Presto и когда размер полосы меньше 8 МБ, Presto будет читать весь файл данных вместо выбранных полей в запросе.

Тема, связанная с проблемой Presto Stripe: https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA

Rajiv 14.01.2018 источник

Ответы (1)

arrow_upward
0
arrow_downward

Я разместил тот же вопрос на платформе сообщества HDP и получил следующий ответ:

«Это связано с HIVE-13232 (исправлено в Hive 1.3.0, 2.0). .1, 2.1.0), но все Apache Spark по-прежнему используют библиотеку Hive 1.2.1.

Не могли бы вы попробовать HDP 2.6.3+ (последняя версия 2.6.4). В HDP Spark 2.2 есть эта фиксированная библиотека кустов».

Rajiv 16.01.2018

comment

Подробнее см. здесь community.hortonworks.com/questions/159893/ - Rajiv; 16.01.2018

Маленькие полоски Spark ORC

Ответы (1)

Похожие вопросы