Я вижу серьезную проблему с производительностью, когда Apache Spark загружает свои результаты в S3. Насколько я понимаю, это идет по этим шагам...
Вывод заключительного этапа записывается в таблицу
_temp/
в HDFS и перемещается в папку"_temporary"
внутри конкретной папкиS3
.Как только весь процесс завершен, Apache spark завершает этап
saveAsTextFile
, а затем файлы из папки"_temporary"
вS3
перемещаются в основную папку. На самом деле это занимает много времени [примерно 1 минута на файл (средний размер: 600 МБ BZ2)]. Эта часть не регистрируется в обычном журналеstderr
.
Я использую Apache Spark 1.0.1
с Hadoop 2.2
на AWS EMR.
Кто-нибудь сталкивался с этой проблемой?
Обновление 1
Как я могу увеличить количество потоков, выполняющих этот процесс перемещения?
Любое предложение высоко ценится...
Спасибо