Я пытаюсь запустить задания Spark в кластере Dataproc, но Spark не запускается из-за неправильной настройки Yarn.
Я получаю следующую ошибку при запуске "spark-shell" из оболочки (локально на главном сервере), а также при загрузке задания через веб-интерфейс и утилиту командной строки gcloud с моего локального компьютера:
15/11/08 21:27:16 ERROR org.apache.spark.SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: Required executor memory (38281+2679 MB) is above the max threshold (20480 MB) of this cluster! Please increase the value of 'yarn.s
cheduler.maximum-allocation-mb'.
Я попытался изменить значение в /etc/hadoop/conf/yarn-site.xml
, но ничего не изменилось. Я не думаю, что он извлекает конфигурацию из этого файла.
Я пробовал использовать несколько комбинаций кластеров на нескольких сайтах (в основном в Европе), и у меня это работает только с версией с низким объемом памяти (4 ядра, 15 ГБ памяти).
Т.е. это проблема только на узлах, настроенных на объем памяти выше, чем позволяет пряжа по умолчанию.