Я просто настраиваю кластер на Google Cloud Platform для выполнения некоторых заданий pyspark. Изначально я использовал ipython.sh (из репозитория github) в качестве скрипта инициализации кластера. Это позволило кластеру нормально запуститься, однако при попытке импортировать pyspark в блокнот Ipython я получил ошибку «не могу импортировать аккумуляторы имен».
После некоторого поиска я подумал, что это как-то связано с тем, что путь установки pyspark не включен в мой путь к Python, поэтому я удалил свой кластер и хотел создать новый, используя jupyter.sh в качестве сценария инициализации.
Однако теперь мой кластер вообще не запускается, я получаю сообщение об ошибке. Проверяя журнал «dataproc-initialization-script-0_output», он просто говорит:
/ usr / bin / env: bash: нет такого файла или каталога
Любые идеи о том, что мне здесь не хватает?
Изменить:
Я получил кластер для запуска с публичным скриптом инициализации в gs: //dataproc-initialization-actions/jupyter/jupyter.sh
Однако я все еще сталкиваюсь с теми же проблемами при попытке загрузить pyspark в записную книжку pyspark, когда я пытаюсь что-то вроде «from pyspark import SparkConf», я получаю ошибки (как ни странно, я получаю другую ошибку, если запускаю тот же импорт второй раз).
Есть отзывы на данном этапе?
Это результат моей записной книжки: вывод записной книжки html
cluster-1:192c22e4-e0f6-4970-8428-687327016c49
иcluster-1:a1218d27-1b5a-4c7f-97ec-71b34cf76b5f
, спасибо! - person Fematich   schedule 19.09.2016