Как в Google Cloud Dataproc получить доступ к серверам истории заданий Spark или Hadoop? Я хочу иметь возможность просматривать подробности своей истории заданий при выполнении заданий.
Как в Dataproc получить доступ к истории заданий Spark и Hadoop?
Ответы (1)
Для этого вам нужно будет создать SSH-туннель к кластеру, а затем использовать прокси-сервер SOCKS с вашим браузером. Это связано с тем, что пока веб-интерфейсы в кластере открыты, правила брандмауэра не позволяют никому подключаться (в целях безопасности).
Чтобы получить доступ к серверу истории заданий Spark или Hadoop, вам сначала нужно создать SSH-туннель к главному узлу вашего кластера:
gcloud compute ssh --zone=<master-host-zone> \
--ssh-flag="-D 1080" --ssh-flag="-N" --ssh-flag="-n" <master-host-name>
После того, как у вас есть туннель SSH, вам необходимо настроить браузер для использования прокси-сервера SOCKS. Предполагая, что вы используете Chrome и знаете путь к Chrome в вашей системе, вы можете запустить Chrome с прокси-сервером SOCKS, используя:
<Google Chrome executable path> \
--proxy-server="socks5://localhost:1080" \
--host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" \
--user-data-dir=/tmp/
Полную информацию о том, как это сделать, можно найти здесь.