Вопросы по теме 'google-cloud-dataproc'

Примеры Dataproc + BigQuery - есть ли в наличии?
Согласно docos Dataproc, он имеет « встроенную и автоматическую интеграцию с BigQuery ". У меня есть таблица в BigQuery. Я хочу прочитать эту таблицу и выполнить некоторый анализ, используя созданный мною кластер Dataproc (используя задание...
3447 просмотров

загрузить библиотеку Databricks csv в pyspark
Я пытаюсь загрузить библиотеку csv для блоков данных (см. https://github.com/databricks/spark-csv ) на моем искровом кластере, который я создал с помощью Google Dataproc. И все это с помощью PySpark. Я запускаю PySpark и ввожу: spark-submit...
1479 просмотров

spark-sql в google dataproc из sbt scala
Используя кластер Google Dataproc Spark, моя сборочная банка sbt может получить доступ к Cassandra через SparkContext. Однако, когда я пытаюсь получить доступ через sqlContext, я получаю классы spark sql, не найденные в удаленном кластере, хотя я...
464 просмотров

PySpark reduceByKey вызывает нехватку памяти
Я пытаюсь запустить задание в режиме Yarn, которое обрабатывает большой объем данных (2 ТБ), считанных из облачного хранилища Google. Мой конвейер отлично работает с 10 ГБ данных. Характеристики моего кластера и начало моего конвейера подробно...
908 просмотров

Неправильное выделение памяти для Yarn / Spark после автоматической настройки Dataproc Cluster
Я пытаюсь запустить задания Spark в кластере Dataproc, но Spark не запускается из-за неправильной настройки Yarn. Я получаю следующую ошибку при запуске "spark-shell" из оболочки (локально на главном сервере), а также при загрузке задания через...
11283 просмотров

Чрезвычайно медленная обработка в Dataproc: 9 часов против 3 минут на локальной машине
Из журнала я вижу, что есть 182 тыс. строк 70 МБ. Требуется 1,5 часа для загрузки 70 МБ данных и 9 часов (начало 15.11.14 01:58:28 и закончилось 15.11.14 09:19:09) для обучения 182 тыс. строк в Dataproc. Загрузка тех же данных и запуск того же...
4462 просмотров

Как в Dataproc получить доступ к истории заданий Spark и Hadoop?
Как в Google Cloud Dataproc получить доступ к серверам истории заданий Spark или Hadoop? Я хочу иметь возможность просматривать подробности своей истории заданий при выполнении заданий.
741 просмотров
schedule 06.06.2023

Запустите задание из оперативной памяти (java.lang.OutOfMemoryError), даже если ее много. хмх слишком низкий?
Я получаю java.lang.OutOfMemoryError с моим заданием Spark, хотя используется только 20% всей памяти. Я пробовал несколько конфигураций: 1x n1-highmem-16 + 2x n1-highmem-8 3x n1-highmem-8 Мой набор данных состоит из 1,8 млн записей,...
548 просмотров

Как лучше всего дождаться Google Dataproc SparkJob в Java?
В настоящее время я запускаю Spark Job через службу Spring REST с использованием клиентского API Dataproc Java. Основы искровой работы: Инициализировать искру Данные обработки Сохранение результатов в файле .json корзины GS. Причина, по...
617 просмотров

В запросе недостаточно областей аутентификации [403] при создании кластера с Google Cloud Dataproc.
В Google Cloud Platform API DataProc включен. Я использую тот же ключ, что и для доступа к GCS и большому запросу, чтобы создать новый кластер в этом примере . Я получаю ошибку Request had insufficient authentication scopes в следующей строке....
3083 просмотров

Как установить раздел для функции окна для PySpark?
Я выполняю задание PySpark и получаю следующее сообщение: WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation. На что...
8065 просмотров

Управление версиями Dataproc bdutil
Можно установить версию образа кластера hadoop с помощью команды bdutil . линейный инструмент? С помощью консоли WebUI или GCloud можно выбрать образ версии 1.0, который поддерживает Hadoop 2.x и Hive 1.2. Напротив, используя bdutil ,...
76 просмотров
schedule 19.05.2024

Самый эффективный способ параллельной загрузки множества файлов в Spark?
[Disclaimer: While this question is somewhat specific, I think it circles a very generic issue with Hadoop/Spark.] Мне нужно обработать большой набор данных (~ 14 ТБ) в Spark. Не агрегирует, в основном фильтрует. Учитывая ~ 30 тыс. файлов (250...
3126 просмотров

Как предотвратить отказ в соединении с SOCKS на dataproc?
Я пытаюсь настроить подключение SOCKS к искровому кластеру dataproc, следуя руководству Google Jupyter , но я продолжаю получать ошибки «отказ в соединении» после запуска браузера Chrome: channel 4: open failed: connect failed: Connection...
3442 просмотров
schedule 25.05.2022

Невозможно импортировать pyspark в кластер dataproc на GCP
Я просто настраиваю кластер на Google Cloud Platform для выполнения некоторых заданий pyspark. Изначально я использовал ipython.sh (из репозитория github) в качестве скрипта инициализации кластера. Это позволило кластеру нормально запуститься,...
675 просмотров

Как перезапустить службы hadoop в кластере dataproc
Возможно, я ищу неправильные термины, но Google не сообщает мне, как это сделать. Вопрос в том, как я могу перезапустить службы hadoop на Dataproc после изменения некоторых файлов конфигурации (свойств пряжи и т. Д.)? Сервисы должны быть...
3069 просмотров
schedule 04.09.2023

Контейнер заданий MapReduce убит Google Cloud Platform [код ошибки: 143]
Я попытался запустить задание mapreduce в кластере в Google Cloud Platform, используя пакет Python mrjob следующим образом: python mr_script.py -r dataproc --cluster-id [CLUSTER-ID] [gs://DATAFILE_FOLDER] Я могу успешно запустить тот же...
638 просмотров

NoSuchMethodError при попытке запустить Gobblin на Dataproc
Я пытаюсь запустить Gobblin в Google Dataproc, но получаю ошибку NoSuchMethodError и не могу понять как решить. Waiting for job output... ... Exception in thread "main" java.lang.reflect.InvocationTargetException at...
382 просмотров

Не удалось остановить задание или удалить задание в облачной платформе Google dataproc.
Когда я пытаюсь удалить кластер dataproc в облачной платформе Google, возникает ошибка ниже, Не удалось остановить задание b021d29d-acc9-409d-8fca-52363076a63c Кластер не найден может ли кто-нибудь помочь??
359 просмотров
schedule 10.12.2022

Сбои заданий Spark on Google Cloud Dataproc на последних этапах
Я работаю с кластером Spark на Dataproc, и моя работа терпит неудачу в конце обработки. Мой источник данных - это текстовые файлы журналов в формате csv в Google Cloud Storage (общий объем - 3,5 ТБ, 5000 файлов). Логика обработки следующая:...
682 просмотров