Статьи по теме google-cloud-dataproc

Вопросы по теме 'google-cloud-dataproc'

Примеры Dataproc + BigQuery - есть ли в наличии?

Согласно docos Dataproc, он имеет « встроенную и автоматическую интеграцию с BigQuery ". У меня есть таблица в BigQuery. Я хочу прочитать эту таблицу и выполнить некоторый анализ, используя созданный мною кластер Dataproc (используя задание...

3447 просмотров

google-cloud-platform google-bigquery google-cloud-dataproc

17.08.2023

загрузить библиотеку Databricks csv в pyspark

Я пытаюсь загрузить библиотеку csv для блоков данных (см. https://github.com/databricks/spark-csv ) на моем искровом кластере, который я создал с помощью Google Dataproc. И все это с помощью PySpark. Я запускаю PySpark и ввожу: spark-submit...

1479 просмотров

csv google-cloud-dataproc apache-spark pyspark

24.09.2023

spark-sql в google dataproc из sbt scala

Используя кластер Google Dataproc Spark, моя сборочная банка sbt может получить доступ к Cassandra через SparkContext. Однако, когда я пытаюсь получить доступ через sqlContext, я получаю классы spark sql, не найденные в удаленном кластере, хотя я...

464 просмотров

google-cloud-dataproc apache-spark-sql

23.11.2022

PySpark reduceByKey вызывает нехватку памяти

Я пытаюсь запустить задание в режиме Yarn, которое обрабатывает большой объем данных (2 ТБ), считанных из облачного хранилища Google. Мой конвейер отлично работает с 10 ГБ данных. Характеристики моего кластера и начало моего конвейера подробно...

908 просмотров

google-cloud-dataproc apache-spark pyspark

15.04.2023

Неправильное выделение памяти для Yarn / Spark после автоматической настройки Dataproc Cluster

Я пытаюсь запустить задания Spark в кластере Dataproc, но Spark не запускается из-за неправильной настройки Yarn. Я получаю следующую ошибку при запуске "spark-shell" из оболочки (локально на главном сервере), а также при загрузке задания через...

11283 просмотров

google-cloud-platform google-cloud-dataproc hadoop

07.11.2022

Чрезвычайно медленная обработка в Dataproc: 9 часов против 3 минут на локальной машине

Из журнала я вижу, что есть 182 тыс. строк 70 МБ. Требуется 1,5 часа для загрузки 70 МБ данных и 9 часов (начало 15.11.14 01:58:28 и закончилось 15.11.14 09:19:09) для обучения 182 тыс. строк в Dataproc. Загрузка тех же данных и запуск того же...

4462 просмотров

google-cloud-platform google-cloud-dataproc apache-spark

06.07.2023

Как в Dataproc получить доступ к истории заданий Spark и Hadoop?

Как в Google Cloud Dataproc получить доступ к серверам истории заданий Spark или Hadoop? Я хочу иметь возможность просматривать подробности своей истории заданий при выполнении заданий.

741 просмотров

google-cloud-dataproc

06.06.2023

Запустите задание из оперативной памяти (java.lang.OutOfMemoryError), даже если ее много. хмх слишком низкий?

Я получаю java.lang.OutOfMemoryError с моим заданием Spark, хотя используется только 20% всей памяти. Я пробовал несколько конфигураций: 1x n1-highmem-16 + 2x n1-highmem-8 3x n1-highmem-8 Мой набор данных состоит из 1,8 млн записей,...

548 просмотров

google-cloud-platform google-cloud-dataproc apache-spark

17.10.2023

Как лучше всего дождаться Google Dataproc SparkJob в Java?

В настоящее время я запускаю Spark Job через службу Spring REST с использованием клиентского API Dataproc Java. Основы искровой работы: Инициализировать искру Данные обработки Сохранение результатов в файле .json корзины GS. Причина, по...

617 просмотров

google-cloud-storage google-cloud-dataproc apache-spark

23.06.2022

В запросе недостаточно областей аутентификации [403] при создании кластера с Google Cloud Dataproc.

В Google Cloud Platform API DataProc включен. Я использую тот же ключ, что и для доступа к GCS и большому запросу, чтобы создать новый кластер в этом примере . Я получаю ошибку Request had insufficient authentication scopes в следующей строке....

3083 просмотров

google-cloud-platform c# google-bigquery google-cloud-dataproc

14.10.2023

Как установить раздел для функции окна для PySpark?

Я выполняю задание PySpark и получаю следующее сообщение: WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation. На что...

8065 просмотров

google-cloud-dataproc apache-spark pyspark apache-spark-sql

27.02.2022

Управление версиями Dataproc bdutil

Можно установить версию образа кластера hadoop с помощью команды bdutil . линейный инструмент? С помощью консоли WebUI или GCloud можно выбрать образ версии 1.0, который поддерживает Hadoop 2.x и Hive 1.2. Напротив, используя bdutil ,...

76 просмотров

google-cloud-dataproc hadoop

19.05.2024

Самый эффективный способ параллельной загрузки множества файлов в Spark?

[Disclaimer: While this question is somewhat specific, I think it circles a very generic issue with Hadoop/Spark.] Мне нужно обработать большой набор данных (~ 14 ТБ) в Spark. Не агрегирует, в основном фильтрует. Учитывая ~ 30 тыс. файлов (250...

3126 просмотров

google-cloud-dataproc apache-spark pyspark

27.05.2023

Как предотвратить отказ в соединении с SOCKS на dataproc?

Я пытаюсь настроить подключение SOCKS к искровому кластеру dataproc, следуя руководству Google Jupyter , но я продолжаю получать ошибки «отказ в соединении» после запуска браузера Chrome: channel 4: open failed: connect failed: Connection...

3442 просмотров

ssh google-cloud-dataproc socks

25.05.2022

Невозможно импортировать pyspark в кластер dataproc на GCP

Я просто настраиваю кластер на Google Cloud Platform для выполнения некоторых заданий pyspark. Изначально я использовал ipython.sh (из репозитория github) в качестве скрипта инициализации кластера. Это позволило кластеру нормально запуститься,...

675 просмотров

google-cloud-platform google-cloud-dataproc pyspark

11.03.2022

Как перезапустить службы hadoop в кластере dataproc

Возможно, я ищу неправильные термины, но Google не сообщает мне, как это сделать. Вопрос в том, как я могу перезапустить службы hadoop на Dataproc после изменения некоторых файлов конфигурации (свойств пряжи и т. Д.)? Сервисы должны быть...

3069 просмотров

google-cloud-dataproc hadoop yarn

04.09.2023

Контейнер заданий MapReduce убит Google Cloud Platform [код ошибки: 143]

Я попытался запустить задание mapreduce в кластере в Google Cloud Platform, используя пакет Python mrjob следующим образом: python mr_script.py -r dataproc --cluster-id [CLUSTER-ID] [gs://DATAFILE_FOLDER] Я могу успешно запустить тот же...

638 просмотров

google-cloud-platform google-cloud-dataproc hadoop mapreduce mrjob

16.04.2024

NoSuchMethodError при попытке запустить Gobblin на Dataproc

Я пытаюсь запустить Gobblin в Google Dataproc, но получаю ошибку NoSuchMethodError и не могу понять как решить. Waiting for job output... ... Exception in thread "main" java.lang.reflect.InvocationTargetException at...

382 просмотров

google-cloud-dataproc hadoop bigdata gobblin

23.03.2022

Не удалось остановить задание или удалить задание в облачной платформе Google dataproc.

Когда я пытаюсь удалить кластер dataproc в облачной платформе Google, возникает ошибка ниже, Не удалось остановить задание b021d29d-acc9-409d-8fca-52363076a63c Кластер не найден может ли кто-нибудь помочь??

359 просмотров

google-cloud-dataproc

10.12.2022

Сбои заданий Spark on Google Cloud Dataproc на последних этапах

Я работаю с кластером Spark на Dataproc, и моя работа терпит неудачу в конце обработки. Мой источник данных - это текстовые файлы журналов в формате csv в Google Cloud Storage (общий объем - 3,5 ТБ, 5000 файлов). Логика обработки следующая:...

682 просмотров

google-cloud-dataproc apache-spark pyspark

20.06.2022

Вопросы по теме 'google-cloud-dataproc'

Похожие вопросы