Вопросы по теме 'google-cloud-dataproc'
Примеры Dataproc + BigQuery - есть ли в наличии?
Согласно docos Dataproc, он имеет « встроенную и автоматическую интеграцию с BigQuery ".
У меня есть таблица в BigQuery. Я хочу прочитать эту таблицу и выполнить некоторый анализ, используя созданный мною кластер Dataproc (используя задание...
3447 просмотров
schedule
17.08.2023
загрузить библиотеку Databricks csv в pyspark
Я пытаюсь загрузить библиотеку csv для блоков данных (см. https://github.com/databricks/spark-csv ) на моем искровом кластере, который я создал с помощью Google Dataproc. И все это с помощью PySpark.
Я запускаю PySpark и ввожу:
spark-submit...
1479 просмотров
schedule
24.09.2023
spark-sql в google dataproc из sbt scala
Используя кластер Google Dataproc Spark, моя сборочная банка sbt может получить доступ к Cassandra через SparkContext.
Однако, когда я пытаюсь получить доступ через sqlContext, я получаю классы spark sql, не найденные в удаленном кластере, хотя я...
464 просмотров
schedule
23.11.2022
PySpark reduceByKey вызывает нехватку памяти
Я пытаюсь запустить задание в режиме Yarn, которое обрабатывает большой объем данных (2 ТБ), считанных из облачного хранилища Google. Мой конвейер отлично работает с 10 ГБ данных. Характеристики моего кластера и начало моего конвейера подробно...
908 просмотров
schedule
15.04.2023
Неправильное выделение памяти для Yarn / Spark после автоматической настройки Dataproc Cluster
Я пытаюсь запустить задания Spark в кластере Dataproc, но Spark не запускается из-за неправильной настройки Yarn.
Я получаю следующую ошибку при запуске "spark-shell" из оболочки (локально на главном сервере), а также при загрузке задания через...
11283 просмотров
schedule
07.11.2022
Чрезвычайно медленная обработка в Dataproc: 9 часов против 3 минут на локальной машине
Из журнала я вижу, что есть 182 тыс. строк 70 МБ. Требуется 1,5 часа для загрузки 70 МБ данных и 9 часов (начало 15.11.14 01:58:28 и закончилось 15.11.14 09:19:09) для обучения 182 тыс. строк в Dataproc. Загрузка тех же данных и запуск того же...
4462 просмотров
schedule
06.07.2023
Как в Dataproc получить доступ к истории заданий Spark и Hadoop?
Как в Google Cloud Dataproc получить доступ к серверам истории заданий Spark или Hadoop? Я хочу иметь возможность просматривать подробности своей истории заданий при выполнении заданий.
741 просмотров
schedule
06.06.2023
Запустите задание из оперативной памяти (java.lang.OutOfMemoryError), даже если ее много. хмх слишком низкий?
Я получаю java.lang.OutOfMemoryError с моим заданием Spark, хотя используется только 20% всей памяти.
Я пробовал несколько конфигураций:
1x n1-highmem-16 + 2x n1-highmem-8
3x n1-highmem-8
Мой набор данных состоит из 1,8 млн записей,...
548 просмотров
schedule
17.10.2023
Как лучше всего дождаться Google Dataproc SparkJob в Java?
В настоящее время я запускаю Spark Job через службу Spring REST с использованием клиентского API Dataproc Java. Основы искровой работы:
Инициализировать искру
Данные обработки
Сохранение результатов в файле .json корзины GS.
Причина, по...
617 просмотров
schedule
23.06.2022
В запросе недостаточно областей аутентификации [403] при создании кластера с Google Cloud Dataproc.
В Google Cloud Platform API DataProc включен. Я использую тот же ключ, что и для доступа к GCS и большому запросу, чтобы создать новый кластер в этом примере . Я получаю ошибку Request had insufficient authentication scopes в следующей строке....
3083 просмотров
schedule
14.10.2023
Как установить раздел для функции окна для PySpark?
Я выполняю задание PySpark и получаю следующее сообщение:
WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
На что...
8065 просмотров
schedule
27.02.2022
Управление версиями Dataproc bdutil
Можно установить версию образа кластера hadoop с помощью команды bdutil . линейный инструмент?
С помощью консоли WebUI или GCloud можно выбрать образ версии 1.0, который поддерживает Hadoop 2.x и Hive 1.2. Напротив, используя bdutil ,...
76 просмотров
schedule
19.05.2024
Самый эффективный способ параллельной загрузки множества файлов в Spark?
[Disclaimer: While this question is somewhat specific, I think it circles a very generic issue with Hadoop/Spark.]
Мне нужно обработать большой набор данных (~ 14 ТБ) в Spark. Не агрегирует, в основном фильтрует. Учитывая ~ 30 тыс. файлов (250...
3126 просмотров
schedule
27.05.2023
Как предотвратить отказ в соединении с SOCKS на dataproc?
Я пытаюсь настроить подключение SOCKS к искровому кластеру dataproc, следуя руководству Google Jupyter , но я продолжаю получать ошибки «отказ в соединении» после запуска браузера Chrome:
channel 4: open failed: connect failed: Connection...
3442 просмотров
schedule
25.05.2022
Невозможно импортировать pyspark в кластер dataproc на GCP
Я просто настраиваю кластер на Google Cloud Platform для выполнения некоторых заданий pyspark. Изначально я использовал ipython.sh (из репозитория github) в качестве скрипта инициализации кластера. Это позволило кластеру нормально запуститься,...
675 просмотров
schedule
11.03.2022
Как перезапустить службы hadoop в кластере dataproc
Возможно, я ищу неправильные термины, но Google не сообщает мне, как это сделать. Вопрос в том, как я могу перезапустить службы hadoop на Dataproc после изменения некоторых файлов конфигурации (свойств пряжи и т. Д.)?
Сервисы должны быть...
3069 просмотров
schedule
04.09.2023
Контейнер заданий MapReduce убит Google Cloud Platform [код ошибки: 143]
Я попытался запустить задание mapreduce в кластере в Google Cloud Platform, используя пакет Python mrjob следующим образом:
python mr_script.py -r dataproc --cluster-id [CLUSTER-ID] [gs://DATAFILE_FOLDER]
Я могу успешно запустить тот же...
638 просмотров
schedule
16.04.2024
NoSuchMethodError при попытке запустить Gobblin на Dataproc
Я пытаюсь запустить Gobblin в Google Dataproc, но получаю ошибку NoSuchMethodError и не могу понять как решить.
Waiting for job output...
...
Exception in thread "main" java.lang.reflect.InvocationTargetException
at...
382 просмотров
schedule
23.03.2022
Не удалось остановить задание или удалить задание в облачной платформе Google dataproc.
Когда я пытаюсь удалить кластер dataproc в облачной платформе Google, возникает ошибка ниже,
Не удалось остановить задание b021d29d-acc9-409d-8fca-52363076a63c Кластер не найден
может ли кто-нибудь помочь??
359 просмотров
schedule
10.12.2022
Сбои заданий Spark on Google Cloud Dataproc на последних этапах
Я работаю с кластером Spark на Dataproc, и моя работа терпит неудачу в конце обработки.
Мой источник данных - это текстовые файлы журналов в формате csv в Google Cloud Storage (общий объем - 3,5 ТБ, 5000 файлов).
Логика обработки следующая:...
682 просмотров
schedule
20.06.2022