Вопросы по теме 'amazon-emr'
Несколько файлов в качестве входных данных для Amazon Elastic MapReduce
Я пытаюсь запустить задание на Elastic MapReduce (EMR) с пользовательским банком. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свою работу с параметром s3n://bucketname/compressed/*.xml.gz , я получаю сообщение об...
3415 просмотров
schedule
22.01.2024
Amazon Elastic MapReduce — SIGTERM
У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...
3383 просмотров
schedule
19.11.2022
Почему при запуске HBase на amazon EMR папка /tmp огромна по сравнению с фактическими данными?
У нас есть кластер hadoop+hbase на amazon EMR с конфигурацией по умолчанию, так что mapred.child.tmp и hbase.tmp.dir указывают на /tmp . Наш кластер работает некоторое время, и теперь /tmp составляет 500 Гб, по сравнению с 70 Гб для реальных...
522 просмотров
schedule
14.09.2023
Установка количества редукторов для приложения Amazon EMR
Я пытаюсь запустить пример wordcount в Amazon EMR.
-1- Сначала я создаю кластер с помощью следующей команды:
./elastic-mapreduce --create --name "MyTest" --alive
Это создает кластер с одним экземпляром и возвращает идентификатор задания,...
2214 просмотров
schedule
20.03.2022
Tomcat недоступен в Amazon EMR
Я создал кластер amazon EMR с одним главным и одним подчиненным. Я установил Tomcat на своем главном экземпляре. Я заменил все "8080" на "8686" и "localhost" на "0.0.0.0" в /conf/ server.xml. Я запустил экземпляр tomcat и вижу ниже вывод команды...
455 просмотров
schedule
19.04.2024
Проблемы с использованием AWS SWF
Я новичок в сервисе Amazon Simple Workflow. Есть ли способ запустить рабочие процессы swf на EMR. У меня есть настройка интерфейса командной строки AWS, и я могу запустить hadoop и запустить кластер. Я не нашел достаточно документации по этому...
291 просмотров
schedule
12.01.2023
Hadoop — как повысить производительность в моем случае?
В настоящее время я использую AWS-EMR в качестве кластера. Для библиотеки я использую каскадирование.
Входные данные хранятся в aws S3 в каталоге. Каталог содержит много файлов, каждый размером около 100 МБ (не сжатый, обычный текст), и...
168 просмотров
schedule
03.11.2023
Веб-интерфейс Amazon EMR Application Master?
Я начал выполнять задания PIG на Amazon EMR с помощью Hadoop YARN (AMI 3.3.1), однако, поскольку в Yarn больше нет средства отслеживания заданий, я не могу найти веб-интерфейс, чтобы отслеживать количество Mappers и Reducers для задания MapReduce,...
3398 просмотров
schedule
17.01.2023
Пример MRUnit для MultipleOutputs
Я написал работу Hadoop только для карты, в которой я использовал концепцию MultipleOutputs. Проблема в том, что я хочу протестировать этот код с помощью MRUnit. Я не вижу рабочего примера для тестирования MultipleOutputs.
Мой код картографа...
2131 просмотров
schedule
05.03.2023
Модуль Amazon EMR Pyspark не найден
Я создал кластер Amazon EMR с уже установленным Spark. Когда я запускаю pyspark с терминала, он переходит в терминал pyspark, когда я использую ssh в своем кластере.
Я загрузил файл с помощью scp, и когда я пытаюсь запустить его с помощью python...
7966 просмотров
schedule
21.03.2023
Использование AWS для выполнения ETL по запросу
Я хочу выполнить задание ETL по запросу, используя архитектуру AWS.
Этот процесс ETL будет выполняться ежедневно, и я не хочу постоянно платить за инстанс EC2. Это задание ETL может быть написано, например, на Python.
Я знаю, что в EMR я могу...
575 просмотров
schedule
11.02.2024
Как можно обновить переменные среды в HIVE из R?
Я хотел бы использовать переменные среды Hive, чтобы использовать значение представлений в Hive и устанавливать приоритет моих запросов Hive. Я видел, как это сделать, в виде команды set mapred.job.priority=VERY_LOW .
Я подключаюсь к Hive и...
475 просмотров
schedule
21.02.2023
Java NPE при загрузке зависимости от Maven из Zeppelin в AWS EMR
Я создал кластер Spark в EMR, используя следующую команду:
aws emr create-cluster \
--name "2-node Zeppelin cluster (turn me off after use)" \
--instance-type m3.xlarge \
--release-label emr-4.2.0 \
--instance-count 2 \
--log-uri...
514 просмотров
schedule
30.06.2023
Тома EBS в кластере EMR с CloudFormation
Я пытаюсь запустить кластер EMR с помощью AWS CloudFormation. Я хотел бы добавить тома EBS к своим основным экземплярам, однако ни _ 1_ , ни AWS::EMR::InstanceGroupConfig типы ресурсов упоминают что-либо о томах EBS. Я вижу, что вы можете...
575 просмотров
schedule
13.03.2022
Cassandra write дает очень медленную производительность с использованием Spark
У меня есть таблица cassandra с примерно 500+ миллионами записей (в 6 узлах), теперь я пытаюсь вставить данные с помощью spark-cassandra-connector в Amazon EMR
Структура таблицы
CREATE TABLE dmp.dmp_user_profiles_latest (
pid text...
1794 просмотров
schedule
02.02.2022
UnsatisfiedLinkError в задании Spark EMR с собственной библиотекой
Я пытаюсь запустить искровое задание, в котором используется собственная общая библиотека (.so). Я использую --jars для копирования моего .so всем исполнителям (и файл, кажется, там, вместе с приложением spark .jar), но почему-то мне не удается...
308 просмотров
schedule
16.07.2023
Как я могу присоединить том EBS к кластеру EMR с помощью AWS Data Pipeline?
AWS недавно предоставила возможность присоединить том EBS к конкретным типам инстансов кластера, таким как m4. Хотя можно присоединить том EBS с помощью EMR, я не могу найти способ сделать это через AWS Data Pipeline. Я что-то упускаю?
821 просмотров
schedule
27.02.2022
Amazon EMR и S3, org.apache.spark.sql.AnalysisException: путь s3: /// var / table уже существует
Я пытаюсь найти источник ошибки в Spark 2.0.0, у меня есть карта, которая содержит имена таблиц в качестве ключей и фрейм данных в качестве значения, я просматриваю ее и в конце использую spark-avro (3.0.0 -preview2) для записи всего в каталоги S3....
1857 просмотров
schedule
23.10.2022
Как получить информацию о кластере EMR с ведомой машины (группа экземпляров задач)
Мне нужно получить информацию о кластере EMR из экземпляров группы экземпляров задач (подчиненных).
Мой текущий подход-
Для этого я получил частный IP-адрес от ведомого экземпляра, и для этого я использовал данную команду -
aws ec2...
389 просмотров
schedule
04.11.2022
Пропускная конфигурация улья с помощью aws emr cli
Я слежу за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытается создать кластер emr с помощью awscli == 1.10.38 .
Я использую следующую команду, как указано в...
1232 просмотров
schedule
02.02.2023