Статьи по теме amazon-emr [java, amazon-emr, python, hadoop-streaming, elastic-map-reduce]

Вопросы по теме 'amazon-emr'

Несколько файлов в качестве входных данных для Amazon Elastic MapReduce

Я пытаюсь запустить задание на Elastic MapReduce (EMR) с пользовательским банком. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свою работу с параметром s3n://bucketname/compressed/*.xml.gz , я получаю сообщение об...

3415 просмотров

java amazon-emr

22.01.2024

Amazon Elastic MapReduce — SIGTERM

У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...

3383 просмотров

python amazon-emr hadoop-streaming elastic-map-reduce

19.11.2022

Почему при запуске HBase на amazon EMR папка /tmp огромна по сравнению с фактическими данными?

У нас есть кластер hadoop+hbase на amazon EMR с конфигурацией по умолчанию, так что mapred.child.tmp и hbase.tmp.dir указывают на /tmp . Наш кластер работает некоторое время, и теперь /tmp составляет 500 Гб, по сравнению с 70 Гб для реальных...

522 просмотров

amazon-emr hadoop hbase

14.09.2023

Установка количества редукторов для приложения Amazon EMR

Я пытаюсь запустить пример wordcount в Amazon EMR. -1- Сначала я создаю кластер с помощью следующей команды: ./elastic-mapreduce --create --name "MyTest" --alive Это создает кластер с одним экземпляром и возвращает идентификатор задания,...

2214 просмотров

reducers amazon-emr hadoop mappers

20.03.2022

Tomcat недоступен в Amazon EMR

Я создал кластер amazon EMR с одним главным и одним подчиненным. Я установил Tomcat на своем главном экземпляре. Я заменил все "8080" на "8686" и "localhost" на "0.0.0.0" в /conf/ server.xml. Я запустил экземпляр tomcat и вижу ниже вывод команды...

455 просмотров

amazon-web-services amazon-ec2 cloud amazon-emr emr

19.04.2024

Проблемы с использованием AWS SWF

Я новичок в сервисе Amazon Simple Workflow. Есть ли способ запустить рабочие процессы swf на EMR. У меня есть настройка интерфейса командной строки AWS, и я могу запустить hadoop и запустить кластер. Я не нашел достаточно документации по этому...

291 просмотров

amazon-emr hadoop2 amazon-swf

12.01.2023

Hadoop — как повысить производительность в моем случае?

В настоящее время я использую AWS-EMR в качестве кластера. Для библиотеки я использую каскадирование. Входные данные хранятся в aws S3 в каталоге. Каталог содержит много файлов, каждый размером около 100 МБ (не сжатый, обычный текст), и...

168 просмотров

amazon-emr hadoop cascading elastic-map-reduce

03.11.2023

Веб-интерфейс Amazon EMR Application Master?

Я начал выполнять задания PIG на Amazon EMR с помощью Hadoop YARN (AMI 3.3.1), однако, поскольку в Yarn больше нет средства отслеживания заданий, я не могу найти веб-интерфейс, чтобы отслеживать количество Mappers и Reducers для задания MapReduce,...

3398 просмотров

amazon-emr hadoop yarn hadoop2

17.01.2023

Пример MRUnit для MultipleOutputs

Я написал работу Hadoop только для карты, в которой я использовал концепцию MultipleOutputs. Проблема в том, что я хочу протестировать этот код с помощью MRUnit. Я не вижу рабочего примера для тестирования MultipleOutputs. Мой код картографа...

2131 просмотров

amazon-emr mapreduce multipleoutputs elastic-map-reduce mrunit

05.03.2023

Модуль Amazon EMR Pyspark не найден

Я создал кластер Amazon EMR с уже установленным Spark. Когда я запускаю pyspark с терминала, он переходит в терминал pyspark, когда я использую ssh в своем кластере. Я загрузил файл с помощью scp, и когда я пытаюсь запустить его с помощью python...

7966 просмотров

python amazon-web-services pyspark amazon-emr

21.03.2023

Использование AWS для выполнения ETL по запросу

Я хочу выполнить задание ETL по запросу, используя архитектуру AWS. Этот процесс ETL будет выполняться ежедневно, и я не хочу постоянно платить за инстанс EC2. Это задание ETL может быть написано, например, на Python. Я знаю, что в EMR я могу...

575 просмотров

python amazon-web-services amazon-emr etl emr

11.02.2024

Как можно обновить переменные среды в HIVE из R?

Я хотел бы использовать переменные среды Hive, чтобы использовать значение представлений в Hive и устанавливать приоритет моих запросов Hive. Я видел, как это сделать, в виде команды set mapred.job.priority=VERY_LOW . Я подключаюсь к Hive и...

475 просмотров

r amazon-emr hive jdbc

21.02.2023

Java NPE при загрузке зависимости от Maven из Zeppelin в AWS EMR

Я создал кластер Spark в EMR, используя следующую команду: aws emr create-cluster \ --name "2-node Zeppelin cluster (turn me off after use)" \ --instance-type m3.xlarge \ --release-label emr-4.2.0 \ --instance-count 2 \ --log-uri...

514 просмотров

maven amazon-web-services apache-spark amazon-emr apache-zeppelin

30.06.2023

Тома EBS в кластере EMR с CloudFormation

Я пытаюсь запустить кластер EMR с помощью AWS CloudFormation. Я хотел бы добавить тома EBS к своим основным экземплярам, однако ни _ 1_ , ни AWS::EMR::InstanceGroupConfig типы ресурсов упоминают что-либо о томах EBS. Я вижу, что вы можете...

575 просмотров

amazon-web-services amazon-cloudformation amazon-emr

13.03.2022

Cassandra write дает очень медленную производительность с использованием Spark

У меня есть таблица cassandra с примерно 500+ миллионами записей (в 6 узлах), теперь я пытаюсь вставить данные с помощью spark-cassandra-connector в Amazon EMR Структура таблицы CREATE TABLE dmp.dmp_user_profiles_latest ( pid text...

1794 просмотров

cassandra apache-spark amazon-emr spark-cassandra-connector

02.02.2022

UnsatisfiedLinkError в задании Spark EMR с собственной библиотекой

Я пытаюсь запустить искровое задание, в котором используется собственная общая библиотека (.so). Я использую --jars для копирования моего .so всем исполнителям (и файл, кажется, там, вместе с приложением spark .jar), но почему-то мне не удается...

308 просмотров

amazon-web-services native apache-spark amazon-emr java-native-interface

16.07.2023

Как я могу присоединить том EBS к кластеру EMR с помощью AWS Data Pipeline?

AWS недавно предоставила возможность присоединить том EBS к конкретным типам инстансов кластера, таким как m4. Хотя можно присоединить том EBS с помощью EMR, я не могу найти способ сделать это через AWS Data Pipeline. Я что-то упускаю?

821 просмотров

amazon-web-services amazon-emr amazon-data-pipeline emr

27.02.2022

Amazon EMR и S3, org.apache.spark.sql.AnalysisException: путь s3: /// var / table уже существует

Я пытаюсь найти источник ошибки в Spark 2.0.0, у меня есть карта, которая содержит имена таблиц в качестве ключей и фрейм данных в качестве значения, я просматриваю ее и в конце использую spark-avro (3.0.0 -preview2) для записи всего в каталоги S3....

1857 просмотров

amazon-s3 apache-spark amazon-emr spark-avro spark-dataframe

23.10.2022

Как получить информацию о кластере EMR с ведомой машины (группа экземпляров задач)

Мне нужно получить информацию о кластере EMR из экземпляров группы экземпляров задач (подчиненных). Мой текущий подход- Для этого я получил частный IP-адрес от ведомого экземпляра, и для этого я использовал данную команду - aws ec2...

389 просмотров

amazon-web-services amazon-ec2 amazon-emr hadoop mapreduce

04.11.2022

Пропускная конфигурация улья с помощью aws emr cli

Я слежу за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытается создать кластер emr с помощью awscli == 1.10.38 . Я использую следующую команду, как указано в...

1232 просмотров

amazon-web-services amazon-emr aws-cli hive emr

02.02.2023

Вопросы по теме 'amazon-emr'

Похожие вопросы