Вопросы по теме 'amazon-emr'

Несколько файлов в качестве входных данных для Amazon Elastic MapReduce
Я пытаюсь запустить задание на Elastic MapReduce (EMR) с пользовательским банком. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свою работу с параметром s3n://bucketname/compressed/*.xml.gz , я получаю сообщение об...
3415 просмотров
schedule 22.01.2024

Amazon Elastic MapReduce — SIGTERM
У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...
3383 просмотров

Почему при запуске HBase на amazon EMR папка /tmp огромна по сравнению с фактическими данными?
У нас есть кластер hadoop+hbase на amazon EMR с конфигурацией по умолчанию, так что mapred.child.tmp и hbase.tmp.dir указывают на /tmp . Наш кластер работает некоторое время, и теперь /tmp составляет 500 Гб, по сравнению с 70 Гб для реальных...
522 просмотров
schedule 14.09.2023

Установка количества редукторов для приложения Amazon EMR
Я пытаюсь запустить пример wordcount в Amazon EMR. -1- Сначала я создаю кластер с помощью следующей команды: ./elastic-mapreduce --create --name "MyTest" --alive Это создает кластер с одним экземпляром и возвращает идентификатор задания,...
2214 просмотров
schedule 20.03.2022

Tomcat недоступен в Amazon EMR
Я создал кластер amazon EMR с одним главным и одним подчиненным. Я установил Tomcat на своем главном экземпляре. Я заменил все "8080" на "8686" и "localhost" на "0.0.0.0" в /conf/ server.xml. Я запустил экземпляр tomcat и вижу ниже вывод команды...
455 просмотров

Проблемы с использованием AWS SWF
Я новичок в сервисе Amazon Simple Workflow. Есть ли способ запустить рабочие процессы swf на EMR. У меня есть настройка интерфейса командной строки AWS, и я могу запустить hadoop и запустить кластер. Я не нашел достаточно документации по этому...
291 просмотров
schedule 12.01.2023

Hadoop — как повысить производительность в моем случае?
В настоящее время я использую AWS-EMR в качестве кластера. Для библиотеки я использую каскадирование. Входные данные хранятся в aws S3 в каталоге. Каталог содержит много файлов, каждый размером около 100 МБ (не сжатый, обычный текст), и...
168 просмотров

Веб-интерфейс Amazon EMR Application Master?
Я начал выполнять задания PIG на Amazon EMR с помощью Hadoop YARN (AMI 3.3.1), однако, поскольку в Yarn больше нет средства отслеживания заданий, я не могу найти веб-интерфейс, чтобы отслеживать количество Mappers и Reducers для задания MapReduce,...
3398 просмотров
schedule 17.01.2023

Пример MRUnit для MultipleOutputs
Я написал работу Hadoop только для карты, в которой я использовал концепцию MultipleOutputs. Проблема в том, что я хочу протестировать этот код с помощью MRUnit. Я не вижу рабочего примера для тестирования MultipleOutputs. Мой код картографа...
2131 просмотров

Модуль Amazon EMR Pyspark не найден
Я создал кластер Amazon EMR с уже установленным Spark. Когда я запускаю pyspark с терминала, он переходит в терминал pyspark, когда я использую ssh в своем кластере. Я загрузил файл с помощью scp, и когда я пытаюсь запустить его с помощью python...
7966 просмотров

Использование AWS для выполнения ETL по запросу
Я хочу выполнить задание ETL по запросу, используя архитектуру AWS. Этот процесс ETL будет выполняться ежедневно, и я не хочу постоянно платить за инстанс EC2. Это задание ETL может быть написано, например, на Python. Я знаю, что в EMR я могу...
575 просмотров

Как можно обновить переменные среды в HIVE из R?
Я хотел бы использовать переменные среды Hive, чтобы использовать значение представлений в Hive и устанавливать приоритет моих запросов Hive. Я видел, как это сделать, в виде команды set mapred.job.priority=VERY_LOW . Я подключаюсь к Hive и...
475 просмотров
schedule 21.02.2023

Java NPE при загрузке зависимости от Maven из Zeppelin в AWS EMR
Я создал кластер Spark в EMR, используя следующую команду: aws emr create-cluster \ --name "2-node Zeppelin cluster (turn me off after use)" \ --instance-type m3.xlarge \ --release-label emr-4.2.0 \ --instance-count 2 \ --log-uri...
514 просмотров

Тома EBS в кластере EMR с CloudFormation
Я пытаюсь запустить кластер EMR с помощью AWS CloudFormation. Я хотел бы добавить тома EBS к своим основным экземплярам, ​​однако ни _ 1_ , ни AWS::EMR::InstanceGroupConfig типы ресурсов упоминают что-либо о томах EBS. Я вижу, что вы можете...
575 просмотров

Cassandra write дает очень медленную производительность с использованием Spark
У меня есть таблица cassandra с примерно 500+ миллионами записей (в 6 узлах), теперь я пытаюсь вставить данные с помощью spark-cassandra-connector в Amazon EMR Структура таблицы CREATE TABLE dmp.dmp_user_profiles_latest ( pid text...
1794 просмотров

UnsatisfiedLinkError в задании Spark EMR с собственной библиотекой
Я пытаюсь запустить искровое задание, в котором используется собственная общая библиотека (.so). Я использую --jars для копирования моего .so всем исполнителям (и файл, кажется, там, вместе с приложением spark .jar), но почему-то мне не удается...
308 просмотров

Как я могу присоединить том EBS к кластеру EMR с помощью AWS Data Pipeline?
AWS недавно предоставила возможность присоединить том EBS к конкретным типам инстансов кластера, таким как m4. Хотя можно присоединить том EBS с помощью EMR, я не могу найти способ сделать это через AWS Data Pipeline. Я что-то упускаю?
821 просмотров

Amazon EMR и S3, org.apache.spark.sql.AnalysisException: путь s3: /// var / table уже существует
Я пытаюсь найти источник ошибки в Spark 2.0.0, у меня есть карта, которая содержит имена таблиц в качестве ключей и фрейм данных в качестве значения, я просматриваю ее и в конце использую spark-avro (3.0.0 -preview2) для записи всего в каталоги S3....
1857 просмотров

Как получить информацию о кластере EMR с ведомой машины (группа экземпляров задач)
Мне нужно получить информацию о кластере EMR из экземпляров группы экземпляров задач (подчиненных). Мой текущий подход- Для этого я получил частный IP-адрес от ведомого экземпляра, и для этого я использовал данную команду - aws ec2...
389 просмотров

Пропускная конфигурация улья с помощью aws emr cli
Я слежу за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытается создать кластер emr с помощью awscli == 1.10.38 . Я использую следующую команду, как указано в...
1232 просмотров