Вопросы по теме 'emr'

Потоковая передача Hadoop: импорт модулей в EMR
Этот предыдущий вопрос рассмотрен как импортировать такие модули, как nltk, для потоковой передачи Hadoop. Намеченные шаги были следующими: zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip...
2213 просмотров
schedule 17.10.2023

Пользовательский RecordReader в задании EMR
Как указать пользовательский RecordReader для использования в потоке заданий в Amazon EMR? Примечание. Здесь новичок в Hadoop.
200 просмотров
schedule 19.04.2024

EMR — Hive и Java вместе
Я использую Amazon Elastic-Map-Reduce. Можно ли запустить запрос HIVE, который использует код Java (с использованием функции преобразования)? Когда я создаю новый поток заданий, мне нужно выбирать между пользовательской банкой и программой куста,...
1188 просмотров
schedule 09.12.2023

Использование s3distcp с Amazon EMR для копирования одного файла
Я хочу скопировать только один файл в HDFS, используя s3distcp. Я попытался использовать аргумент srcPattern, но это не помогло, и он продолжает вызывать исключение java.lang.Runtime. Возможно, виновато регулярное выражение, которое я использую,...
4223 просмотров

Пользовательское ведение журнала EMR из картографа и редуктора
Возможно ли иметь пользовательские журналы от картографов и редукторов в EMR... допустим, у меня есть картограф, который проходит через данные и фильтрует на основе определенных условий Код картографа (потоковая передача) Посмотрите на строку...
291 просмотров
schedule 09.03.2022

Действие начальной загрузки для EMR
При загрузке на AWS EMR я получаю следующее. Любые подсказки, как это решить? /mnt/var/lib/bootstrap-actions/1/STAR: /lib/libc.so.6: version 'GLIBC_2.14' not found (required by /mnt/var/lib/bootstrap-actions/1/STAR)
508 просмотров
emr
schedule 23.03.2023

Tomcat недоступен в Amazon EMR
Я создал кластер amazon EMR с одним главным и одним подчиненным. Я установил Tomcat на своем главном экземпляре. Я заменил все "8080" на "8686" и "localhost" на "0.0.0.0" в /conf/ server.xml. Я запустил экземпляр tomcat и вижу ниже вывод команды...
455 просмотров

Загрузка библиотек в EMR с использованием MRJob на Python
Постановка задачи: Я пытаюсь запустить задание по уменьшению карты в Amazon EMR с использованием библиотеки Python MRJob, и у меня возникают проблемы с начальной загрузкой узлов с необходимыми библиотеками и пакетами. Подробности: мой пример...
1913 просмотров
schedule 12.01.2024

Хороший способ справиться с ограничением кластера EMR
Я использую EMR для обработки журналов. Так что в основном это инструмент командной строки, который запускает несколько кластеров, а затем настраивает часть обработки. Проблема, с которой я сталкиваюсь, заключается в том, что когда несколько человек...
130 просмотров
schedule 06.12.2023

Проблема с производительностью загрузки Apache Spark на S3
Я вижу серьезную проблему с производительностью, когда Apache Spark загружает свои результаты в S3. Насколько я понимаю, это идет по этим шагам... Вывод заключительного этапа записывается в таблицу _temp/ в HDFS и перемещается в папку...
1334 просмотров
schedule 17.10.2022

Сообщения журнала приложения Spark не отображаются в журналах EMR
Я запускаю искровое задание на EMR, но мои сообщения журнала не записываются в журналы. Я ожидал, что мои сообщения журнала будут смешиваться с сообщениями журнала искры, как это происходит, когда я запускаю задание hadoop. Когда я запускаю свою...
3511 просмотров
schedule 13.04.2022

Настройка хранилища метаданных aws emr hive hive-site.xml
Я пытаюсь настроить hive-site.xml , чтобы MySQL был за пределами локального MySQL в EMR. Как изменить существующую конфигурацию кластера, чтобы добавить hive-site.xml из S3?...
4608 просмотров
schedule 16.05.2022

Как запустить JAR-файл Spark из консоли AWS без Spark-Shell
Я пытаюсь запустить приложение Spark на консоли AWS EMR (Amazon Web Services). Мой Scala-скрипт, скомпилированный в банке, принимает настройки SparkConf в качестве параметров или просто строк: val sparkConf = new SparkConf()...
703 просмотров
schedule 17.02.2023

ошибка задания boto-emr: ошибка конвейера python не работает и java.lang.OutOfMemoryError
Я подготовил поток задач boto на AWS/EMR, который отлично работает с использованием знакомого тестового конвейера: sed -n '0~10000p' Big.csv | ./map.py | sort -t$'\t' -k1 | ./reduce.py Выполнение задания boto emr также работает хорошо,...
209 просмотров
schedule 11.09.2022

Amazon EMR + mrjob: ошибка начальной загрузки, действие начальной загрузки 1 вернуло ненулевой код возврата
Я пытаюсь запустить mrjob на Amazon EMR, используя экземпляры ec2. Это работало, пока я не понял, что использую пакеты Python (mechanize, BeautifulSoup, boto). Итак, я добавил в свой файл mrjob.conf, но теперь я продолжаю получать эту ошибку: No...
2774 просмотров
schedule 06.10.2023

Решение для журнала приложений Spark
У меня есть приложение Spark (1.3.1) с Python, работающее на кластерах YARN, EMR и использующее хранилище, подобное S3. Мое приложение преобразует файл CSV в RDD и выполняет преобразования регулярных выражений (ETL). Нам необходимо создать линейное...
80 просмотров

Spark 1.3.1 - Паркет - Обнаружение нескольких разделов при сохранении
У меня есть приложение ETL, использующее Spark 1.3.1, Amazon S3 и EMR 3.8. Мне нужно мое приложение для сохранения Dataframe в нескольких разделах. Согласно документации Spark 1.3.1, это способ разбиения вашего файла паркета: Обнаружение...
505 просмотров
schedule 24.07.2023

Использование AWS для выполнения ETL по запросу
Я хочу выполнить задание ETL по запросу, используя архитектуру AWS. Этот процесс ETL будет выполняться ежедневно, и я не хочу постоянно платить за инстанс EC2. Это задание ETL может быть написано, например, на Python. Я знаю, что в EMR я могу...
575 просмотров

Значения по умолчанию для параметров метода boto3
Я хотел бы программно написать метод, который вызывает метод boto3 и изменяет параметры по умолчанию внутри методов. Например, я хочу использовать свою корзину для журналов, если для параметра log задано значение True. В противном случае не...
1976 просмотров
schedule 13.02.2024

Связь между приложением iPhone и сервером AWS
тлдр; Как заставить программу на сервере AWS постоянно прослушивать пакеты данных? Я хочу создать приложение для iPhone, которое собирает данные датчиков и отправляет эти данные на сервер. Когда на сервере достаточно данных датчиков, он строит...
430 просмотров