Вопросы по теме 'emr'
Потоковая передача Hadoop: импорт модулей в EMR
Этот предыдущий вопрос рассмотрен как импортировать такие модули, как nltk, для потоковой передачи Hadoop.
Намеченные шаги были следующими:
zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip...
2213 просмотров
schedule
17.10.2023
Пользовательский RecordReader в задании EMR
Как указать пользовательский RecordReader для использования в потоке заданий в Amazon EMR?
Примечание. Здесь новичок в Hadoop.
200 просмотров
schedule
19.04.2024
EMR — Hive и Java вместе
Я использую Amazon Elastic-Map-Reduce. Можно ли запустить запрос HIVE, который использует код Java (с использованием функции преобразования)?
Когда я создаю новый поток заданий, мне нужно выбирать между пользовательской банкой и программой куста,...
1188 просмотров
schedule
09.12.2023
Использование s3distcp с Amazon EMR для копирования одного файла
Я хочу скопировать только один файл в HDFS, используя s3distcp. Я попытался использовать аргумент srcPattern, но это не помогло, и он продолжает вызывать исключение java.lang.Runtime. Возможно, виновато регулярное выражение, которое я использую,...
4223 просмотров
schedule
30.11.2022
Пользовательское ведение журнала EMR из картографа и редуктора
Возможно ли иметь пользовательские журналы от картографов и редукторов в EMR... допустим, у меня есть картограф, который проходит через данные и фильтрует на основе определенных условий
Код картографа (потоковая передача)
Посмотрите на строку...
291 просмотров
schedule
09.03.2022
Действие начальной загрузки для EMR
При загрузке на AWS EMR я получаю следующее. Любые подсказки, как это решить?
/mnt/var/lib/bootstrap-actions/1/STAR: /lib/libc.so.6: version 'GLIBC_2.14' not found (required by /mnt/var/lib/bootstrap-actions/1/STAR)
508 просмотров
schedule
23.03.2023
Tomcat недоступен в Amazon EMR
Я создал кластер amazon EMR с одним главным и одним подчиненным. Я установил Tomcat на своем главном экземпляре. Я заменил все "8080" на "8686" и "localhost" на "0.0.0.0" в /conf/ server.xml. Я запустил экземпляр tomcat и вижу ниже вывод команды...
455 просмотров
schedule
19.04.2024
Загрузка библиотек в EMR с использованием MRJob на Python
Постановка задачи:
Я пытаюсь запустить задание по уменьшению карты в Amazon EMR с использованием библиотеки Python MRJob, и у меня возникают проблемы с начальной загрузкой узлов с необходимыми библиотеками и пакетами.
Подробности:
мой пример...
1913 просмотров
schedule
12.01.2024
Хороший способ справиться с ограничением кластера EMR
Я использую EMR для обработки журналов. Так что в основном это инструмент командной строки, который запускает несколько кластеров, а затем настраивает часть обработки. Проблема, с которой я сталкиваюсь, заключается в том, что когда несколько человек...
130 просмотров
schedule
06.12.2023
Проблема с производительностью загрузки Apache Spark на S3
Я вижу серьезную проблему с производительностью, когда Apache Spark загружает свои результаты в S3. Насколько я понимаю, это идет по этим шагам...
Вывод заключительного этапа записывается в таблицу _temp/ в HDFS и перемещается в папку...
1334 просмотров
schedule
17.10.2022
Сообщения журнала приложения Spark не отображаются в журналах EMR
Я запускаю искровое задание на EMR, но мои сообщения журнала не записываются в журналы. Я ожидал, что мои сообщения журнала будут смешиваться с сообщениями журнала искры, как это происходит, когда я запускаю задание hadoop. Когда я запускаю свою...
3511 просмотров
schedule
13.04.2022
Настройка хранилища метаданных aws emr hive hive-site.xml
Я пытаюсь настроить hive-site.xml , чтобы MySQL был за пределами локального MySQL в EMR. Как изменить существующую конфигурацию кластера, чтобы добавить hive-site.xml из S3?...
4608 просмотров
schedule
16.05.2022
Как запустить JAR-файл Spark из консоли AWS без Spark-Shell
Я пытаюсь запустить приложение Spark на консоли AWS EMR (Amazon Web Services). Мой Scala-скрипт, скомпилированный в банке, принимает настройки SparkConf в качестве параметров или просто строк:
val sparkConf = new SparkConf()...
703 просмотров
schedule
17.02.2023
ошибка задания boto-emr: ошибка конвейера python не работает и java.lang.OutOfMemoryError
Я подготовил поток задач boto на AWS/EMR, который отлично работает с использованием знакомого тестового конвейера:
sed -n '0~10000p' Big.csv | ./map.py | sort -t$'\t' -k1 | ./reduce.py
Выполнение задания boto emr также работает хорошо,...
209 просмотров
schedule
11.09.2022
Amazon EMR + mrjob: ошибка начальной загрузки, действие начальной загрузки 1 вернуло ненулевой код возврата
Я пытаюсь запустить mrjob на Amazon EMR, используя экземпляры ec2. Это работало, пока я не понял, что использую пакеты Python (mechanize, BeautifulSoup, boto). Итак, я добавил в свой файл mrjob.conf, но теперь я продолжаю получать эту ошибку:
No...
2774 просмотров
schedule
06.10.2023
Решение для журнала приложений Spark
У меня есть приложение Spark (1.3.1) с Python, работающее на кластерах YARN, EMR и использующее хранилище, подобное S3. Мое приложение преобразует файл CSV в RDD и выполняет преобразования регулярных выражений (ETL). Нам необходимо создать линейное...
80 просмотров
schedule
25.04.2024
Spark 1.3.1 - Паркет - Обнаружение нескольких разделов при сохранении
У меня есть приложение ETL, использующее Spark 1.3.1, Amazon S3 и EMR 3.8. Мне нужно мое приложение для сохранения Dataframe в нескольких разделах.
Согласно документации Spark 1.3.1, это способ разбиения вашего файла паркета:
Обнаружение...
505 просмотров
schedule
24.07.2023
Использование AWS для выполнения ETL по запросу
Я хочу выполнить задание ETL по запросу, используя архитектуру AWS.
Этот процесс ETL будет выполняться ежедневно, и я не хочу постоянно платить за инстанс EC2. Это задание ETL может быть написано, например, на Python.
Я знаю, что в EMR я могу...
575 просмотров
schedule
11.02.2024
Значения по умолчанию для параметров метода boto3
Я хотел бы программно написать метод, который вызывает метод boto3 и изменяет параметры по умолчанию внутри методов.
Например, я хочу использовать свою корзину для журналов, если для параметра log задано значение True. В противном случае не...
1976 просмотров
schedule
13.02.2024
Связь между приложением iPhone и сервером AWS
тлдр; Как заставить программу на сервере AWS постоянно прослушивать пакеты данных?
Я хочу создать приложение для iPhone, которое собирает данные датчиков и отправляет эти данные на сервер. Когда на сервере достаточно данных датчиков, он строит...
430 просмотров
schedule
05.05.2022