Статьи по теме elastic-map-reduce [bash, amazon-web-services, hadoop, imagemagick, elastic-map-reduce]

Вопросы по теме 'elastic-map-reduce'

Использование Amazon MapReduce/Hadoop для обработки изображений

У меня есть проект, который требует от меня обработки большого количества (1000-10000) больших (от 100 МБ до 500 МБ) изображений. Обработку, которую я делаю, можно выполнить с помощью Imagemagick, но я надеялся выполнить эту обработку на платформе...

4464 просмотров

18.10.2022

Почему Nutch выполняет выборку только на одном узле Hadoop, когда всего в кластере 5 узлов?

Я запускаю Nutch на Elastic MapReduce с 3 рабочими узлами. Я использую Nutch 1.4 с конфигурацией по умолчанию, с которой он поставляется (после добавления пользовательского агента). Однако, несмотря на то, что я просматриваю список из 30 000...

1363 просмотров

hadoop nutch elastic-map-reduce

30.03.2022

Где мои выходные данные редуктора AWS EMR для моей выполненной работы (должны быть на S3, но там ничего)?

У меня проблема, из-за которой моя работа Hadoop в AWS EMR не сохраняется в S3. Когда я запускаю задание на меньшем образце, оно отлично сохраняет результат. Когда я запускаю ту же команду, но с полным набором данных, задание снова завершается, но...

3378 просмотров

amazon-web-services amazon-s3 missing-data elastic-map-reduce

18.01.2023

Amazon Elastic MapReduce — SIGTERM

У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...

3383 просмотров

python amazon-emr hadoop-streaming elastic-map-reduce

19.11.2022

Использование s3distcp с Amazon EMR для копирования одного файла

Я хочу скопировать только один файл в HDFS, используя s3distcp. Я попытался использовать аргумент srcPattern, но это не помогло, и он продолжает вызывать исключение java.lang.Runtime. Возможно, виновато регулярное выражение, которое я использую,...

4223 просмотров

amazon-s3 hadoop mapreduce elastic-map-reduce emr

30.11.2022

Получение частот ngram для большого набора данных

Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей. Какой самый лучший и экономичный способ сделать это на следующий день или около того? Мои мысли: PostgreSQL...

864 просмотров

postgresql hadoop mapreduce bigdata elastic-map-reduce

14.07.2022

AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных

У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.

87 просмотров

hadoop-streaming elastic-map-reduce

21.04.2022

Разделение данных по файлам в Hive

Есть ли способ указать Hive разделить данные на несколько выходных файлов? Или, может быть, ограничьте размер выходных файлов. Я планирую использовать Redshift, который рекомендует разбивать данные на несколько файлов для параллельной загрузки...

8029 просмотров

amazon-web-services hive amazon-redshift elastic-map-reduce

15.04.2023

Исключение в потоке main java.lang.NoClassDefFoundError в AWS Elastic Map Reduce

Я пытаюсь запустить задание hadoop на AWS Elastic Map Reduce с использованием файла JAR. Я использую библиотеку под названием EJML https://code.google.com/p/efficient-java-matrix-library/wiki/EjmlManual . Я включил его в свой проект как внешнюю...

3630 просмотров

java amazon-web-services hadoop mapreduce elastic-map-reduce

27.02.2022

Не удается найти аккумулятор при использовании DataFu с AWS Pig v0.11

Я пытаюсь использовать datafu.pig.stats.StreamingQuantile в Отличный DataFu от LinkedIn библиотека. Однако я получаю следующую ошибку от Pig, когда он достигает первого использования StreamingQuantile : 2013-08-03 00:55:45,294 [main]...

261 просмотров

hadoop apache-pig elastic-map-reduce

17.05.2024

Ошибка AWS EMR: все ведомые устройства в потоке заданий были прерваны

Я использую инфраструктуру Elastic Mapreduce на Amazon AWS. Jowflow был остановлен автоматически. Причина последнего изменения состояния согласно Amazon Console: «Все ведомые устройства в потоке заданий были прерваны». Создать команду рабочего...

4101 просмотров

amazon-web-services hive elastic-map-reduce

14.01.2023

Ошибка: java.io.IOException: неверный класс значений: класс org.apache.hadoop.io.Text не является классом Myclass

У меня есть мой маппер и редукторы следующим образом. Но я получаю какое-то странное исключение. Я не могу понять, почему он выдает такое исключение. public static class MyMapper implements Mapper<LongWritable, Text, Text, Info> {...

3936 просмотров

java hadoop elastic-map-reduce

06.06.2023

Копирование большого файла (~ 6 ГБ) с S3 на каждый узел кластера Elastic MapReduce

Оказывается, копирование большого файла (~ 6 ГБ) с S3 на каждый узел в кластере Elastic MapReduce в действии начальной загрузки плохо масштабируется; размер канала невелик, и загрузка на узлы ограничивается по мере увеличения количества # узлов. Я...

106 просмотров

amazon-web-services amazon-s3 caching hadoop elastic-map-reduce

23.05.2023

Как отладить зависание Pig после отправки задания

У меня есть работа по уменьшению карты, написанная на Pig, которая делает следующее. Учитывая набор файлов журнала Apache, представляющих посещения определенного ресурса на веб-сайте. очистить логи от роботов и от ненужных строк логов...

525 просмотров

apache-pig elastic-map-reduce

18.03.2022

Как использовать потоковые пользовательские функции Python в pig на Amazon EMR

В Pig 0.12 представлены потоковые пользовательские функции Python, но они экспериментальные, поэтому им нужен Hadoop 1. http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs Однако единственный предоставленный Amazon AMI, который может...

461 просмотров

python numpy amazon-ami apache-pig elastic-map-reduce

22.07.2023

Hadoop — как повысить производительность в моем случае?

В настоящее время я использую AWS-EMR в качестве кластера. Для библиотеки я использую каскадирование. Входные данные хранятся в aws S3 в каталоге. Каталог содержит много файлов, каждый размером около 100 МБ (не сжатый, обычный текст), и...

168 просмотров

amazon-emr hadoop cascading elastic-map-reduce

03.11.2023

Пример MRUnit для MultipleOutputs

Я написал работу Hadoop только для карты, в которой я использовал концепцию MultipleOutputs. Проблема в том, что я хочу протестировать этот код с помощью MRUnit. Я не вижу рабочего примера для тестирования MultipleOutputs. Мой код картографа...

2131 просмотров

amazon-emr mapreduce multipleoutputs elastic-map-reduce mrunit

05.03.2023

Экспорт таблицы DynamoDB в S3 с шифрованием на стороне клиента

Я пытаюсь использовать Data Pipeline для экспорта данных в s3 из Dynamo. Однако я не могу понять, как применить шифрование на стороне клиента до того, как файл будет записан на s3. Есть ли способ сделать это с помощью Data Pipeline? Я могу...

974 просмотров

encryption amazon-s3 amazon-dynamodb hive elastic-map-reduce

21.02.2024

Spark: общий отчет и доступная память кластера

Я выполняю задание Spark на Amazon EMR; Я хотел бы продолжать сообщать об общей и свободной памяти кластера из самой программы. Есть ли в Spark API какой-либо метод, предоставляющий информацию о памяти кластера?

411 просмотров

apache-spark amazon-emr scala cluster-computing elastic-map-reduce

12.05.2024

Вопросы по теме 'elastic-map-reduce'

Похожие вопросы