Вопросы по теме 'elastic-map-reduce'

Использование Amazon MapReduce/Hadoop для обработки изображений
У меня есть проект, который требует от меня обработки большого количества (1000-10000) больших (от 100 МБ до 500 МБ) изображений. Обработку, которую я делаю, можно выполнить с помощью Imagemagick, но я надеялся выполнить эту обработку на платформе...
4464 просмотров

Почему Nutch выполняет выборку только на одном узле Hadoop, когда всего в кластере 5 узлов?
Я запускаю Nutch на Elastic MapReduce с 3 рабочими узлами. Я использую Nutch 1.4 с конфигурацией по умолчанию, с которой он поставляется (после добавления пользовательского агента). Однако, несмотря на то, что я просматриваю список из 30 000...
1363 просмотров
schedule 30.03.2022

Где мои выходные данные редуктора AWS EMR для моей выполненной работы (должны быть на S3, но там ничего)?
У меня проблема, из-за которой моя работа Hadoop в AWS EMR не сохраняется в S3. Когда я запускаю задание на меньшем образце, оно отлично сохраняет результат. Когда я запускаю ту же команду, но с полным набором данных, задание снова завершается, но...
3378 просмотров

Amazon Elastic MapReduce — SIGTERM
У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...
3383 просмотров

Использование s3distcp с Amazon EMR для копирования одного файла
Я хочу скопировать только один файл в HDFS, используя s3distcp. Я попытался использовать аргумент srcPattern, но это не помогло, и он продолжает вызывать исключение java.lang.Runtime. Возможно, виновато регулярное выражение, которое я использую,...
4223 просмотров

Получение частот ngram для большого набора данных
Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей. Какой самый лучший и экономичный способ сделать это на следующий день или около того? Мои мысли: PostgreSQL...
864 просмотров

AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных
У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.
87 просмотров
schedule 21.04.2022

Разделение данных по файлам в Hive
Есть ли способ указать Hive разделить данные на несколько выходных файлов? Или, может быть, ограничьте размер выходных файлов. Я планирую использовать Redshift, который рекомендует разбивать данные на несколько файлов для параллельной загрузки...
8029 просмотров

Исключение в потоке main java.lang.NoClassDefFoundError в AWS Elastic Map Reduce
Я пытаюсь запустить задание hadoop на AWS Elastic Map Reduce с использованием файла JAR. Я использую библиотеку под названием EJML https://code.google.com/p/efficient-java-matrix-library/wiki/EjmlManual . Я включил его в свой проект как внешнюю...
3630 просмотров

Не удается найти аккумулятор при использовании DataFu с AWS Pig v0.11
Я пытаюсь использовать datafu.pig.stats.StreamingQuantile в Отличный DataFu от LinkedIn библиотека. Однако я получаю следующую ошибку от Pig, когда он достигает первого использования StreamingQuantile : 2013-08-03 00:55:45,294 [main]...
261 просмотров
schedule 17.05.2024

Ошибка AWS EMR: все ведомые устройства в потоке заданий были прерваны
Я использую инфраструктуру Elastic Mapreduce на Amazon AWS. Jowflow был остановлен автоматически. Причина последнего изменения состояния согласно Amazon Console: «Все ведомые устройства в потоке заданий были прерваны». Создать команду рабочего...
4101 просмотров

Ошибка: java.io.IOException: неверный класс значений: класс org.apache.hadoop.io.Text не является классом Myclass
У меня есть мой маппер и редукторы следующим образом. Но я получаю какое-то странное исключение. Я не могу понять, почему он выдает такое исключение. public static class MyMapper implements Mapper<LongWritable, Text, Text, Info> {...
3936 просмотров
schedule 06.06.2023

Копирование большого файла (~ 6 ГБ) с S3 на каждый узел кластера Elastic MapReduce
Оказывается, копирование большого файла (~ 6 ГБ) с S3 на каждый узел в кластере Elastic MapReduce в действии начальной загрузки плохо масштабируется; размер канала невелик, и загрузка на узлы ограничивается по мере увеличения количества # узлов. Я...
106 просмотров

Как отладить зависание Pig после отправки задания
У меня есть работа по уменьшению карты, написанная на Pig, которая делает следующее. Учитывая набор файлов журнала Apache, представляющих посещения определенного ресурса на веб-сайте. очистить логи от роботов и от ненужных строк логов...
525 просмотров
schedule 18.03.2022

Как использовать потоковые пользовательские функции Python в pig на Amazon EMR
В Pig 0.12 представлены потоковые пользовательские функции Python, но они экспериментальные, поэтому им нужен Hadoop 1. http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs Однако единственный предоставленный Amazon AMI, который может...
461 просмотров

Hadoop — как повысить производительность в моем случае?
В настоящее время я использую AWS-EMR в качестве кластера. Для библиотеки я использую каскадирование. Входные данные хранятся в aws S3 в каталоге. Каталог содержит много файлов, каждый размером около 100 МБ (не сжатый, обычный текст), и...
168 просмотров

Пример MRUnit для MultipleOutputs
Я написал работу Hadoop только для карты, в которой я использовал концепцию MultipleOutputs. Проблема в том, что я хочу протестировать этот код с помощью MRUnit. Я не вижу рабочего примера для тестирования MultipleOutputs. Мой код картографа...
2131 просмотров

Экспорт таблицы DynamoDB в S3 с шифрованием на стороне клиента
Я пытаюсь использовать Data Pipeline для экспорта данных в s3 из Dynamo. Однако я не могу понять, как применить шифрование на стороне клиента до того, как файл будет записан на s3. Есть ли способ сделать это с помощью Data Pipeline? Я могу...
974 просмотров

Spark: общий отчет и доступная память кластера
Я выполняю задание Spark на Amazon EMR; Я хотел бы продолжать сообщать об общей и свободной памяти кластера из самой программы. Есть ли в Spark API какой-либо метод, предоставляющий информацию о памяти кластера?
411 просмотров