Вопросы по теме 'elastic-map-reduce'
Использование Amazon MapReduce/Hadoop для обработки изображений
У меня есть проект, который требует от меня обработки большого количества (1000-10000) больших (от 100 МБ до 500 МБ) изображений. Обработку, которую я делаю, можно выполнить с помощью Imagemagick, но я надеялся выполнить эту обработку на платформе...
4464 просмотров
schedule
18.10.2022
Почему Nutch выполняет выборку только на одном узле Hadoop, когда всего в кластере 5 узлов?
Я запускаю Nutch на Elastic MapReduce с 3 рабочими узлами. Я использую Nutch 1.4 с конфигурацией по умолчанию, с которой он поставляется (после добавления пользовательского агента).
Однако, несмотря на то, что я просматриваю список из 30 000...
1363 просмотров
schedule
30.03.2022
Где мои выходные данные редуктора AWS EMR для моей выполненной работы (должны быть на S3, но там ничего)?
У меня проблема, из-за которой моя работа Hadoop в AWS EMR не сохраняется в S3. Когда я запускаю задание на меньшем образце, оно отлично сохраняет результат. Когда я запускаю ту же команду, но с полным набором данных, задание снова завершается, но...
3378 просмотров
schedule
18.01.2023
Amazon Elastic MapReduce — SIGTERM
У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...
3383 просмотров
schedule
19.11.2022
Использование s3distcp с Amazon EMR для копирования одного файла
Я хочу скопировать только один файл в HDFS, используя s3distcp. Я попытался использовать аргумент srcPattern, но это не помогло, и он продолжает вызывать исключение java.lang.Runtime. Возможно, виновато регулярное выражение, которое я использую,...
4223 просмотров
schedule
30.11.2022
Получение частот ngram для большого набора данных
Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей.
Какой самый лучший и экономичный способ сделать это на следующий день или около того?
Мои мысли:
PostgreSQL...
864 просмотров
schedule
14.07.2022
AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных
У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.
87 просмотров
schedule
21.04.2022
Разделение данных по файлам в Hive
Есть ли способ указать Hive разделить данные на несколько выходных файлов? Или, может быть, ограничьте размер выходных файлов.
Я планирую использовать Redshift, который рекомендует разбивать данные на несколько файлов для параллельной загрузки...
8029 просмотров
schedule
15.04.2023
Исключение в потоке main java.lang.NoClassDefFoundError в AWS Elastic Map Reduce
Я пытаюсь запустить задание hadoop на AWS Elastic Map Reduce с использованием файла JAR. Я использую библиотеку под названием EJML https://code.google.com/p/efficient-java-matrix-library/wiki/EjmlManual . Я включил его в свой проект как внешнюю...
3630 просмотров
schedule
27.02.2022
Не удается найти аккумулятор при использовании DataFu с AWS Pig v0.11
Я пытаюсь использовать datafu.pig.stats.StreamingQuantile в Отличный DataFu от LinkedIn библиотека. Однако я получаю следующую ошибку от Pig, когда он достигает первого использования StreamingQuantile :
2013-08-03 00:55:45,294 [main]...
261 просмотров
schedule
17.05.2024
Ошибка AWS EMR: все ведомые устройства в потоке заданий были прерваны
Я использую инфраструктуру Elastic Mapreduce на Amazon AWS. Jowflow был остановлен автоматически. Причина последнего изменения состояния согласно Amazon Console: «Все ведомые устройства в потоке заданий были прерваны».
Создать команду рабочего...
4101 просмотров
schedule
14.01.2023
Ошибка: java.io.IOException: неверный класс значений: класс org.apache.hadoop.io.Text не является классом Myclass
У меня есть мой маппер и редукторы следующим образом. Но я получаю какое-то странное исключение. Я не могу понять, почему он выдает такое исключение.
public static class MyMapper implements Mapper<LongWritable, Text, Text, Info> {...
3936 просмотров
schedule
06.06.2023
Копирование большого файла (~ 6 ГБ) с S3 на каждый узел кластера Elastic MapReduce
Оказывается, копирование большого файла (~ 6 ГБ) с S3 на каждый узел в кластере Elastic MapReduce в действии начальной загрузки плохо масштабируется; размер канала невелик, и загрузка на узлы ограничивается по мере увеличения количества # узлов.
Я...
106 просмотров
schedule
23.05.2023
Как отладить зависание Pig после отправки задания
У меня есть работа по уменьшению карты, написанная на Pig, которая делает следующее.
Учитывая набор файлов журнала Apache, представляющих посещения определенного ресурса на веб-сайте.
очистить логи от роботов и от ненужных строк логов...
525 просмотров
schedule
18.03.2022
Как использовать потоковые пользовательские функции Python в pig на Amazon EMR
В Pig 0.12 представлены потоковые пользовательские функции Python, но они экспериментальные, поэтому им нужен Hadoop 1.
http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs
Однако единственный предоставленный Amazon AMI, который может...
461 просмотров
schedule
22.07.2023
Hadoop — как повысить производительность в моем случае?
В настоящее время я использую AWS-EMR в качестве кластера. Для библиотеки я использую каскадирование.
Входные данные хранятся в aws S3 в каталоге. Каталог содержит много файлов, каждый размером около 100 МБ (не сжатый, обычный текст), и...
168 просмотров
schedule
03.11.2023
Пример MRUnit для MultipleOutputs
Я написал работу Hadoop только для карты, в которой я использовал концепцию MultipleOutputs. Проблема в том, что я хочу протестировать этот код с помощью MRUnit. Я не вижу рабочего примера для тестирования MultipleOutputs.
Мой код картографа...
2131 просмотров
schedule
05.03.2023
Экспорт таблицы DynamoDB в S3 с шифрованием на стороне клиента
Я пытаюсь использовать Data Pipeline для экспорта данных в s3 из Dynamo. Однако я не могу понять, как применить шифрование на стороне клиента до того, как файл будет записан на s3. Есть ли способ сделать это с помощью Data Pipeline? Я могу...
974 просмотров
schedule
21.02.2024
Spark: общий отчет и доступная память кластера
Я выполняю задание Spark на Amazon EMR; Я хотел бы продолжать сообщать об общей и свободной памяти кластера из самой программы. Есть ли в Spark API какой-либо метод, предоставляющий информацию о памяти кластера?
411 просмотров
schedule
12.05.2024