Вопросы по теме 'hadoop-streaming'

Разделение клиентов в Hadoop
У меня есть файл, в котором есть такие записи, как chicken 10 . Я хочу разделить данные на основе , а не /t , чтобы получить chicken в качестве ключа и 10 в качестве значения. Я думаю, что нам нужно изменить метод getPartition , но я...
106 просмотров
schedule 13.05.2022

В Hadoop, как обрабатывать ежедневно увеличивающиеся данные
В Hadoop, как обрабатывать ежедневно увеличивающиеся данные: Например: 1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo) 2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона...
245 просмотров

невозможно токенизировать данные файла
Я новичок в hadoop и mapreduce. В картографе я собираюсь токенизировать эти данные из текстового файла в указанном ниже формате с первыми несколькими строками. 9593C58F7C1C5CE4 970916072134 levis 9593C58F7C1C5CE4 970916072311 levis...
175 просмотров
schedule 08.05.2023

Amazon Elastic MapReduce — SIGTERM
У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...
3383 просмотров

AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных
У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.
87 просмотров
schedule 21.04.2022

Как разрешить java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): сбой подпроцесса с кодом 2?
Я пытаюсь выполнить NLTK в среде Hadoop. Ниже приведена команда, которую я использовал для выполнения. bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar -input /user/nltk/input/ -output /user/nltk/output1/ -file...
9933 просмотров
schedule 24.04.2024

Отправка точных двоичных последовательностей с использованием потоковой передачи Hadoop
Есть наборы бинарных файлов, которые мне нужно разделить (согласно некоторой логике) и раздать мапперам. Для этого я использую потоковую передачу Hadoop . Основная проблема заключается в том, чтобы отправить по сети точные двоичные фрагменты, не...
307 просмотров
schedule 03.09.2022

Как контролировать количество файлов вывода потоковой передачи Hadoop
Вот деталь: Входные файлы находятся в пути hdfs /user/rd/input , а путь вывода hdfs - /user/rd/output . Во входном пути есть 20 000 файлов от part-00000 до part-19999, каждый файл имеет размер около 64 МБ. Я хочу написать задание потоковой...
925 просмотров
schedule 29.12.2021

Ошибка потоковой сортировки Hadoop
Я пытаюсь отсортировать файл с помощью потоковой передачи Hadoop. Формат файла следующий <ID> <TextID> <Offset> <Text> - where ID is alpha numeric, TextID is alpha numeric and Offset is numeric Я хочу сделать что-то...
2019 просмотров
schedule 27.08.2023

Переносить поля с собой или хранить и присоединять?
В Hadoop, использующем Pig, у меня есть большое количество полей в нескольких отдельных источниках, которые я загружаю, фильтрую, проецирую, группирую, запускаю через пару пользовательских функций Java, объединяю, проецирую и сохраняю. (Это...
45 просмотров
schedule 13.03.2022

Импорт org.apache.hadoop.mapreduce не может быть разрешен
Я пытаюсь выполнить приведенный ниже код package test; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.util.*; import...
30205 просмотров

Карта уменьшения задания в Apache Hadoop 2.0
Я подписан на Майкла Нолла руководство по настройке многоузлового кластера и запуску примера программы MapReduce. Я устанавливаю Hadoop версии 2.2.0. В Hadoop 2.2.0 нет каталога contrib . Я искал банки с помощью команды find из текущего...
654 просмотров

java.io.IOException: сломанная труба при увеличении количества картографов/редьюсеров, много
Я запускаю задание MapReduce в кластере Hadoop из 6 узлов с 4 задачами сопоставления и 10 настроенными задачами сокращения. Mapper/Reducer часто терпит неудачу при увеличении количества задач map/reduce, как показано ниже, Я сталкиваюсь со...
1921 просмотров

Виртуальные машины, содержащие RHadoop и файл hadoop-streaming.jar.
Получение локального тестового экземпляра Hadoop выглядит немного сложным для настройки после изучения следующих очень четких, но все же очень сложных ссылок: http://www.slideshare.net/ChicagoHUG/getting-started-with-r-hadoop-chug-20120815...
109 просмотров

Использование переменных среды в R
Я пытаюсь понять код reducer.R, взятый со следующего веб-сайта. http://www.thecloudavenue.com/2013/10/mapreduce-programming-in-r-using-hadoop.html Этот код используется для потоковой передачи Hadoop с использованием R. Я дал код ниже:...
317 просмотров
schedule 10.04.2024

Сбой потоковой передачи Hadoop с java.io.FileNotFoundException
Я написал задание по уменьшению карты только на карте python, которое принимает данные из стандартного ввода и обрабатывает их для получения некоторого вывода. Он отлично работает при локальном выполнении. Однако, когда я пытаюсь выполнить его с...
516 просмотров
schedule 26.08.2023

Сценарий MapReduce с входом в локальный каталог и выходом HBase
Иногда я хотел бы выполнить какой-нибудь простой облегченный MapReduce. «Простой» означает, что он использует очень простой алгоритм, а «легковесный» означает, что я могу реализовать его несколькими строками на каком-то языке сценариев (или что-то в...
78 просмотров
schedule 14.11.2023

Подключите Hive к потоковой передаче Hadoop
Мне было интересно, есть ли способ подключить вывод Hive напрямую к потоковому заданию Hadoop без использования промежуточных файлов. Я мог бы использовать INSERT OVERWRITE DIRECTORY, чтобы создать временный файл, а затем запустить потоковое задание...
44 просмотров
schedule 22.01.2023

Программа Python с sys.stdin выдает ошибку — Hadoop Streaming
Я пытаюсь изучить потоковую передачу Hadoop. Я только что написал трехстрочную программу на Python, чтобы проверить, все ли работает нормально, но застрял. Код : #!/usr/bin/env python import sys for line in sys.stdin: print "Inside...
1341 просмотров

Python и MapReduce: помимо основ, как выполнять больше задач в одной базе данных
У меня есть огромное хранилище данных txt, по которому я хочу собрать статистику. Используя Hadoop-streaming и Python, я знаю, как реализовать MapReduce для сбора статистики по одному столбцу, например. подсчитайте, сколько записей есть для...
103 просмотров
schedule 13.05.2024