Статьи по теме hadoop-streaming

Вопросы по теме 'hadoop-streaming'

У меня есть файл, в котором есть такие записи, как chicken 10 . Я хочу разделить данные на основе , а не /t , чтобы получить chicken в качестве ключа и 10 в качестве значения. Я думаю, что нам нужно изменить метод getPartition , но я...

106 просмотров

hadoop hadoop-streaming

13.05.2022

В Hadoop, как обрабатывать ежедневно увеличивающиеся данные

В Hadoop, как обрабатывать ежедневно увеличивающиеся данные: Например: 1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo) 2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона...

245 просмотров

hadoop bigdata cloudera hadoop-plugins hadoop-streaming

17.10.2022

невозможно токенизировать данные файла

Я новичок в hadoop и mapreduce. В картографе я собираюсь токенизировать эти данные из текстового файла в указанном ниже формате с первыми несколькими строками. 9593C58F7C1C5CE4 970916072134 levis 9593C58F7C1C5CE4 970916072311 levis...

175 просмотров

hadoop mapreduce hadoop-streaming

08.05.2023

Amazon Elastic MapReduce — SIGTERM

У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...

3383 просмотров

python amazon-emr hadoop-streaming elastic-map-reduce

19.11.2022

AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных

У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.

87 просмотров

hadoop-streaming elastic-map-reduce

21.04.2022

Как разрешить java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): сбой подпроцесса с кодом 2?

Я пытаюсь выполнить NLTK в среде Hadoop. Ниже приведена команда, которую я использовал для выполнения. bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar -input /user/nltk/input/ -output /user/nltk/output1/ -file...

9933 просмотров

hadoop nltk hadoop-streaming

24.04.2024

Отправка точных двоичных последовательностей с использованием потоковой передачи Hadoop

Есть наборы бинарных файлов, которые мне нужно разделить (согласно некоторой логике) и раздать мапперам. Для этого я использую потоковую передачу Hadoop . Основная проблема заключается в том, чтобы отправить по сети точные двоичные фрагменты, не...

307 просмотров

hadoop hadoop-streaming

03.09.2022

Как контролировать количество файлов вывода потоковой передачи Hadoop

Вот деталь: Входные файлы находятся в пути hdfs /user/rd/input , а путь вывода hdfs - /user/rd/output . Во входном пути есть 20 000 файлов от part-00000 до part-19999, каждый файл имеет размер около 64 МБ. Я хочу написать задание потоковой...

925 просмотров

hadoop hadoop-streaming

29.12.2021

Ошибка потоковой сортировки Hadoop

Я пытаюсь отсортировать файл с помощью потоковой передачи Hadoop. Формат файла следующий <ID> <TextID> <Offset> <Text> - where ID is alpha numeric, TextID is alpha numeric and Offset is numeric Я хочу сделать что-то...

2019 просмотров

hadoop hadoop-streaming

27.08.2023

Переносить поля с собой или хранить и присоединять?

В Hadoop, использующем Pig, у меня есть большое количество полей в нескольких отдельных источниках, которые я загружаю, фильтрую, проецирую, группирую, запускаю через пару пользовательских функций Java, объединяю, проецирую и сохраняю. (Это...

45 просмотров

hadoop hadoop-streaming apache-pig

13.03.2022

Импорт org.apache.hadoop.mapreduce не может быть разрешен

Я пытаюсь выполнить приведенный ниже код package test; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.util.*; import...

30205 просмотров

hadoop hive mapreduce hadoop-plugins hadoop-streaming

12.11.2023

Карта уменьшения задания в Apache Hadoop 2.0

Я подписан на Майкла Нолла руководство по настройке многоузлового кластера и запуску примера программы MapReduce. Я устанавливаю Hadoop версии 2.2.0. В Hadoop 2.2.0 нет каталога contrib . Я искал банки с помощью команды find из текущего...

654 просмотров

java hadoop apache mapreduce hadoop-streaming

28.10.2023

java.io.IOException: сломанная труба при увеличении количества картографов/редьюсеров, много

Я запускаю задание MapReduce в кластере Hadoop из 6 узлов с 4 задачами сопоставления и 10 настроенными задачами сокращения. Mapper/Reducer часто терпит неудачу при увеличении количества задач map/reduce, как показано ниже, Я сталкиваюсь со...

1921 просмотров

python-2.7 hadoop hadoop-streaming broken-pipe

28.03.2022

Виртуальные машины, содержащие RHadoop и файл hadoop-streaming.jar.

Получение локального тестового экземпляра Hadoop выглядит немного сложным для настройки после изучения следующих очень четких, но все же очень сложных ссылок: http://www.slideshare.net/ChicagoHUG/getting-started-with-r-hadoop-chug-20120815...

109 просмотров

java virtualbox hadoop hadoop-streaming rhadoop

03.12.2022

Использование переменных среды в R

Я пытаюсь понять код reducer.R, взятый со следующего веб-сайта. http://www.thecloudavenue.com/2013/10/mapreduce-programming-in-r-using-hadoop.html Этот код используется для потоковой передачи Hadoop с использованием R. Я дал код ниже:...

317 просмотров

r hadoop-streaming

10.04.2024

Сбой потоковой передачи Hadoop с java.io.FileNotFoundException

Я написал задание по уменьшению карты только на карте python, которое принимает данные из стандартного ввода и обрабатывает их для получения некоторого вывода. Он отлично работает при локальном выполнении. Однако, когда я пытаюсь выполнить его с...

516 просмотров

python hadoop mapreduce hadoop-streaming

26.08.2023

Сценарий MapReduce с входом в локальный каталог и выходом HBase

Иногда я хотел бы выполнить какой-нибудь простой облегченный MapReduce. «Простой» означает, что он использует очень простой алгоритм, а «легковесный» означает, что я могу реализовать его несколькими строками на каком-то языке сценариев (или что-то в...

78 просмотров

hadoop mapreduce hbase hadoop-streaming

14.11.2023

Подключите Hive к потоковой передаче Hadoop

Мне было интересно, есть ли способ подключить вывод Hive напрямую к потоковому заданию Hadoop без использования промежуточных файлов. Я мог бы использовать INSERT OVERWRITE DIRECTORY, чтобы создать временный файл, а затем запустить потоковое задание...

44 просмотров

hadoop hive hadoop-streaming

22.01.2023

Программа Python с sys.stdin выдает ошибку — Hadoop Streaming

Я пытаюсь изучить потоковую передачу Hadoop. Я только что написал трехстрочную программу на Python, чтобы проверить, все ли работает нормально, но застрял. Код : #!/usr/bin/env python import sys for line in sys.stdin: print "Inside...

1341 просмотров

python hadoop mapreduce stdin hadoop-streaming

04.09.2022

Python и MapReduce: помимо основ, как выполнять больше задач в одной базе данных

У меня есть огромное хранилище данных txt, по которому я хочу собрать статистику. Используя Hadoop-streaming и Python, я знаю, как реализовать MapReduce для сбора статистики по одному столбцу, например. подсчитайте, сколько записей есть для...

103 просмотров

python hadoop mapreduce hadoop-streaming

13.05.2024

Вопросы по теме 'hadoop-streaming'

Похожие вопросы