Вопросы по теме 'hadoop-streaming'
Разделение клиентов в Hadoop
У меня есть файл, в котором есть такие записи, как chicken 10 . Я хочу разделить данные на основе , а не /t , чтобы получить chicken в качестве ключа и 10 в качестве значения.
Я думаю, что нам нужно изменить метод getPartition , но я...
106 просмотров
schedule
13.05.2022
В Hadoop, как обрабатывать ежедневно увеличивающиеся данные
В Hadoop, как обрабатывать ежедневно увеличивающиеся данные:
Например:
1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo)
2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона...
245 просмотров
schedule
17.10.2022
невозможно токенизировать данные файла
Я новичок в hadoop и mapreduce. В картографе я собираюсь токенизировать эти данные из текстового файла в указанном ниже формате с первыми несколькими строками.
9593C58F7C1C5CE4 970916072134 levis
9593C58F7C1C5CE4 970916072311 levis...
175 просмотров
schedule
08.05.2023
Amazon Elastic MapReduce — SIGTERM
У меня есть потоковое задание EMR (Python), которое обычно работает нормально (например, 10 машин обрабатывают 200 входных данных). Однако, когда я запускаю его для больших наборов данных (12 машин, обрабатывающих в общей сложности 6000 входных...
3383 просмотров
schedule
19.11.2022
AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных
У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.
87 просмотров
schedule
21.04.2022
Как разрешить java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): сбой подпроцесса с кодом 2?
Я пытаюсь выполнить NLTK в среде Hadoop. Ниже приведена команда, которую я использовал для выполнения.
bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar -input /user/nltk/input/ -output /user/nltk/output1/ -file...
9933 просмотров
schedule
24.04.2024
Отправка точных двоичных последовательностей с использованием потоковой передачи Hadoop
Есть наборы бинарных файлов, которые мне нужно разделить (согласно некоторой логике) и раздать мапперам. Для этого я использую потоковую передачу Hadoop . Основная проблема заключается в том, чтобы отправить по сети точные двоичные фрагменты, не...
307 просмотров
schedule
03.09.2022
Как контролировать количество файлов вывода потоковой передачи Hadoop
Вот деталь:
Входные файлы находятся в пути hdfs /user/rd/input , а путь вывода hdfs - /user/rd/output . Во входном пути есть 20 000 файлов от part-00000 до part-19999, каждый файл имеет размер около 64 МБ. Я хочу написать задание потоковой...
925 просмотров
schedule
29.12.2021
Ошибка потоковой сортировки Hadoop
Я пытаюсь отсортировать файл с помощью потоковой передачи Hadoop.
Формат файла следующий
<ID> <TextID> <Offset> <Text> - where ID is alpha numeric, TextID is alpha numeric and Offset is numeric
Я хочу сделать что-то...
2019 просмотров
schedule
27.08.2023
Переносить поля с собой или хранить и присоединять?
В Hadoop, использующем Pig, у меня есть большое количество полей в нескольких отдельных источниках, которые я загружаю, фильтрую, проецирую, группирую, запускаю через пару пользовательских функций Java, объединяю, проецирую и сохраняю. (Это...
45 просмотров
schedule
13.03.2022
Импорт org.apache.hadoop.mapreduce не может быть разрешен
Я пытаюсь выполнить приведенный ниже код
package test;
import java.io.IOException;
import java.util.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.util.*;
import...
30205 просмотров
schedule
12.11.2023
Карта уменьшения задания в Apache Hadoop 2.0
Я подписан на Майкла Нолла руководство по настройке многоузлового кластера и запуску примера программы MapReduce. Я устанавливаю Hadoop версии 2.2.0. В Hadoop 2.2.0 нет каталога contrib . Я искал банки с помощью команды find из текущего...
654 просмотров
schedule
28.10.2023
java.io.IOException: сломанная труба при увеличении количества картографов/редьюсеров, много
Я запускаю задание MapReduce в кластере Hadoop из 6 узлов с 4 задачами сопоставления и 10 настроенными задачами сокращения.
Mapper/Reducer часто терпит неудачу при увеличении количества задач map/reduce, как показано ниже,
Я сталкиваюсь со...
1921 просмотров
schedule
28.03.2022
Виртуальные машины, содержащие RHadoop и файл hadoop-streaming.jar.
Получение локального тестового экземпляра Hadoop выглядит немного сложным для настройки после изучения следующих очень четких, но все же очень сложных ссылок:
http://www.slideshare.net/ChicagoHUG/getting-started-with-r-hadoop-chug-20120815...
109 просмотров
schedule
03.12.2022
Использование переменных среды в R
Я пытаюсь понять код reducer.R, взятый со следующего веб-сайта.
http://www.thecloudavenue.com/2013/10/mapreduce-programming-in-r-using-hadoop.html
Этот код используется для потоковой передачи Hadoop с использованием R.
Я дал код ниже:...
317 просмотров
schedule
10.04.2024
Сбой потоковой передачи Hadoop с java.io.FileNotFoundException
Я написал задание по уменьшению карты только на карте python, которое принимает данные из стандартного ввода и обрабатывает их для получения некоторого вывода. Он отлично работает при локальном выполнении. Однако, когда я пытаюсь выполнить его с...
516 просмотров
schedule
26.08.2023
Сценарий MapReduce с входом в локальный каталог и выходом HBase
Иногда я хотел бы выполнить какой-нибудь простой облегченный MapReduce. «Простой» означает, что он использует очень простой алгоритм, а «легковесный» означает, что я могу реализовать его несколькими строками на каком-то языке сценариев (или что-то в...
78 просмотров
schedule
14.11.2023
Подключите Hive к потоковой передаче Hadoop
Мне было интересно, есть ли способ подключить вывод Hive напрямую к потоковому заданию Hadoop без использования промежуточных файлов. Я мог бы использовать INSERT OVERWRITE DIRECTORY, чтобы создать временный файл, а затем запустить потоковое задание...
44 просмотров
schedule
22.01.2023
Программа Python с sys.stdin выдает ошибку — Hadoop Streaming
Я пытаюсь изучить потоковую передачу Hadoop. Я только что написал трехстрочную программу на Python, чтобы проверить, все ли работает нормально, но застрял.
Код :
#!/usr/bin/env python
import sys
for line in sys.stdin:
print "Inside...
1341 просмотров
schedule
04.09.2022
Python и MapReduce: помимо основ, как выполнять больше задач в одной базе данных
У меня есть огромное хранилище данных txt, по которому я хочу собрать статистику.
Используя Hadoop-streaming и Python, я знаю, как реализовать MapReduce для сбора статистики по одному столбцу, например. подсчитайте, сколько записей есть для...
103 просмотров
schedule
13.05.2024