Вопросы по теме 'hadoop-partitioning'

Редуктор выводит значение для двух разных ключей в одном файле
Привет, я написал задание mapreduce, которое обычно анализирует файл XML. Я могу разобрать файл XML и правильно сгенерировать всю пару значений ключа. У меня есть 6 разных ключей и соответствующие значения. Итак, я запускаю 6 разных редукторов...
462 просмотров

Как данные разбиваются в Hadoop
Разделяет ли Hadoop данные на основе количества картографов, установленных в программе? То есть, имея набор данных размером 500 МБ, если количество модулей сопоставления равно 200 (при условии, что кластер Hadoop допускает одновременное использование...
14436 просмотров
schedule 22.07.2022

Отправка данных со всех мапперов на все редукторы
Прежде чем этот вопрос будет помечен как дубликат, прочтите его. Этот вопрос задавался много раз без четкого ответа. Допустим, моя задача — вычислить вероятность unigram для каждого слова в миллионах файлов. Я могу выдавать счетчики слов из...
518 просмотров
schedule 22.09.2022

Могу ли я получить номер раздела Hadoop?
Я hadoop новичок. Я хочу получить номер раздела в выходном файле. Сначала я сделал кастомный разделитель. public static class MyPartitioner extends Partitioner<Text, LongWritable> { public int getPartition(Text key,...
707 просмотров
schedule 21.12.2023

разные ключи помещаются в 1 файл, даже если используется собственный разделитель Hadoop
У меня заканчивается минутный выпуск. Я пытаюсь получить другой файл для разных ключей от Reducer. Разделитель public class customPartitioner extends Partitioner<Text, NullWritable> implements Configurable { private Configuration...
46 просмотров
schedule 25.11.2023

Вторичная сортировка в Hadoop
Я работаю над проектом Hadoop, и после многих посещений различных блогов и чтения документации я понял, что мне нужно использовать функцию вторичной сортировки, предоставляемую инфраструктурой Hadoop. Мой формат ввода имеет вид: DESC(String)...
654 просмотров

Преобразование строки в форму даты
У меня есть столбец со строкой partition=201707070800 , мне нужно преобразовать ее в 2017-07-08 . Как мы можем добиться этого? Спасибо
130 просмотров
schedule 29.04.2023

Kafka S3 Sink Connector — как пометить раздел как завершенный
Я использую разъем приемника Kafka для записи данных из Kafka в s3. Выходные данные разбиты на почасовые сегменты — year=yyyy/month=MM/day=dd/hour=hh . Эти данные используются последующим пакетным заданием. Итак, прежде чем запускать подчиненное...
108 просмотров