Вопросы по теме 'hadoop-partitioning'
Редуктор выводит значение для двух разных ключей в одном файле
Привет, я написал задание mapreduce, которое обычно анализирует файл XML. Я могу разобрать файл XML и правильно сгенерировать всю пару значений ключа. У меня есть 6 разных ключей и соответствующие значения. Итак, я запускаю 6 разных редукторов...
462 просмотров
schedule
09.12.2023
Как данные разбиваются в Hadoop
Разделяет ли Hadoop данные на основе количества картографов, установленных в программе? То есть, имея набор данных размером 500 МБ, если количество модулей сопоставления равно 200 (при условии, что кластер Hadoop допускает одновременное использование...
14436 просмотров
schedule
22.07.2022
Отправка данных со всех мапперов на все редукторы
Прежде чем этот вопрос будет помечен как дубликат, прочтите его.
Этот вопрос задавался много раз без четкого ответа. Допустим, моя задача — вычислить вероятность unigram для каждого слова в миллионах файлов. Я могу выдавать счетчики слов из...
518 просмотров
schedule
22.09.2022
Могу ли я получить номер раздела Hadoop?
Я hadoop новичок.
Я хочу получить номер раздела в выходном файле.
Сначала я сделал кастомный разделитель.
public static class MyPartitioner extends Partitioner<Text, LongWritable> {
public int getPartition(Text key,...
707 просмотров
schedule
21.12.2023
разные ключи помещаются в 1 файл, даже если используется собственный разделитель Hadoop
У меня заканчивается минутный выпуск.
Я пытаюсь получить другой файл для разных ключей от Reducer.
Разделитель
public class customPartitioner extends Partitioner<Text, NullWritable> implements
Configurable {
private Configuration...
46 просмотров
schedule
25.11.2023
Вторичная сортировка в Hadoop
Я работаю над проектом Hadoop, и после многих посещений различных блогов и чтения документации я понял, что мне нужно использовать функцию вторичной сортировки, предоставляемую инфраструктурой Hadoop.
Мой формат ввода имеет вид:
DESC(String)...
654 просмотров
schedule
07.03.2023
Преобразование строки в форму даты
У меня есть столбец со строкой partition=201707070800 , мне нужно преобразовать ее в 2017-07-08 . Как мы можем добиться этого?
Спасибо
130 просмотров
schedule
29.04.2023
Kafka S3 Sink Connector — как пометить раздел как завершенный
Я использую разъем приемника Kafka для записи данных из Kafka в s3. Выходные данные разбиты на почасовые сегменты — year=yyyy/month=MM/day=dd/hour=hh . Эти данные используются последующим пакетным заданием. Итак, прежде чем запускать подчиненное...
108 просмотров
schedule
26.11.2023