Вопросы по теме 'hdfs'

Можно ли запустить Hadoop в псевдо-распределенном режиме без HDFS?
Я изучаю варианты запуска приложения hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все доступные ядра ЦП (да, это связано с этот вопрос ). Текущее...
4136 просмотров
schedule 25.10.2023

Как эффективно программно копировать файлы из HDFS в S3
Моя работа в Hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3. Может ли кто-нибудь указать мне на любой java API, который его обрабатывает. Спасибо
16494 просмотров
schedule 03.09.2022

Файловые блоки на HDFS
Гарантирует ли Hadoop, что разные блоки из одного файла будут храниться на разных машинах в кластере? Очевидно, что реплицированные блоки будут на разных машинах.
506 просмотров
schedule 02.01.2023

HIVE/HDFS для хранения данных датчиков в реальном времени в больших масштабах?
Я оцениваю системы сбора данных датчиков со следующими требованиями: 1 миллион конечных точек отправляют 100 байт данных каждую минуту (в виде временных рядов). В основном миллионы мелких операций записи в хранилище. This data is...
2521 просмотров
schedule 23.06.2022

Небольшие файлы и блоки HDFS
Блок в распределенной файловой системе Hadoop хранит несколько небольших файлов или блок хранит только 1 файл?
14512 просмотров
schedule 08.01.2023

Hadoop: пример процесса создания файла SequenceFile с двоичными файлами изображений для обработки в map/reduce
После Hadoop: как получить доступ (много) фотоизображений для обработки с помощью map/reduce? вопрос, где orangeoctopus дает разумное направление для загрузите двоичные файлы изображений и соберите их в SequenceFiles , чтобы передать...
10720 просмотров
schedule 23.02.2023

Сервер бережливости HDFS возвращает содержимое локальной ФС, а не HDFS
Я получаю доступ к HDFS, используя бережливость. Это ожидаемый (и правильный) контент на HDFS. [hadoop@hdp-namenode-01 ~]$ hadoop fs -ls / Found 3 items drwxr-xr-x - hadoop supergroup 0 2012-04-26 14:07 /home drwxr-xr-x - hadoop...
899 просмотров
schedule 30.05.2024

Таблица усечения HBase
Если я усекаю таблицу из HBase, то 1) Удаляет ли она также данные из базовой системы HDFS или просто помечает данные маркером удаления? 2) Как я могу убедиться, что данные также удалены из базовой системы HDFS?
3628 просмотров
schedule 30.07.2022

Cloudera 4 — Hdfs / Hbase — внутренняя связь через второй сетевой адаптер в частной сети
мы настроили CDH4 (hdfs, hbase, hue, mapreduce, oozie и zookeeper) на тестовом кластере с помощью Cloudera Manager. Все работает нормально, за исключением того, что мы не можем понять, как заставить узлы обмениваться данными через eth1 в частной...
359 просмотров
schedule 03.04.2023

Является ли размер входного разделения постоянным или зависит от логической записи?
Полное руководство Hadoop гласит: When you have Minimum split size 1, Maximum split size Long.MAX_VALUE, Block size 64MB then the Split size is 64MB. Логические записи TextInputFormat являются строками. Поскольку длина каждой строки...
855 просмотров
schedule 27.08.2022

Объединение нескольких команд PIG в одну строку
Можно ли в сценарии PIG объединить несколько команд в одну строку, чтобы выходные данные одной командной строки вместо того, чтобы входить в выходную переменную, могли напрямую использоваться в качестве входных данных для другой команды?
410 просмотров
schedule 21.04.2022

HADOOP datanode странные вещи
Думаю, у меня должно быть какое-то недопонимание насчет узлов данных в Hadoop Cluster. У меня есть виртуальный кластер hadoop, состоящий из master, slave1, slave2, slave3. Ведущее устройство и ведомое устройство 1 находятся на физической машине, в...
3881 просмотров
schedule 25.11.2022

перебалансировать отдельный узел данных в hadoop
В FAQ по Hadoop ниже: http://wiki.apache.org/hadoop/FAQ#On_an_individual_data_node.2C_how_do_you_balance_the_blocks_on_the_disk.3F Они дают решение для дисбаланса одного узла данных. Но у меня все еще есть вопрос. Предположим, у меня есть 2...
5058 просмотров
schedule 01.05.2024

Datanode перезагружается при выполнении Hadoop fs -put для больших данных (30 ГБ)
У меня есть кластер Hadoop с 3 узлами. 1 ведущий и 2 подчиненных. Каждый из них имеет по 24 ГБ оперативной памяти. Когда я выполняю hadoop fs -put для передачи данных из локальной файловой системы в купол hdfs данные передаются, а затем я...
2508 просмотров
schedule 06.02.2024

Конфигурация с одним узлом Hadoop на машине с большим объемом памяти
У меня есть экземпляр Apache Hadoop 1.1.1 с одним узлом со значениями параметров по умолчанию (см., например, [1] и [2] ) на машине с большим объемом оперативной памяти и очень ограниченным размером свободного места на диске. Затем я замечаю,...
337 просмотров
schedule 07.05.2022

Как функционируют блочные пулы в федерации HDFS
Итак, я читал Hadoop: полное руководство. Предложение в этом страница меня смутила. Поэтому я создал изображение, изображающее каждое предложение. В предложении говорится, В условиях федерации каждый узел имен управляет томом...
4355 просмотров
schedule 17.03.2024

dfs.namenode.servicerpc-address или dfs.namenode.rpc-address не настроены
Я пытался настроить hadoop с одним узлом имени и четырьмя узлами данных. Мне удалось успешно настроить узел имен и средство отслеживания заданий на одной машине и запустить их. Но на моей машине, где должен быть настроен узел данных, я сделал...
27527 просмотров
schedule 18.02.2024

hdfs хранит данные в datanode распределенно
Я построил HDFS (2 узла данных). Я сохранил данные в узлах данных HDFS . Я хочу хранить данные с балансировкой, используя два узла данных. Но я сохранил только один узел данных, когда использовал CLI ( hadoop fs -put ) У кого-нибудь есть...
686 просмотров
schedule 29.12.2023

как самостоятельно восстановить недореплицированные блоки до коэффициента репликации?
как самостоятельно восстановить недореплицированные блоки до коэффициента репликации? У меня есть два узла данных, три файла на них. потому что файл очень маленький, поэтому один блок один файл. коэффициент репликации равен 2, теперь в кластере...
2014 просмотров
schedule 11.09.2022

Как с помощью Hadoop изменить количество картографов для данного задания?
Итак, у меня есть два задания, задание A и задание B. Для задания A я хотел бы иметь максимум 6 картографов на узел. Однако работа B немного отличается. Для задания B я могу запустить только один преобразователь на узел. Причина этого не важна —...
1678 просмотров
schedule 04.06.2022