Память для Namenode(s) в Hadoop

Среда: производственный кластер имеет 2 именных узла (а именно активный и резервный), и узлы представляют собой диски SAS в конфигурации Raid-1. На этих узлах нет ничего, кроме основных служб (NN и резервных NN), работающих на каждом из них. У них есть оперативная память 256 ГБ, в то время как узлы данных (где происходит большая часть обработки) установлены только на 128 ГБ.

Мой вопрос: почему главные узлы Hadoop имеют такой высокий объем оперативной памяти, а узлы данных — нет, когда большая часть обработки выполняется там, где данные доступны?

P.S. Согласно эмпирическому правилу Hadoop, нам требуется только 1 ГБ на каждый миллион файлов.


person Santosh Bitra    schedule 16.11.2019    source источник


Ответы (1)


Namenode хранит в памяти все ссылки на файлы со всех узлов данных.

Процессу datanode не требуется много памяти, это делают менеджеры узлов YARN.

person OneCricketeer    schedule 17.11.2019