Среда: производственный кластер имеет 2 именных узла (а именно активный и резервный), и узлы представляют собой диски SAS в конфигурации Raid-1. На этих узлах нет ничего, кроме основных служб (NN и резервных NN), работающих на каждом из них. У них есть оперативная память 256 ГБ, в то время как узлы данных (где происходит большая часть обработки) установлены только на 128 ГБ.
Мой вопрос: почему главные узлы Hadoop имеют такой высокий объем оперативной памяти, а узлы данных — нет, когда большая часть обработки выполняется там, где данные доступны?
P.S. Согласно эмпирическому правилу Hadoop, нам требуется только 1 ГБ на каждый миллион файлов.