Я когда-то искал и обнаружил, что кластер MapReduce с использованием hadoop2 + пряжа имеет следующее количество одновременных карт и сокращений на узел:
Параллельные карты # = yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb Параллельные сокращения # = yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb
Однако я создал кластер из 10 машин со следующими конфигурациями:
'yarn_site' => {
'yarn.nodemanager.resource.cpu-vcores' => '32',
'yarn.nodemanager.resource.memory-mb' => '16793',
'yarn.scheduler.minimum-allocation-mb' => '532',
'yarn.nodemanager.vmem-pmem-ratio' => '5',
'yarn.nodemanager.pmem-check-enabled' => 'false'
},
'mapred_site' => {
'mapreduce.map.memory.mb' => '4669',
'mapreduce.reduce.memory.mb' => '4915',
'mapreduce.map.java.opts' => '-Xmx4669m',
'mapreduce.reduce.java.opts' => '-Xmx4915m'
}
Но после того, как кластер настроен, hadoop позволяет использовать 6 контейнеров для всего кластера. Что я забыл? Что я делаю неправильно?