Я новичок в Hadoop, и у меня есть следующие вопросы по этому поводу.
Это то, что я понял в хаупе.
1) Когда какой-либо файл записывается в Hadoop, он сохраняется во всех узлах данных фрагментами (по умолчанию 64 МБ).
2) Когда мы запустим задание MR, из этого блока будет создано разделение, и на каждом узле данных будет обработано разделение.
3) Из каждого считывателя разделенных записей будет использоваться для создания пары ключ/значение на стороне преобразователя.
Вопросы :
1) Может ли один узел данных обрабатывать более одного разделения одновременно? Что делать, если емкость узла данных больше?
Я думаю, что это было ограничением в MR1, а в MR2 YARN мы лучше используем ресурсы.
2) Будет ли разбиение считываться последовательно на узле данных или его можно обрабатывать параллельно для создания пары ключ/значение? [Путем случайного доступа к местоположению диска в разделении узла данных]
3) Что такое терминология слота в архитектуре map/reduce? Я читал один из блогов, и в нем говорится, что YARN обеспечит лучшее использование слотов в Datanode.