У меня есть многоузловой кластер в Hadoop, состоящий из двух машин. на первой машине (настроенной ведущей и ведомой) работают узел имени и узел данных, а на второй машине (настроенная ведомая) работает узел данных.
Я хочу загружать и распределять данные между ними почти поровну?
У меня есть два сценария:
Во-первых: предположим, у меня есть файл file1 размером 500 МБ, и я загрузил его на первую машину, используя:
hadoop fs -put file1 hdfspath
Будет ли он разделен на оба узла данных или будет храниться только на первой машине?
Когда произойдет раздача: это после превышения размера блока на первой машине, тогда она раздастся или есть другие критерии.
Будут ли поровну разделены 250мб на каждую ноду данных?
Во-вторых: предположим, у меня есть 250 файлов размером 2 МБ каждый, и я загрузил папку, содержащую их, dir1 на первую машину, используя:
hadoop fs -put dir1 hdfspath
тот же вопрос: будут ли данные распределяться на обеих машинах или только на первой машине. Также когда и как будет происходить раздача?
Спасибо.