Многоядерные вычисления с Rhadoop

Я пытался что-то вычислить с помощью Rhadoop (связь между R и hadoop).

Когда я протестировал свой кластер со встроенными примерами в Hadoop-1.0.4, он выглядел хорошо. (Я имею в виду, что все ядра подчиненных узлов работали, хотя загрузка процессора колебалась между 50 и 100%)

Однако, когда я применил пример Rhadoop, это было не так. (Было активировано только одно ядро ​​каждого подчиненного узла.)

Есть ли какая-либо конфигурация, которую я должен настроить в Rhadoop? (точно так же, как я сделал с файлами конфигурации hadoop, такими как core-site.xml)

Спасибо


person Hyunwoong Ji    schedule 11.03.2013    source источник
comment
Пожалуйста, сделайте вашу ситуацию воспроизводимой, т.е. предоставьте нам данные и код, необходимые для имитации вашей ситуации. См. stackoverflow.com /questions/5963269/ для получения дополнительных советов о том, как это сделать.   -  person Paul Hiemstra    schedule 11.03.2013
comment
Извините, у меня нет разрешения, о котором вы просили. Я попрошу его (моего коллегу) дать мне свой код и получить разрешение на его загрузку. Спасибо за ваш комментарий.   -  person Hyunwoong Ji    schedule 12.03.2013


Ответы (1)


Вероятно, вы говорите о rmr2, который является частью RHadoop. rmr2 не имеет специальной конфигурации для этого. help(rmr.options) покажет вам все параметры конфигурации. Количество задач карты и слотов карты определяет степень параллелизма на этапе карты. Похоже, у вас достаточно слотов. Так что количество картографических задач может быть недостаточным. Это может зависеть от размера и других свойств ввода. Вы можете передать дополнительный аргумент в mapreduce backend.parameters = list(hadoop = list(D = 'mapred.map.tasks')), но Hadoop не соблюдает этот параметр дословно, а просто воспринимает его как подсказку. Аргумент backend.parameters устарел, но когда он будет удален, для этой конкретной цели будет предоставлен некоторый альтернативный механизм. Если проблема находится в фазе редукции, важна также кардинальность набора ключей (она устанавливает верхнюю границу степени параллелизма). Я согласен с Полом в том, что если бы вы предоставили воспроизводимый пример, мой ответ содержал бы гораздо меньше догадок. У RHadoop есть специальный форум, на котором активно участвуют разработчики и пользователи https://groups.google.com/forum/?fromgroups=#!forum/rhadoop

person piccolbo    schedule 11.03.2013
comment
Спасибо, я сделаю то, что вы написали, и вскоре предоставлю результат. - person Hyunwoong Ji; 12.03.2013