Я использую Sqoop версии 1.4.2 и базу данных Oracle.
При запуске команды Sqoop. Например вот так:
./sqoop import \
--fs <name node> \
--jt <job tracker> \
--connect <JDBC string> \
--username <user> --password <password> \
--table <table> --split-by <cool column> \
--target-dir <where> \
--verbose --m 2
Мы можем указать --m - сколько параллельных задач мы хотим, чтобы Sqoop запускал (также они могут одновременно обращаться к базе данных). Такая же опция доступна для экспорта ./sqoop ‹...>
Есть ли какая-то эвристика (вероятно, основанная на размере данных), которая поможет определить оптимальное количество задач для использования?
Благодарю вас!