Sqoop Экспорт Oracle Очень медленный

Недавно я начал работать над sqoop - hive/hadoop в Linux. Мне нужно импортировать данные улья из одной таблицы в таблицу оракула. Для этого я использую простой экспорт sqoop. У меня 6 миллионов строк в таблице кустов.

Эта команда дает мне очень низкую производительность и занимает много времени (85 минут), чтобы выполнить задание.

Запрос ->

sqoop export --connect jdbc:oracle:thin:@server:port:db--username user --password password--export-dir /user/hive/warehouse/tb --table tb--columns 'col1,col2..col33'  --input-fields-terminated-by  ','  --input-null-string '\\N' --input-null-non-string '\\N'  -m 1

Есть ли какие-либо изменения конфигурации, которые могут помочь мне сделать это быстрее.


person MI2610    schedule 14.08.2013    source источник


Ответы (2)


Трудно помочь без дополнительной информации. Я бы предложил снова запустить задание экспорта и следить за средой, чтобы увидеть, где находится узкое место (база данных? Сеть? Hadoop?). Также может быть полезно попробовать OraOop, так как он обычно быстрее.

person Jarek Jarcec Cecho    schedule 14.08.2013
comment
Ваша ссылка мертва - person EvilTeach; 14.08.2019

Это "широкий" набор данных? Это может быть ошибка sqoop https://issues.apache.org/jira/browse/SQOOP-2920, если количество столбцов очень велико (сотни), sqoop начинает задыхаться (очень много на процессоре).

Когда полей мало, обычно бывает наоборот - когда sqoop надоедает, а Oracle не успевает. В этом случае мы обычно не превышаем 45-55 картографов.

person Tagar    schedule 03.05.2016