Мое требование -
- Перенести данные из Oracle в HDFS
- Обработка данных на HDFS
- Перенести обработанные данные в Teradata.
Также необходимо проделывать всю эту обработку каждые 15 минут. Объем исходных данных может быть близок к 50 ГБ, и обработанные данные также могут быть такими же.
После долгих поисков в Интернете я обнаружил, что
- ORAOOP для перемещения данных из Oracle в HDFS (имейте код вместе со сценарием оболочки и запланируйте его запуск с требуемым интервалом).
- Выполняйте крупномасштабную обработку с помощью Custom MapReduce, Hive или PIG.
- SQOOP - Коннектор Teradata для перемещения данных из HDFS в Teradata (опять же, есть сценарий оболочки с кодом, а затем запланировать его).
Правильно ли это в первую очередь и возможно ли это в течение требуемого периода времени (обратите внимание, что это не ежедневная партия или около того)?
Другие варианты, которые я нашел, следующие
- ШТОРМ (для обработки данных в реальном времени). Но я не могу найти из коробки болт Oracle Spout или Teradata.
- Любые инструменты ETL с открытым исходным кодом, такие как Talend или Pentaho.
Пожалуйста, поделитесь своими мыслями об этих вариантах и любых других возможностях.