Мы работаем над проектом, в котором мы ежедневно получаем файл размером около 90 ГБ, который состоит из ~ 60 миллионов строк. Проблема в том, что они отправляют полный файл каждый день (90 ГБ), который включает в себя историю неизменных данных, а также новые данные.
Теперь наша задача разделить только новые вставки, удаления и обновления для разделения файлов и загрузки. Как мы могли сделать это эффективно?
Используемые инструменты: Datastage и AWS (можно использовать), если они рентабельны и дают хорошую производительность. Конечная цель для загрузки данных в Snowflake.