У меня есть задача SSIS, которая считывает файлы JSON из озера данных Azure, анализирует их с помощью команды десериализации в задаче сценария и создает их копии в виде таблиц на локальном сервере SQL.
Это происходит хорошо, но очень медленно. На импорт одного каталога у меня уходит 6 часов, а их много.
Поэтому я решил делать это постепенно.
Сначала я использовал условное разделение, чтобы избежать записи старых записей на локальный SQL-сервер, но это по-прежнему требовало временных затрат на чтение всего файла. А условное разделение - забавный компонент, я заметил, что он просто пропускает некоторые записи без причины. Фигово.
Итак, почему бы просто не пропустить весь файл, который я импортировал ранее? Но для этого мне нужно получить дату последнего изменения файла, который я обрабатываю.
Теперь я знаю, что есть несколько методов .Net для этого на простом C # (Операции файловой системы в Azure Data Lake Storage 1-го поколения с использованием .NET SDK), но поскольку я использую компонент сценария SSIS, у меня уже есть действительное подключение к данным Озеро. Должно быть намного проще, правда?
Но я не мог найти способ, я ценю любое руководство отсюда.
Ваше здоровье