Я новичок в фабрике данных Azure, и я работаю над доказательством концепции для своей организации, мне трудно получить хорошую информацию по довольно простым вещам, и я надеюсь, что кто-то может указать мне на хорошие ресурсы для мой вариант использования.
Я знаю, что это общий вопрос, но любая помощь будет полезна. Сейчас я хожу по кругу и чувствую, что теряю много времени. То, что заняло бы у меня несколько минут в ssis, пока что потребовало часов исследований, а я все еще не продвинулся далеко.
Вот пример использования:
- Архив gzip прибывает в хранилище BLOB-объектов каждый час, в нем есть несколько файлов .tsv, но я хочу извлечь один, в котором есть данные потока веб-кликов.
- Я хочу извлечь этот файл .tsv из архива, добавить дату и время к имени, а затем сохранить его в хранилище озера данных Azure.
- Я хочу, чтобы это происходило каждый раз, когда приходит новый архив gzip.
Пока у меня есть:
- Настройка фабрики данных Azure версии 2
- Связанная настройка службы с контейнером больших двоичных объектов
- Связанная настройка службы для хранилища озера данных 1-го поколения
- Я думаю, что все разрешения и проблемы с брандмауэром отсортированы для ADF для доступа к хранилищу.
Подходит ли фабрика данных Azure для этой работы? и если да, то куда мне дальше идти? Как мне создать наборы данных и конвейер для достижения варианта использования и как запланировать его запуск при получении нового zip-архива?