С чего начать с фабрики данных Azure

Я новичок в фабрике данных Azure, и я работаю над доказательством концепции для своей организации, мне трудно получить хорошую информацию по довольно простым вещам, и я надеюсь, что кто-то может указать мне на хорошие ресурсы для мой вариант использования.

Я знаю, что это общий вопрос, но любая помощь будет полезна. Сейчас я хожу по кругу и чувствую, что теряю много времени. То, что заняло бы у меня несколько минут в ssis, пока что потребовало часов исследований, а я все еще не продвинулся далеко.

Вот пример использования:

  • Архив gzip прибывает в хранилище BLOB-объектов каждый час, в нем есть несколько файлов .tsv, но я хочу извлечь один, в котором есть данные потока веб-кликов.
  • Я хочу извлечь этот файл .tsv из архива, добавить дату и время к имени, а затем сохранить его в хранилище озера данных Azure.
  • Я хочу, чтобы это происходило каждый раз, когда приходит новый архив gzip.

Пока у меня есть:

  • Настройка фабрики данных Azure версии 2
  • Связанная настройка службы с контейнером больших двоичных объектов
  • Связанная настройка службы для хранилища озера данных 1-го поколения
  • Я думаю, что все разрешения и проблемы с брандмауэром отсортированы для ADF для доступа к хранилищу.

Подходит ли фабрика данных Azure для этой работы? и если да, то куда мне дальше идти? Как мне создать наборы данных и конвейер для достижения варианта использования и как запланировать его запуск при получении нового zip-архива?


person AnalystIRL    schedule 28.09.2018    source источник


Ответы (2)


Фабрика данных Azure создает сложные гибридные проекты извлечения-преобразования-загрузки (ETL), извлечения-преобразования-загрузки (ELT) и интеграции данных, что также является подходящим инструментом для этой работы. Основываясь на текущих знаниях, вам необходимо выполнить следующие настройки в вашей фабрике данных:

  1. Создайте конвейер для запуска всего рабочего процесса, в котором Задействовано копирование, а исходным набором данных является blob, а набор данных приемника - хранилище озера данных Gen1. Обратите внимание, что исходный набор данных большого двоичного объекта относится к вашей связанной службе большого двоичного объекта, а хранилище озера данных приемника Gen1 относится к связанной службе хранилища озера данных Gen1.
  2. Для параметра набора данных источника большого двоичного объекта установите свойство типа сжатия как GZIP, это позволяет ADF читать сжатые данные GZIP из большого двоичного объекта.
  3. Используйте триггер события, чтобы запускать конвейер каждый раз, когда приходит новый архив gzip.
person Wang Zhang    schedule 28.09.2018

С точки зрения получения помощи, руководств и документации по фабрике данных Azure 2-го поколения одно из лучших мест - это внутри самого дизайнера. В правом верхнем углу есть значок справки, предлагающий ссылки на руководство и документацию:

Конструктор фабрики данных Azure

Экскурсия зависит от контекста, поэтому стоит щелкать ее в разных местах, чтобы получить помощь, например, в действии копирования, из набора данных и т. Д.

В документации есть множество полезных функций, включая видеоролики, учебные пособия и 5-минутные краткие руководства, и, конечно же, она всегда актуальна.

Наконец, Stack Overflow и MSDN - отличные ресурсы для получения помощи по ADF. Я почти уверен, что члены продуктовой группы придут и ответят на вопросы, так что лучшей помощи вы не найдете. Обычно это работает лучше всего, когда у вас есть конкретный вопрос или сообщение об ошибке и есть что показать.

person wBob    schedule 01.09.2019