Подходит ли Azure Stream Analytics для создания таблиц фактов и измерений хранилища данных?

У меня есть следующий сценарий, который я собираюсь реализовать с помощью Azure Stream Analytics.

Мой вклад состоит из:

  1. Потоковая передача событий из Azure Event Hub.
  2. Справочные данные, относящиеся к событиям. Некоторые из этих данных «медленно меняются» изо дня в день.

Мне нужно объединить события и справочные данные, обработать их и вывести таблицы, которые составят «хранилище данных» (с Power BI как потребитель).

Результат будет состоять из:

  1. Таблица фактов, в которой хранятся самые важные события.
  2. Несколько таблиц измерений, содержащих значения, из которых состоят факты.

Подходит ли Azure Stream Analytics для такой работы? Мне кажется, что ASA хорошо подходит для сохранения событий из потока концентратора событий в таблице фактов. Однако дополнительная работа по поддержанию актуальности таблиц измерений, то есть периодическое добавление новых значений, не подходит.

Прав ли я в этом анализе? Следует ли мне перейти на фабрику данных Azure для моего проекта?


comment
Stream Analytics предназначен для анализа данных в реальном времени, не ETL.   -  person Panagiotis Kanavos    schedule 10.02.2016
comment
Спасибо @PanagiotisKanavos :). Уточните, в чем принципиальное различие между анализом и преобразованием в моем сценарии?   -  person urig    schedule 10.02.2016
comment
Как и в случае с любым DQ, звездообразной схемой, базой данных отчетов, анализ - это то, что говорит вам, сколько X у вас есть. ETL - это то, что загружает данные в схему. В этом конкретном случае анализ сообщит вам, сколько событий произошло в окне, или обнаружит аномальные действия в этом окне. Хотя вы coiuld используете Analysis SQL для преобразования, это очень громоздко (шаги - это CTE), ограничено (максимум 6) и дорого. ETL требует гораздо большего.   -  person Panagiotis Kanavos    schedule 10.02.2016
comment
Уриг, не могли бы вы поделиться гипотетическим, но более конкретным сценарием, который отражает ваши потребности? Вы правы в том, что ASA хорошо подходит для сохранения событий из потока после применения нескольких преобразований или агрегатов. Вы можете использовать комбинацию ASA и ADF или только ASA в некоторых случаях для поддержания таблиц измерений в актуальном состоянии.   -  person Vignesh Chandramohan    schedule 12.02.2016
comment
Текс @PanagiotisKanavos. Если вы хотите превратить свой комментарий в ответ, я буду рад его принять.   -  person urig    schedule 07.03.2016


Ответы (1)


Подходит ли Azure Stream Analytics для такой работы? Не совсем. Stream Analytics предназначен для потоковой обработки в реальном времени в облаке.

Как вы отметили, дополнительная работа по поддержанию актуальности таблиц измерений, т.е. периодическое добавление новых значений, не подходит для ASA (Azure Stream Analytics).

Для этой части / функциональности вы можете использовать фабрику данных Azure (ADF), это облачная служба интеграции данных, которая организует и автоматизирует перемещение и преобразование данных. что вам здесь нужно.

Кроме того, Azure HDInsight на основе Hadoop позволяет использовать сценарии ETL. Вы можете проверить этот пример «Рабочий процесс ETL для данных телеметрии гоночного автомобиля» здесь https://msdn.microsoft.com/en-us/library/dn749886.aspx

person Rami Sarieddine    schedule 29.03.2016