Нарезка набора данных фабрики данных Azure

У меня проблемы с пониманием срезки (доступности набора данных) в фабрике данных Azure. Допустим, у меня есть исходный набор данных, который никогда не меняется. Затем я почему-то настроил почасовую срезку для своего исходного набора данных. Будут ли тогда каждый кусочек идентичным? Какой вообще смысл использовать срезы в таком случае (т.е. зачем это нужно)? Или другой случай, скажем, мой исходный набор данных постоянно дополняется новыми данными (например, журналом событий). И каждое утро я хочу анализировать всю историю этого журнала. Должен ли я тогда настроить ежедневную нарезку? Будет ли каждый фрагмент включать полную историю или только последний день?


person Lars    schedule 21.12.2015    source источник


Ответы (1)


Срезы - это интервалы, в которых конвейер выполняется в течение периода, определенного в начальных и конечных свойствах конвейера. Если у вас есть источник исправлений и вы выполняете действие более одного раза, оно всегда будет использовать один и тот же источник (потому что он не меняется). Допустим, вы установили время начала и время окончания как день, а частоту - 1 час - действие будет выполнено 24 раза. У вас будет 24 фрагмента, использующих один и тот же источник данных.

Для вашего второго сценария, если данные продолжают меняться, вы можете установить частоту один раз в день. То, что будет обрабатываться, зависит от действия, которое вы определяете в конвейере - допустим, конвейер удаляет старый источник после завершения обработки, или в действии есть логика, которая принимает только новые данные.

person Nava Vaisman Levy    schedule 21.12.2015