Сборник рекомендаций по Azure Synapse Analytics, собранный в одном месте для быстрого ознакомления.

Azure Synapse Analytics (ранее SQL Datawarehouse) предлагает петабайты масштабирования и объединяет корпоративные хранилища данных и аналитику больших данных.

Synapse SQL использует архитектуру MPP (Massively Parallel Processing) с использованием пулов SQL, которые представляют собой набор аналитических ресурсов, а размер пулов определяется DWU (единицами хранилища данных), и это также диктует цены. SQL Synapse также дает возможность приостанавливать вычисления и поддерживать активность хранилища только тогда, когда это необходимо.

Данные в таблице разделены на 60 распределений, а стратегия распределения может быть циклической, хеш-распределеннойилиреплицированной. Количество вычислительных узлов может варьироваться от 1 до 60 в зависимости от требуемого уровня производительности. По мере увеличения количества вычислительных узлов или DWU уменьшается количество распределений на вычислительный узел, что повышает общую производительность.

Документация по Synapse SQL довольно исчерпывающая, и ее можно найти здесь, полный pdf-файл занимает более 450 страниц. Я объединил приведенные ниже ссылки, которые помогли мне понять лучшие практики и соображения при проектировании хранилища данных, в виде кратких справочных руководств.

Шпаргалка

Лучшие практики

Проектирование таблиц

Таблицы индексации

Кучи

Кластеризованный индекс columnstore

Проектирование распределенных таблиц — Round Robin vs Hash vs Replicated

Хэш-распределение — используйте этот метод распределения для больших таблиц фактов с кластеризованным индексом columnstore.

Реплицированный — используйте эту стратегию распределения для небольших таблиц (‹2 ГБ), которые можно реплицировать на каждый вычислительный узел, обычно используемый для таблиц измерений.

Циклический перебор — используйте эту стратегию для промежуточных таблиц или для загрузки данных, или когда нет четкого выбора для распределения.

Загружать данные из внешних таблиц с помощью полибазы

  • «https://docs.microsoft.com/en-us/azure/sql-data-warehouse/load-data-from-azure-blob-storage-using-polybase#load-the-data-into-your-data -склад"

Я надеюсь, что эта статья окажется полезной и может стать полезной отправной точкой как для инженеров данных, так и для архитекторов при работе с их хранилищем данных Synapse SQL.