AFAIK, в случае реляционной базы данных на оборудовании MPP ключом к производительности является правильное распределение данных. Хотя многомерное моделирование касается гибкости запросов, вы даже не знаете, как данные будут запрашиваться (перетасовываться) в будущем.
Например, у вас есть хранилище данных MPP (Greenplum, Redshift, Synapse Analytics). Например, через 1-2 года вы ожидаете, что ваша таблица фактов вырастет до 10 миллиардов строк, и у вас будет 15-30 таблиц измерений, содержащих 10 миллионов строк. Как данные должны распределяться по узлам DW? Есть ли какие-нибудь общие методы? Например, таблица фактов осколка и репликация таблиц измерений. Или мне следует минимизировать количество узлов в MPP DW?
Я могу привести конкретный вариант использования, но я считаю, что вопрос возникает из-за моего непонимания того, как пространственное моделирование может сочетаться с масштабированием.