Публикации по теме 'data-warehouse'


Озеро данных против хранилища данных: как выбрать правильное решение
Всем привет! Хранилище данных и озеро данных - две разные системы хранения данных. Однако многие из нас не различают их должным образом. Важно понимать все аспекты озера данных и хранилища данных, чтобы мы могли дифференцировать их использование и решить, что подходит для нашей организации. Поэтому в этой статье давайте разберемся в различиях и использовании хранилищ и озера данных. Начнем… Это эпоха, когда организации имеют дело с большими объемами, скоростью и разнообразием..

Машинное обучение в Snowflake
ОБНОВЛЕНИЕ: по состоянию на середину 2021 года этой статье уже около 2,5 лет! Snowflake сильно изменилась за это время, включая введение Snowpark , который является лучшим способом перенести тяжелую пользовательскую обработку в свою двигатель. Итак, если вы попали сюда из поисковой системы, то это потому, что историческая популярность выше, чем полезность контента 😁 Если вас интересует веселый эксперимент, в котором используется основанный на наборах подход к алгоритмам машинного..

Вопросы по теме 'data-warehouse'

Где я могу найти реальный набор данных в Интернете, с которым я мог бы попробовать создать куб хранилища данных?
Я изучаю хранилища данных, и мне нужно сделать один последний проект для учебы. Я думаю о том, чтобы сделать куб для хранилища данных. Где я могу найти реальный набор данных где-нибудь в Интернете, с которым я мог бы попробовать сделать куб?
875 просмотров
schedule 28.12.2022

Схема созвездия фактов
Я сделал схему созвездия фактов с 2 таблицами фактов и 16 таблицами измерений с 4 общими таблицами измерений. Одна из таблиц измерений должна быть нормализована, поскольку данные из источника данных могут иметь переменное количество строк. Могу ли я...
2658 просмотров
schedule 13.11.2022

Данные в разном разрешении
У меня есть две таблицы, в эти таблицы постоянно вставляются записи из внешнего источника. Допустим, в этих таблицах хранится статистика взаимодействий пользователей. Когда пользователь нажимает кнопку, подробности этого щелчка (пользователь, время...
697 просмотров

Как индексировать таблицу с медленно меняющимся измерением типа 2 для оптимальной производительности
Предположим, у вас есть таблица с медленно меняющимся измерением типа 2. Давайте представим эту таблицу следующим образом со следующими столбцами: * [Key] * [Value1] * ... * [ValueN] * [StartDate] * [ExpiryDate] В этом примере предположим,...
2438 просмотров

NoSQL для организации хранения и репликации файловой системы?
В нашей группе мы обсуждали разработку стратегии хранилища данных для удовлетворения требований к тестированию, воспроизводимости и синхронизации данных. Одна из предлагаемых идей - адаптировать подход NoSQL с помощью существующего инструмента , а...
6522 просмотров

Вопрос таблицы фактов хранилища данных
У меня есть таблица фактов под названием Кредиты. В этой таблице в идентификаторе кредита, дата кредита был сделан, и сумма кредита. Бизнес-требование, которое я не совсем знаю, как сделать в хранилище данных, заключается в следующем. Сумма...
1506 просмотров
schedule 18.05.2023

Общее представление о дизайне звездообразной схемы
Итак, я думаю, что понял, что ставить в измерениях, что в таблице фактов и как этого добиться. Теперь у меня есть проблема, что у меня есть измерение "продукт" и измерение "productProperties". Мне пришлось разделить это, иначе мой естественный ключ...
2760 просмотров

Аналитика/отчетность - та же или отдельная база данных и какая БД?
У меня есть веб-сайт пользовательского контента с некоторыми бизнес-функциями. Все таблицы находятся в 1 базе данных. Теперь я добавляю аналитику с отчетами в отделе на основе таблиц активности и журналов пользователей - разбивая ее, чтобы иметь...
554 просмотров
schedule 17.02.2024

Хранилище данных - моделирование измерений
Я новичок в BI / Datawarehousing, и после создания нескольких простых примеров у меня возникла необходимость построить более сложную структуру. Изначально мой проект включал лицензии на продукты, и я измерял, сколько продано, по месяцам / годам и по...
715 просмотров
schedule 03.04.2024

Таблицы календаря в PostgreSQL 9
Я создаю аналитическую базу данных (у меня есть твердое понимание данных и бизнес-целей, а также только базовые или средние навыки работы с базами данных). Я наткнулся на некоторые ссылки на создание подобных хранилищ, которые реализуют концепцию...
9688 просмотров

Проектирование базы данных: как исследовать необработанные данные и смоделировать их в существующей базе данных?
Как разработчику базы данных лучше всего исследовать новые необработанные данные для базы данных, когда вам нужно смоделировать эти данные в существующей базе данных? Я имею в виду ситуацию, когда вы получаете необработанные данные, например, в...
461 просмотров

Хранилище данных и загрузка данных с помощью пакета ssis
Я новичок в проектировании хранилищ данных, насколько мне известно, я создал дизайн хранилища данных. Для этой базы данных я создал 4 измерения и 1 таблицу фактов. Для всех измерений я не соблюдал ограничения первичного ключа. Для каждого...
535 просмотров
schedule 29.07.2022

Шаг поиска комбинации чайников с динамическими ключевыми полями (поле измерения / поле в потоке)
Чайник Pentaho Мне нужно динамически установить поля «Поле измерения» и «Поле в потоке» на шаге поиска комбинации преобразования с использованием переменных среды, это должно быть что-то вроде Dimension field | Field in stream...
976 просмотров
schedule 23.01.2024

Изменение свойств медленно меняющегося преобразования измерения в службах SSIS
У меня проблема с изменением свойств преобразования SCD в SSIS 2005. Я могу определить все свойства и сопоставления в первый раз, когда редактирую преобразование и его работу. Но когда я снова открываю редактор свойств компонента, он забывает...
1562 просмотров
schedule 09.05.2022

Добавление/объединение стандартных отклонений
Краткая версия: Можно ли добавлять/комбинировать StdDevs? то есть if StdDev(11,14,16,17)=X and StdDev(21,34,43,12)=Y can we calculate StdDev(11,14,16,17,21,34,43,12) from X & Y Полная версия: Я разрабатываю звездообразную схему. В...
4484 просмотров
schedule 30.09.2022

Измерение даты/времени в кубе
У меня есть измерение даты под названием Dim_Date в моем хранилище данных. Теперь проблема в том, что мое измерение даты заполнено только до 31 декабря 2011 года. Мой куб построен в SSAS. Могу ли я как-нибудь заполнить свой Date Dim еще на 5 лет?...
1713 просмотров

TSQL DateTime в DateKey Int
В статье Увеличение масштаба хранилища данных с помощью SQL Server 2008 R2 автор рекомендует использовать целочисленный ключ даты в формате ГГГГММДД в ​​качестве кластеризованного индекса для ваших таблиц фактов, чтобы оптимизировать скорость...
20612 просмотров
schedule 24.12.2023

каков предлагаемый порядок извлечения данных измерений/фактов?
Насколько я понимаю, сначала должны быть извлечены измерения, а затем должны быть извлечены факты. Таким образом, внешние ключи по-прежнему будут учитываться в промежуточной области. При загрузке следует использовать ту же последовательность по...
762 просмотров
schedule 08.06.2022

Материализованные представления Oracle или агрегированные таблицы в хранилище данных
Являются ли материализованные представления oracle (11g) хорошей практикой для агрегированных таблиц в хранилище данных? У нас есть процессы DW, которые заменяют данные за 2 месяца каждый день. Иногда это означает несколько гигов в месяц (~ 100...
1612 просмотров

Размерное моделирование - запросы без фактов
Я создаю размерную модель «системы записи разговоров» для услуги VoIP. Я приведу небольшой пример, чтобы показать свой вопрос. Предположим, у меня есть факт, который представляет собой единственный звонок. И у меня есть измерение под названием...
799 просмотров
schedule 15.08.2023