Публикации по теме 'data-warehouse'
Озеро данных против хранилища данных: как выбрать правильное решение
Всем привет!
Хранилище данных и озеро данных - две разные системы хранения данных. Однако многие из нас не различают их должным образом. Важно понимать все аспекты озера данных и хранилища данных, чтобы мы могли дифференцировать их использование и решить, что подходит для нашей организации. Поэтому в этой статье давайте разберемся в различиях и использовании хранилищ и озера данных.
Начнем…
Это эпоха, когда организации имеют дело с большими объемами, скоростью и разнообразием..
Машинное обучение в Snowflake
ОБНОВЛЕНИЕ: по состоянию на середину 2021 года этой статье уже около 2,5 лет! Snowflake сильно изменилась за это время, включая введение Snowpark , который является лучшим способом перенести тяжелую пользовательскую обработку в свою двигатель. Итак, если вы попали сюда из поисковой системы, то это потому, что историческая популярность выше, чем полезность контента 😁 Если вас интересует веселый эксперимент, в котором используется основанный на наборах подход к алгоритмам машинного..
Вопросы по теме 'data-warehouse'
Где я могу найти реальный набор данных в Интернете, с которым я мог бы попробовать создать куб хранилища данных?
Я изучаю хранилища данных, и мне нужно сделать один последний проект для учебы.
Я думаю о том, чтобы сделать куб для хранилища данных. Где я могу найти реальный набор данных где-нибудь в Интернете, с которым я мог бы попробовать сделать куб?
875 просмотров
schedule
28.12.2022
Схема созвездия фактов
Я сделал схему созвездия фактов с 2 таблицами фактов и 16 таблицами измерений с 4 общими таблицами измерений. Одна из таблиц измерений должна быть нормализована, поскольку данные из источника данных могут иметь переменное количество строк. Могу ли я...
2658 просмотров
schedule
13.11.2022
Данные в разном разрешении
У меня есть две таблицы, в эти таблицы постоянно вставляются записи из внешнего источника. Допустим, в этих таблицах хранится статистика взаимодействий пользователей. Когда пользователь нажимает кнопку, подробности этого щелчка (пользователь, время...
697 просмотров
schedule
02.02.2022
Как индексировать таблицу с медленно меняющимся измерением типа 2 для оптимальной производительности
Предположим, у вас есть таблица с медленно меняющимся измерением типа 2.
Давайте представим эту таблицу следующим образом со следующими столбцами:
* [Key]
* [Value1]
* ...
* [ValueN]
* [StartDate]
* [ExpiryDate]
В этом примере предположим,...
2438 просмотров
schedule
13.03.2024
NoSQL для организации хранения и репликации файловой системы?
В нашей группе мы обсуждали разработку стратегии хранилища данных для удовлетворения требований к тестированию, воспроизводимости и синхронизации данных. Одна из предлагаемых идей - адаптировать подход NoSQL с помощью существующего инструмента , а...
6522 просмотров
schedule
04.05.2024
Вопрос таблицы фактов хранилища данных
У меня есть таблица фактов под названием Кредиты. В этой таблице в идентификаторе кредита, дата кредита был сделан, и сумма кредита.
Бизнес-требование, которое я не совсем знаю, как сделать в хранилище данных, заключается в следующем. Сумма...
1506 просмотров
schedule
18.05.2023
Общее представление о дизайне звездообразной схемы
Итак, я думаю, что понял, что ставить в измерениях, что в таблице фактов и как этого добиться. Теперь у меня есть проблема, что у меня есть измерение "продукт" и измерение "productProperties". Мне пришлось разделить это, иначе мой естественный ключ...
2760 просмотров
schedule
16.12.2023
Аналитика/отчетность - та же или отдельная база данных и какая БД?
У меня есть веб-сайт пользовательского контента с некоторыми бизнес-функциями. Все таблицы находятся в 1 базе данных. Теперь я добавляю аналитику с отчетами в отделе на основе таблиц активности и журналов пользователей - разбивая ее, чтобы иметь...
554 просмотров
schedule
17.02.2024
Хранилище данных - моделирование измерений
Я новичок в BI / Datawarehousing, и после создания нескольких простых примеров у меня возникла необходимость построить более сложную структуру. Изначально мой проект включал лицензии на продукты, и я измерял, сколько продано, по месяцам / годам и по...
715 просмотров
schedule
03.04.2024
Таблицы календаря в PostgreSQL 9
Я создаю аналитическую базу данных (у меня есть твердое понимание данных и бизнес-целей, а также только базовые или средние навыки работы с базами данных).
Я наткнулся на некоторые ссылки на создание подобных хранилищ, которые реализуют концепцию...
9688 просмотров
schedule
03.03.2022
Проектирование базы данных: как исследовать необработанные данные и смоделировать их в существующей базе данных?
Как разработчику базы данных лучше всего исследовать новые необработанные данные для базы данных, когда вам нужно смоделировать эти данные в существующей базе данных? Я имею в виду ситуацию, когда вы получаете необработанные данные, например, в...
461 просмотров
schedule
13.07.2023
Хранилище данных и загрузка данных с помощью пакета ssis
Я новичок в проектировании хранилищ данных, насколько мне известно, я создал дизайн хранилища данных.
Для этой базы данных я создал 4 измерения и 1 таблицу фактов.
Для всех измерений я не соблюдал ограничения первичного ключа.
Для каждого...
535 просмотров
schedule
29.07.2022
Шаг поиска комбинации чайников с динамическими ключевыми полями (поле измерения / поле в потоке)
Чайник Pentaho
Мне нужно динамически установить поля «Поле измерения» и «Поле в потоке» на шаге поиска комбинации преобразования с использованием переменных среды, это должно быть что-то вроде
Dimension field | Field in stream...
976 просмотров
schedule
23.01.2024
Изменение свойств медленно меняющегося преобразования измерения в службах SSIS
У меня проблема с изменением свойств преобразования SCD в SSIS 2005.
Я могу определить все свойства и сопоставления в первый раз, когда редактирую преобразование и его работу.
Но когда я снова открываю редактор свойств компонента, он забывает...
1562 просмотров
schedule
09.05.2022
Добавление/объединение стандартных отклонений
Краткая версия: Можно ли добавлять/комбинировать StdDevs? то есть
if StdDev(11,14,16,17)=X and StdDev(21,34,43,12)=Y
can we calculate StdDev(11,14,16,17,21,34,43,12) from X & Y
Полная версия: Я разрабатываю звездообразную схему. В...
4484 просмотров
schedule
30.09.2022
Измерение даты/времени в кубе
У меня есть измерение даты под названием Dim_Date в моем хранилище данных. Теперь проблема в том, что мое измерение даты заполнено только до 31 декабря 2011 года. Мой куб построен в SSAS. Могу ли я как-нибудь заполнить свой Date Dim еще на 5 лет?...
1713 просмотров
schedule
03.02.2024
TSQL DateTime в DateKey Int
В статье Увеличение масштаба хранилища данных с помощью SQL Server 2008 R2 автор рекомендует использовать целочисленный ключ даты в формате ГГГГММДД в качестве кластеризованного индекса для ваших таблиц фактов, чтобы оптимизировать скорость...
20612 просмотров
schedule
24.12.2023
каков предлагаемый порядок извлечения данных измерений/фактов?
Насколько я понимаю, сначала должны быть извлечены измерения, а затем должны быть извлечены факты. Таким образом, внешние ключи по-прежнему будут учитываться в промежуточной области.
При загрузке следует использовать ту же последовательность по...
762 просмотров
schedule
08.06.2022
Материализованные представления Oracle или агрегированные таблицы в хранилище данных
Являются ли материализованные представления oracle (11g) хорошей практикой для агрегированных таблиц в хранилище данных?
У нас есть процессы DW, которые заменяют данные за 2 месяца каждый день. Иногда это означает несколько гигов в месяц (~ 100...
1612 просмотров
schedule
20.09.2023
Размерное моделирование - запросы без фактов
Я создаю размерную модель «системы записи разговоров» для услуги VoIP. Я приведу небольшой пример, чтобы показать свой вопрос.
Предположим, у меня есть факт, который представляет собой единственный звонок. И у меня есть измерение под названием...
799 просмотров
schedule
15.08.2023