Моделирование данных позволяет каждому заинтересованному лицу понять, как данные связаны с другими данными, или то, что мы называем пониманием данных.
Прошло уже больше года, и большинство людей узнают о данных независимо от того, хотят ли они изучать науку о данных, аналитику данных, машинное обучение, которые в основном используются для чтения файлов CSV и создания прогнозных моделей.
Однако реальная работа не всегда говорит о прогнозной модели. Но чем больше вы понимаете свои данные, тем больше вы можете сделать и улучшить свою компанию.
В этой статье я хотел бы поделиться своими новыми знаниями об моделировании данных. Будем надеяться, что на вашей первой настоящей работе вы закрепите свою первую точку опоры, разбираясь в данных. Вот цели этой статьи:
- Моделирование данных и его цель
- Этап моделирования данных (концептуальные, логические и физические данные)
- Диаграмма отношений сущностей (ERD)
- Тип схемы (схема STAR и схема Snowflake)
1. Моделирование данных и его цель
Моделирование данных — это первый шаг в процессе проектирования базы данных. Иногда моделирование данных представляет собой своего рода план или схему для создания базы данных. Например, если вы хотите создать оптовые данные, вам потребуются данные о продукте, данные об отгрузке и данные о клиентах. Вот простая картина моделирования данных.
Сами данные должны быть разделены в каждой таблице, и, наконец, мы объединяем их, которые будут использоваться заинтересованным лицом. Цели моделирования данных:
- Для хранения данных в базе данных
- Чтобы понять взаимосвязь между элементами данных (студенты наблюдают за лекцией)
- Ограничения данных (число студентов имеет восемь цифр, у субъекта четыре кредита)
При моделировании данных вы также должны понимать основную конструкцию моделирования данных, например:
- Сущность: основной объект данных, о котором должна быть собрана информация. Это аналог таблицы в базе данных.
- Атрибут: сущность, с которой они связаны. Аналогичен столбцу в базе данных.
- Связь: представляет собой связь между двумя или более объектами.
2. Этап моделирования данных
Существует три этапа моделирования данных, такие как концептуальное моделирование данных, логическое моделирование данных и моделирование физических данных. На каждом этапе он представляет данные и способ их хранения, а также устанавливает взаимосвязь между данными.
Концептуальное моделирование данных
Ониспользуется заинтересованными сторонами бизнеса. Цель состоит в том, чтобы организовать, расширить и определить бизнес-концепцию. Существуют характеристики концептуальных данных:
- Гибкое структурирование данных
- Легко понять и улучшить
- Видны только объекты
- Абстрактные отношения
- Основа для идентификации и высокоуровневого описания основных объектов данных; они избегают деталей
Логическое моделирование данных
Его используют архитекторы данных и бизнес-аналитики. Цель состоит в том, чтобы разработать техническую карту правил и структуры данных. В логическом моделировании данных есть некоторые особенности:
- Наличие атрибута для каждой сущности
- Связь между первичным ключом и внешним ключом
- Удобное имя атрибута
- Больше деталей, чем концептуальная модель
- Независимость от базы данных
- Немного больше усилий и требуется для улучшения
Моделирование физических данных
Он используется разработчиками. Целью является фактическая реализация базы данных. В моделировании физических данных есть некоторые особенности:
- Сущности, называемые таблицей
- Атрибуты, называемые столбцом
- Имена таблиц, совместимые с базой данных
- Имена столбцов, совместимые с базой данных
- Типы данных, специфичные для базы данных
- Трудно понять пользователям
- Значительно больше усилий, чем логическая модель
3. Диаграмма отношений сущностей
Теперь вы понимаете этап моделирования данных. В этом разделе вам будет показано, как одна сущность связана с другой сущностью с кардинальностью. Количество элементов представляет собой гусиную лапку на конце коннектора, указывающую на то, сколько экземпляров одного объекта связано с одним экземпляром в одном объекте.
Существует два значения кардинальности, такие как максимальное и минимальное. Максимальная кардинальность означает максимальное значение экземпляра обеих сторон отношения (1 или несколько). С другой стороны, минимальная кардинальность означает минимальное значение экземпляра обеих сторон отношения (0 или 1).
4. Тип схемы в моделировании данных
После создания ERD вы хотите сохранить свои данные в хранилище данных. Существует несколько типов схем хранения данных, таких как схема «звезда» и схема «снежинка».
Схема со звездочкой
Схема «звезда» в хранилище данных, в которой центр звезды может иметь одну таблицу фактов и несколько связанных таблиц измерений. В звездообразной схеме таблица фактов находится в центре и содержит ключи в каждой таблице измерений [1]. Есть некоторые характеристики схемы Star:
- Каждое измерение в звездообразной схеме представлено только одномерной таблицей.
- Таблица измерений должна содержать набор атрибутов.
- Таблица измерений соединяется с таблицей фактов с помощью внешнего ключа.
- Таблицы измерений не соединены друг с другом
- Схема широко поддерживается BI Tools.
Схема снежинки
Схема «снежинка» является расширением схемы «звезда», где в таблице измерений есть дополнительная таблица измерений. Дополнительная таблица измерений представлена в виде нормализованной таблицы [1]. Есть некоторые характеристики схемы Snowflake:
- Основное преимущество схемы «снежинка» — использование меньшего дискового пространства.
- В схему добавлено измерение, которое проще реализовать.
- Основная проблема, с которой вы столкнетесь при использовании схемы снежинки, заключается в том, что вам нужно выполнять больше усилий по обслуживанию из-за большего количества таблиц поиска.
Вывод
Работая специалистом по данным, я понял, что моделирование данных — это первая точка опоры для понимания существующих данных в компании. Если вы новичок в аналитике данных/специалисте по данным, вы должны попросить команду инженеров данных предоставить вам схему. Итак, как только вас попросят создать информационную панель или проанализировать данные, вы сразу же прочитаете документ без какой-либо слепоты для начала. Надеюсь, это поможет вам узнать больше об обучении в вашей карьере в области данных.
Использованная литература:
[1] Guru99, Схема звезда и снежинка в хранилище данных с примерами (2021 г.), https://www.guru99.com/star-snowflake-data-warehousing.html