Моделирование данных позволяет каждому заинтересованному лицу понять, как данные связаны с другими данными, или то, что мы называем пониманием данных.

Прошло уже больше года, и большинство людей узнают о данных независимо от того, хотят ли они изучать науку о данных, аналитику данных, машинное обучение, которые в основном используются для чтения файлов CSV и создания прогнозных моделей.

Однако реальная работа не всегда говорит о прогнозной модели. Но чем больше вы понимаете свои данные, тем больше вы можете сделать и улучшить свою компанию.

В этой статье я хотел бы поделиться своими новыми знаниями об моделировании данных. Будем надеяться, что на вашей первой настоящей работе вы закрепите свою первую точку опоры, разбираясь в данных. Вот цели этой статьи:

  1. Моделирование данных и его цель
  2. Этап моделирования данных (концептуальные, логические и физические данные)
  3. Диаграмма отношений сущностей (ERD)
  4. Тип схемы (схема STAR и схема Snowflake)

1. Моделирование данных и его цель

Моделирование данных — это первый шаг в процессе проектирования базы данных. Иногда моделирование данных представляет собой своего рода план или схему для создания базы данных. Например, если вы хотите создать оптовые данные, вам потребуются данные о продукте, данные об отгрузке и данные о клиентах. Вот простая картина моделирования данных.

Сами данные должны быть разделены в каждой таблице, и, наконец, мы объединяем их, которые будут использоваться заинтересованным лицом. Цели моделирования данных:

  1. Для хранения данных в базе данных
  2. Чтобы понять взаимосвязь между элементами данных (студенты наблюдают за лекцией)
  3. Ограничения данных (число студентов имеет восемь цифр, у субъекта четыре кредита)

При моделировании данных вы также должны понимать основную конструкцию моделирования данных, например:

  • Сущность: основной объект данных, о котором должна быть собрана информация. Это аналог таблицы в базе данных.
  • Атрибут: сущность, с которой они связаны. Аналогичен столбцу в базе данных.
  • Связь: представляет собой связь между двумя или более объектами.

2. Этап моделирования данных

Существует три этапа моделирования данных, такие как концептуальное моделирование данных, логическое моделирование данных и моделирование физических данных. На каждом этапе он представляет данные и способ их хранения, а также устанавливает взаимосвязь между данными.

Концептуальное моделирование данных

Ониспользуется заинтересованными сторонами бизнеса. Цель состоит в том, чтобы организовать, расширить и определить бизнес-концепцию. Существуют характеристики концептуальных данных:

  • Гибкое структурирование данных
  • Легко понять и улучшить
  • Видны только объекты
  • Абстрактные отношения
  • Основа для идентификации и высокоуровневого описания основных объектов данных; они избегают деталей

Логическое моделирование данных

Его используют архитекторы данных и бизнес-аналитики. Цель состоит в том, чтобы разработать техническую карту правил и структуры данных. В логическом моделировании данных есть некоторые особенности:

  1. Наличие атрибута для каждой сущности
  2. Связь между первичным ключом и внешним ключом
  3. Удобное имя атрибута
  4. Больше деталей, чем концептуальная модель
  5. Независимость от базы данных
  6. Немного больше усилий и требуется для улучшения

Моделирование физических данных

Он используется разработчиками. Целью является фактическая реализация базы данных. В моделировании физических данных есть некоторые особенности:

  1. Сущности, называемые таблицей
  2. Атрибуты, называемые столбцом
  3. Имена таблиц, совместимые с базой данных
  4. Имена столбцов, совместимые с базой данных
  5. Типы данных, специфичные для базы данных
  6. Трудно понять пользователям
  7. Значительно больше усилий, чем логическая модель

3. Диаграмма отношений сущностей

Теперь вы понимаете этап моделирования данных. В этом разделе вам будет показано, как одна сущность связана с другой сущностью с кардинальностью. Количество элементов представляет собой гусиную лапку на конце коннектора, указывающую на то, сколько экземпляров одного объекта связано с одним экземпляром в одном объекте.

Существует два значения кардинальности, такие как максимальное и минимальное. Максимальная кардинальность означает максимальное значение экземпляра обеих сторон отношения (1 или несколько). С другой стороны, минимальная кардинальность означает минимальное значение экземпляра обеих сторон отношения (0 или 1).

4. Тип схемы в моделировании данных

После создания ERD вы хотите сохранить свои данные в хранилище данных. Существует несколько типов схем хранения данных, таких как схема «звезда» и схема «снежинка».

Схема со звездочкой

Схема «звезда» в хранилище данных, в которой центр звезды может иметь одну таблицу фактов и несколько связанных таблиц измерений. В звездообразной схеме таблица фактов находится в центре и содержит ключи в каждой таблице измерений [1]. Есть некоторые характеристики схемы Star:

  1. Каждое измерение в звездообразной схеме представлено только одномерной таблицей.
  2. Таблица измерений должна содержать набор атрибутов.
  3. Таблица измерений соединяется с таблицей фактов с помощью внешнего ключа.
  4. Таблицы измерений не соединены друг с другом
  5. Схема широко поддерживается BI Tools.

Схема снежинки

Схема «снежинка» является расширением схемы «звезда», где в таблице измерений есть дополнительная таблица измерений. Дополнительная таблица измерений представлена ​​в виде нормализованной таблицы [1]. Есть некоторые характеристики схемы Snowflake:

  1. Основное преимущество схемы «снежинка» — использование меньшего дискового пространства.
  2. В схему добавлено измерение, которое проще реализовать.
  3. Основная проблема, с которой вы столкнетесь при использовании схемы снежинки, заключается в том, что вам нужно выполнять больше усилий по обслуживанию из-за большего количества таблиц поиска.

Вывод

Работая специалистом по данным, я понял, что моделирование данных — это первая точка опоры для понимания существующих данных в компании. Если вы новичок в аналитике данных/специалисте по данным, вы должны попросить команду инженеров данных предоставить вам схему. Итак, как только вас попросят создать информационную панель или проанализировать данные, вы сразу же прочитаете документ без какой-либо слепоты для начала. Надеюсь, это поможет вам узнать больше об обучении в вашей карьере в области данных.

Использованная литература:

[1] Guru99, Схема звезда и снежинка в хранилище данных с примерами (2021 г.), https://www.guru99.com/star-snowflake-data-warehousing.html