Проектирование базы данных: как исследовать необработанные данные и смоделировать их в существующей базе данных?

Как разработчику базы данных лучше всего исследовать новые необработанные данные для базы данных, когда вам нужно смоделировать эти данные в существующей базе данных? Я имею в виду ситуацию, когда вы получаете необработанные данные, например, в текстовых файлах, и у вас нет описания типов данных или длин столбцов в этом файле. Я ищу инструменты и лучшие практики для проведения этого расследования. Доступны ли какие-либо предопределенные инструменты для этого в SQL Server?

Изменить: я говорю о технической стороне этого процесса, например. как узнать, должны ли данные в столбцах отображаться в таблице SQL Server как tinyint, int или bigint...


person jrara    schedule 19.06.2011    source источник


Ответы (2)


Мне кажется, что вы ищете инструмент для профилирования данных. Ваш заголовок "... моделировать..." немного вводит в заблуждение.

Взгляните на несколько вариантов:

person Damir Sudarevic    schedule 19.06.2011

Нет инструментов, которые расскажут вам, что означают данные.

Вам нужно поговорить с владельцами данных, понять их значение, и когда вы будете уверены в своем понимании, вы можете смоделировать свою базу данных и создать свой процесс ETL.

person Oded    schedule 19.06.2011
comment
Извините, я не говорю о том, что означают данные, я говорю о технической стороне этого процесса, как получить информацию о данных, чтобы принять решение, например. типы данных для столбцов (tinyint, int, bigint) и т. д. - person jrara; 19.06.2011
comment
@jrara - это не техническое упражнение. Вам необходимо понять, что означают данные, прежде чем вы сможете выбрать для них правильный тип данных, иначе вы рискуете неправильно смоделировать и создать базу данных, не соответствующую назначению. - person Oded; 19.06.2011
comment
@Oded - Да, вы правы, но я хотел бы знать, какие методы люди используют для исследования необработанных данных. - person jrara; 19.06.2011
comment
@jrara - Они идут к людям, которым принадлежат данные, и спрашивают их. - person Oded; 19.06.2011
comment
@Oded - Да, это обычный способ, но, к сожалению, я видел случаи, когда есть какая-то устаревшая система без разумной документации. В этих случаях необходимо исследовать данные и создавать эти сопоставления. - person jrara; 19.06.2011
comment
@jrara - В таких случаях нужно исследовать приложения, которые используют данные, и поговорить с людьми, которые используют эти приложения, чтобы извлечь смысл. Если у базы данных нет пользователей, то почему она существует? - person Oded; 19.06.2011
comment
@Oded - за этими вещами не всегда стоит приложение. Данные могут поступать из таблиц Excel или некоторых других приложений для работы с электронными таблицами. В этих случаях данные могут быть дикими, и вам нужно выяснить, какие данные есть в электронной таблице. - person jrara; 19.06.2011
comment
@jrara - А кто создал эти таблицы? Никто? А кто ими пользуется? Опять никого? - person Oded; 19.06.2011
comment
@Oded - я уже понял твою точку зрения, но ты, кажется, не понял мою. Ну, в любом случае, вы правы, может быть, мы закончили этот разговор. - person jrara; 19.06.2011
comment
@jrara - я понимаю вашу точку зрения, но вы можете извлечь смысл из необработанных данных, а не с помощью инструментов, не автоматически или механически. Вам нужен человек, чтобы преобразовывать данные в информацию. - person Oded; 19.06.2011