Как инженер данных или архитектор данных, вы несете ответственность за проектирование и создание инфраструктуры, которая хранит и обрабатывает данные, обеспечивающие работу вашей организации. Но задумывались ли вы когда-нибудь о том, чтобы относиться к своим данным как к месту преступления? В этой статье мы рассмотрим, почему этот подход может быть полезен и как вы можете применить его в своей работе.

Когда мы думаем о месте преступления, мы думаем о месте, где произошло что-то плохое и где можно найти улики, которые могут помочь раскрыть преступление. Но когда мы относимся к нашим данным как к месту преступления, мы не ищем доказательства правонарушения. Вместо этого мы ищем доказательства того, что произошло с данными, как они были обработаны и куда они делись.

📗 Примечание.Несколько лет назад я познакомился с книгой Адама Торнхилла "Ваш код как место преступления" и ее криминалистическим подходом к обнаружению дефектов, узких мест и плохой дизайн в программах вдохновил распространить аналогичные идеи на область данных. Если вы разработчик или просто интересуетесь этой темой, я рекомендую ознакомиться с этой познавательной книгой.

Почему мы должны относиться к нашим данным как к месту преступления? Потому что это может помочь нам ответить на некоторые важные вопросы о наших данных.

Например:

Откуда взялись эти данные?

Как это обрабатывалось?

Кто получил к нему доступ и когда?

Был ли он изменен, и если да, то кем?

Ответы на эти вопросы могут помочь нам обеспечить качество и целостность наших данных, а также выявить потенциальные проблемы с безопасностью или соответствием требованиям.

Итак, как мы можем относиться к нашим данным как к месту преступления? Вот несколько основных принципов, о которых следует помнить:

📗 Примечание. Хотя приведенный ниже список не является исчерпывающим, я надеюсь, что он подкрепляет основную идею.

💥Документируйте все

Вы знаете, как следователь тщательно записывает все, что находит на месте преступления? Что ж, вы должны сделать то же самое для своего конвейера данных! Это означает отслеживание того, откуда поступают ваши данные, какие этапы они проходят и кто может их видеть. Ведя подробные записи обо всех этих вещах, вы сможете быстро обнаруживать и устранять любые возникающие проблемы.

💥Отслеживание аномалий

Думайте об этом, как о детективе на месте преступления. Вы всегда ищете любые улики, которые не совсем согласуются с остальными уликами. Точно так же, когда дело доходит до вашего конвейера данных, вы хотите быть в поиске любых аномалий, которые могут быть необычными. Это может быть что угодно: от внезапного всплеска объема обрабатываемых данных до необычных шаблонов доступа. Следя за этими аномалиями, вы можете быстро выявить любые потенциальные проблемы и принять меры, прежде чем они станут более серьезными проблемами.

💥Внедрение контроля доступа

Думайте об этом как о следователе на месте преступления, который устанавливает барьеры и контролирует, кто может войти на место преступления. Вы должны сделать то же самое со своими данными, настроив контроль доступа. Это означает, что только авторизованные пользователи могут получить доступ к конфиденциальным данным и ограничить доступ тем, кто в них нуждается. Точно так же, как вы не хотели бы, чтобы посторонние люди бродили по месту преступления, вы не хотите, чтобы кто-то получил доступ к вашим данным, кого не должно быть.

💥Защитите свои данные

Вы когда-нибудь видели, как следователь охраняет место преступления? Это впечатляет, правда? Ну, как и они, вам нужно защитить свои цифровые данные. Представьте, что вы являетесь следователем своего собственного места киберпреступления. Вы хотите убедиться, что ваши данные защищены и безопасны. Один из способов сделать это — зашифровать ваши данные как в состоянии покоя, так и в пути. Также важно установить некоторые правила брандмауэра, чтобы ограничить доступ к вашим данным. Таким образом, вы можете сохранить свои данные в целости и сохранности, точно так же, как следователь на месте преступления обеспечивает безопасность и безопасность места преступления.

💥Проводить аудит

Подобно тому, как CSI осматривает место преступления, важно регулярно проверять ваш конвейер данных. Это включает в себя проверку журналов доступа, двойную проверку правильности обработки данных и подтверждение того, что данные надежно хранятся. Точно так же, как CSI не оставляет камня на камне, вы тоже не должны оставлять без проверки ни одну область в вашем конвейере данных.

💥Сохраняйте резервные копии

Представьте, что вы детектив, исследующий место преступления. Вы собираете улики, верно? Ну, просто так, вы должны хранить резервные копии своих данных. Это пригодится, если какой-либо из ваших файлов будет потерян или поврежден. Это как иметь свою личную группу по расследованию места преступления. Кроме того, если с вашими данными возникнут проблемы, вы сможете расследовать их, как настоящий детектив. Так что будьте активны и сохраняйте эти резервные копии!

💥План аварийного восстановления

Представьте, что вы следователь на месте преступления и всегда предвидите неожиданные события. Точно так же вы должны подготовиться к аварийному восстановлению в случае аппаратных сбоев, стихийных бедствий или любых других непредвиденных обстоятельств. Наличие надежного плана имеет решающее значение для быстрого и эффективного восстановления.

💥Протестируйте свою воронку

Подобно тому, как детектив проверяет свои теории о том, что произошло на месте преступления, вам важно проверить конвейер данных. Это означает опробование различных сценариев, проверку точности обработки ваших данных и проверку того, что ваш конвейер может справиться с любыми неожиданностями, такими как внезапный приток данных или непредвиденные типы информации. Как хороший детектив, вы хотите убедиться, что ваш конвейер выдержит давление и даст надежные результаты.

💥Определение структур Sata и типов данных

При расследовании места преступления важно определить различные типы улик, верно? Ну, то же самое касается вашего конвейера данных. Определив используемые структуры данных и типы данных, вы можете быть уверены, что ваши данные обрабатываются согласованно и точно. Это похоже на то, как следователь на месте преступления выявляет любые неожиданные изменения или несоответствия. Все дело в том, чтобы все было организовано и под контролем.

💥Используйте согласованные соглашения об именах

Точно так же, как детектив на месте преступления должен маркировать и идентифицировать все, что они находят, для вас важно использовать согласованные соглашения об именах в вашем конвейере данных. Таким образом, ваши данные легко обнаружить и найти, и вы сможете избежать путаницы или ошибок.

💥Ищите закономерности в данных

Если бы вы были следователем на месте преступления, вы бы искали закономерности в уликах, верно? Ну, то же самое касается анализа ваших данных! Следите за любыми выбросами или аномалиями, отслеживайте тенденции с течением времени и ищите закономерности, которые могут указывать на потенциальные проблемы или возможности. Как будто вы разгадываете загадку в своих собственных данных!

💥Используйте методы проверки данных

Представьте, что вы детектив, пытающийся раскрыть дело. Точно так же, как следователю на месте преступления необходимо проверить улики для раскрытия преступления, вам необходимо использовать методы проверки данных для проверки ваших данных. Это похоже на проверку отпечатков пальцев или других улик, чтобы убедиться, что у вас есть правильный подозреваемый. Вам нужно убедиться, что ваши данные полны, точны и непротиворечивы, а иногда вам даже нужно сравнить их с внешними источниками или контрольными показателями. Все дело в том, чтобы убедиться, что ваше дело или ваши данные будут рассмотрены в суде.

💥Обеспечение происхождения данных

Если бы вы были следователем на месте преступления, вы бы проследили происхождение улик, верно? Точно так же важно отслеживать происхождение ваших данных в вашем конвейере данных. Это означает, что нужно следить за тем, где ваши данные перемещаются по конвейеру, откуда они начинаются и где заканчиваются. Точно так же, как отслеживание доказательств может дать вам важную информацию, отслеживание происхождения данных может помочь вам понять, как используются ваши данные, и может предупредить вас о возможных проблемах или возможностях.

💥 Выполните анализ основных причин (RCA)

Если вы когда-либо исследовали место преступления, вы знаете, как важно найти первопричину преступления. Ну, то же самое касается конвейеров данных! Всякий раз, когда возникает проблема или происходит что-то странное, вам необходимо выполнить анализ первопричины, чтобы добраться до сути. Это означает выяснить, что на самом деле вызывает проблему, и принять меры, чтобы предотвратить ее повторение в будущем. Как и в раскрытии преступления, все дело в том, чтобы добраться до корня проблемы.

💥Контролировать качество данных

Подобно тому, как опытный следователь внимательно следит за уликами, вы должны внимательно следить за своими данными. Это означает настройку автоматического мониторинга и оповещений для быстрого выявления любых потенциальных проблем с вашими данными и принятия немедленных мер по их устранению. Думайте об этом как о месте преступления — вы не оставите незамеченными никакие улики, поэтому не оставляйте незамеченными и проблемы с данными. Будьте в курсе и держите все под контролем.

💥Отслеживание происхождения данных

Представьте, что вы детектив, который идет по горячим следам большого дела. Точно так же, как вы должны собрать воедино каждую маленькую подсказку, чтобы понять, что произошло, вам также необходимо отслеживать свои данные, чтобы понять, что происходит. Все дело в том, чтобы вести учет того, откуда и куда уходят ваши данные, чтобы вы точно знали, что с ними произошло на каждом этапе. Думайте об этом как о следовании генеалогическому древу ваших данных от места их рождения до конечного пункта назначения.

И вот интересная часть: так же, как детективы используют специальные инструменты для поиска улик, вы можете использовать отслеживание происхождения данных, чтобы отслеживать путешествие ваших данных. Этот метод позволяет вам отслеживать движение ваших данных по конвейеру от начала до конца. Поэтому, если вы хотите разгадать тайну ваших данных, отслеживание происхождения данных — это ключ. Это похоже на детектива, который ведет вас на каждом этапе пути.

💥Используйте методы машинного обучения (ML)

Точно так же, как следователи используют сложные методы для тщательного изучения улик на месте преступления, вы также можете использовать методы машинного обучения для изучения ваших данных. Применяя алгоритмы машинного обучения, вы можете выявлять закономерности и несоответствия, а также определять области, в которых можно улучшить или улучшить поток данных.

💥Внедрение процессов управления изменениями (CM)

Думайте о своем конвейере данных как о месте преступления, а вы — следователь. Вы же не позволите кому угодно войти и подделать улики, не так ли? Ну, то же самое касается вашего конвейера данных. У вас должен быть надежный процесс управления изменениями, чтобы контролировать, кто может вносить в него изменения. Это означает наличие четкой системы запроса, проверки и утверждения изменений, а также обеспечение их надлежащего документирования и тестирования перед их внедрением в действие. Точно так же, как следователю на месте преступления необходимо защитить целостность улик, вам необходимо защитить целостность вашего конвейера данных.

💥Сотрудничайте с заинтересованными сторонами

Точно так же, как следователь на месте преступления работает с другими заинтересованными сторонами для раскрытия преступления, вы должны сотрудничать с другими заинтересованными сторонами в вашей организации, чтобы убедиться, что ваш конвейер данных отвечает их потребностям. Это включает в себя регулярное общение с заинтересованными сторонами, чтобы понять их требования и решить любые проблемы или проблемы, которые могут у них возникнуть.

💥Поддерживайте конфиденциальность данных

Подобно тому, как следователь на месте преступления ценит конфиденциальность людей, участвующих в деле, для вас крайне важно поддерживать конфиденциальность данных в вашем конвейере данных. Это может включать в себя маскировку данных, когда это необходимо, и гарантии того, что конфиденциальная информация обрабатывается с осторожностью и соответствует соответствующим правилам и положениям.

💥Будьте в курсе новых технологий

Точно так же, как детектив, который следит за новейшими методами судебной экспертизы, вы тоже должны быть в курсе новых технологий, которые могут улучшить ваш конвейер данных. Представьте, что вы находитесь на месте преступления и обнаруживаете новую улику — вы же не будете просто игнорировать ее, верно? Точно так же не игнорируйте потенциальные преимущества новых инструментов и методов обработки, анализа и визуализации данных. Будьте в курсе и держите ваши исследования данных на высшем уровне.

💥Постоянный мониторинг и улучшение

Начав как следователь на месте преступления, который всегда ищет новые зацепки, вы также должны постоянно следить за своим конвейером данных. Внимательное наблюдение за ним поможет вам обнаружить любые недостатки и даст вам идеи о том, как их исправить. Поэтому обязательно регулярно проверяйте свой конвейер и старайтесь обновлять его там, где это необходимо.

💥Формируйте культуру качества данных (DQ)

Подобно тому, как следователь на месте преступления сотрудничает с другими экспертами для раскрытия дела, крайне важно поощрять культуру первоклассного качества данных в вашей команде. Это означает обучение и обучение членов команды важности точности данных, а также создание рабочей атмосферы, в которой поддержание качества данных высоко ценится.

💥Документ о праве собственности на данные

Представьте, что вы детектив, который расследует дело, и вы наткнулись на важные улики. Точно так же, как следователь на месте преступления документирует, кому принадлежат улики, для вас важно документировать, кому принадлежат ваши данные. Вы захотите вести четкую и краткую запись о том, кто несет ответственность за заботу о нем, а также о том, кому разрешен доступ к нему. Это все равно, что убедиться, что все части головоломки подходят друг к другу, чтобы решить дело!

💥Внедрение управления данными

Вы когда-нибудь видели, как следователь на месте преступления скрупулезно следует строгим протоколам работы с уликами? Вот как вы должны обращаться со своими данными! Важно внедрить управление данными, чтобы убедиться, что ваши данные обрабатываются последовательно и соответствуют нормативным требованиям. Это похоже на создание политик и процедур для управления данными и обеспечение их соблюдения всеми. Точно так же, как каждая улика обрабатывается с осторожностью и точностью на месте преступления, данные также должны обрабатываться с таким же уровнем внимания и защиты.

💥Используйте профилирование данных

Точно так же, как опытный детектив исследует место преступления в поисках важных улик, вы можете использовать профилирование данных для поиска закономерностей и аномалий в ваших данных. Используя автоматизированные инструменты для проверки ваших данных, вы можете точно определить потенциальные проблемы, такие как отсутствующие значения, несовместимые типы данных или выбросы, точно так же, как судебный следователь обнаруживает ценные улики на месте преступления.

💥Использовать контроль версий

Точно так же, как следователи используют технологию для отслеживания изменений и обновлений на месте преступления, контроль версий является стандартной практикой в ​​разработке программного обеспечения и конвейеров данных. Это помогает отслеживать любые внесенные изменения, упрощая определение того, кто что сделал и почему. Кроме того, если что-то пойдет не так, вы сможете легко отменить изменения и вернуться к предыдущему состоянию. Думайте об этом как о детективе, который ведет журнал всех изменений, сделанных на месте преступления, чтобы помочь раскрыть дело.

Отношение к вашим данным как к месту преступления может помочь обеспечить качество и целостность ваших данных, а также выявить потенциальные проблемы с безопасностью или соответствием требованиям. Следуя ключевым принципам, таким как документирование всего, использование контроля версий и отслеживание аномалий, вы можете создать надежный конвейер данных, отвечающий потребностям вашей организации.

Хотя обращение с вашими данными как с местом преступления может потребовать дополнительных предварительных усилий, в конечном итоге это может сэкономить ваше время и ресурсы, быстро выявляя и устраняя любые возникающие проблемы. Дополнительные принципы, которые следует учитывать, включают защиту ваших данных, проведение аудитов и формирование культуры качества данных.

Следуя этим принципам, вы сможете создать инфраструктуру данных, отвечающую потребностям вашей организации, и принимать обоснованные решения на основе высококачественных данных. Сосредоточив внимание на качестве данных, управлении и безопасности, вы можете гарантировать, что ваш конвейер данных надежен и способен поддерживать цели вашей организации.