При оценке большого хранилища данных, которые вы надеетесь извлечь для машинного обучения или анализа данных, вам часто предоставляется множество явных точек данных, поэтому вряд ли кажется очевидным, что вам нужно добавить больше. Но часто самые важные данные — это не точки, а отношения между ними.

Если мы думаем о явных данных как об узлах, неявные данные становятся связями и отношениями между узлами. Простым примером может быть набор координат, размеров, состава атмосферы и многое другое, касающееся объектов в нашей Солнечной системе. Этот набор фактов может показаться важным и всеобъемлющим, но их визуальное представление выявит серьезные пробелы.

Хотя все факты верны, возможно, самым важным фактом являются отношения между объектами. Планеты вращаются вокруг солнца, о чем можно было бы догадаться по вашему снимку, но не показать. Плутон может быть проходящей кометой. Планеты могут быть на пути столкновения к центру. Мы не знаем.

Хотя можно было бы показать еще больше, этот пересмотренный вид Солнечной системы добавляет важную взаимосвязь между объектами, их орбитальное вращение вокруг центрального Солнца.

При анализе данных центральные связи и отношения могут быть не столь очевидны, как планеты, вращающиеся вокруг Солнца. Возможно, прошло время, а вместе с ним и институциональная память. Некоторые связи не представлены в сфере самих данных, но требуют расширения вашего взгляда на знания о компании, которая собирала данные (например, слияние в 2014 году могло радикально изменить набор продаваемых продуктов, поэтому данные до слияния следует рассматривать отдельно от данных после слияния).

Интеллектуальный анализ данных — это не только копание. Это также понимание и оценка контекста ваших данных. Две отдельные базы данных лучше всего рассматривать как связанные, тогда как две другие следует рассматривать как отдельные. К пробелам нужно относиться с уважением.

С практической точки зрения часто полезно определить сегменты данных и задать вопросы о том, как сегменты соотносятся друг с другом. Кто создал данные в каждом из них и как они взаимодействовали с создателями других сегментов?

Еще одно важное упражнение — задаться вопросом, на какие вопросы нужно ответить в процессе анализа данных. Постарайтесь отойти от реальных вопросов и перейти к типам, хотя вам, возможно, придется провести мозговой штурм с некоторыми конкретными вопросами, чтобы помочь людям двигаться вперед.

Затем отойдите от вопросов и спросите, чего не хватает, а что предполагается? Перечислите предположения, какими бы базовыми они ни были. Затем спросите, может ли человек с нулевым институциональным знанием узнать эти предположения из данных. Если нет, то вы нашли свои пробелы. Узнайте, как заполнять или дополнять данные, чтобы предположения были фактами, и ваш анализ данных будет гораздо полезнее и с меньшей вероятностью замалчивает важное понимание.