Понимание типов статистических данных

«Данные — это новая нефть», но так же, как существует несколько типов нефти, существует несколько типов данных.

Введение

«Данные — это новая нефть» — фраза, придуманная в 2006 году и покорившая мир.

Хочешь шокирующих фактов? Более 90% всех данных в мире было создано за последние два года. Если вы запишете все данные, сгенерированные за день, на компакт-диски, этот стек может дважды достичь среднего значения. Данные большие и ценные, поэтому крайне важно знать, как с ними работать. Для этого крайне важно узнать о различных типах данных и о том, что они представляют. Давайте начнем!

Качественный против количественного

Вы, вероятно, повторяли это несколько раз в своей жизни, поэтому я буду краток. Качественные данные (также известные как категориальные данные) — это данные, которые нельзя измерить с помощью чисел. При сортировке категорийных данных их можно только группировать по категориям. Типичными примерами категориальных данных являются пол (мужской/женский), раса и уровень образования.

Количественные данные — это именно то, о чем вы могли догадаться, — количественные (числовые) данные. Количественные данные можно сортировать (от большего к меньшему), отображать в виде графиков и использовать в математическом анализе. Некоторыми распространенными примерами количественных данных являются время, вес, температура и уровень успеваемости.

Мы можем рассматривать эти два типа данных, качественные и количественные данные, как основу для остальных четырех типов данных, которые мы будем изучать.

Типы качественных данных

Номинальные данные

Номинальные данные — это тип категориальных данных, в которых каждую переменную данных нельзя сравнивать друг с другом. Хотя каждая переменная отличается от другой, они не отличаются относительно друг от друга. Например, цвет глаз является примером номинальных данных. Хотя существует несколько типов цвета глаз (черный, карий, зеленый, голубой), нельзя сказать, что они различны по отношению друг к другу — это просто ярлыки, описывающие признак. Значение вышеупомянутого списка цветов глаз не изменилось бы, если бы мы изменили его порядок.

Порядковые данные

Порядковые данные — это данные, в которых каждая переменная данных естественным образом связана с другой. Каждый из них относительно отличается от другого, будь то с точки зрения размера, длины, продолжительности и т. д. Например, уровень образования (в данном случае степени колледжа) является типом порядковых данных. Можно сказать, что степени младшего специалиста, бакалавра, магистра и доктора относительно отличаются друг от друга, потому что каждая из них требует разного времени. Теоретически мы могли бы количественно определить порядковые данные (ассоциация = 2 года, бакалавриат = 4 года и т. д.) и выполнять над ними математические операции, поэтому иногда считается, что они находятся в серой зоне между качественными и количественными данными.

Хотя порядковые данные также являются просто метками, справочную информацию, стоящую за метками, можно сравнивать друг с другом. В результате, если бы мы поменяли порядок вышеупомянутого списка степеней колледжа на противоположный, его порядок изменился бы с наименьшего времени → наибольшее время на наибольшее время → наименьшее время.

Типы количественных данных

Дискретные данные

Вы, вероятно, слышали о дискретных данных на уроках математики в средней и старшей школе. Скорее всего, вы визуализируете дискретные данные с помощью такого графика:

Данные, которые включают только целые числа, которые дискретны (или отделены) друг от друга. Например, количество людей в комнате является примером дискретных данных. Его можно измерить только целыми числами — ведь доли человека быть не может! Дискретные значения можно посчитать, потому что существует их точный набор, но их нельзя измерить.

Непрерывные данные

Непрерывные данные — это данные, которые содержат дроби или нецелые числа. Скорее всего, вы визуализируете это через строку:

Непрерывные данные состоят из таких значений, как время, высота и цена товара. Каждое значение может быть разделено или стать меньше, но при этом оставаться в силе. Например, мы можем разделить время, затраченное человеком на прохождение гонки, на два, и оно все равно останется действительным, даже если число будет выражаться в миллисекундах и микросекундах. С другой стороны, мы не всегда можем разделить количество людей в комнате на два. Опять же, у вас не может быть части лица! Вы можете измерить любое непрерывное значение, но не можете сосчитать его (есть бесконечно много точек для подсчета).

Заключение

Хотя эти 4 типа данных, упомянутые в этой статье, составляют основу статистических типов данных, в рамках уже упомянутых существует еще несколько подтипов. Если вы хотите узнать больше, я настоятельно рекомендую эту статью Никласа Донгеса, в которой есть более подробная информация.

Спасибо за чтение! Надеюсь, вам понравилась статья, и теперь вы лучше разбираетесь в статистических типах данных.