Наука о данных в реальном мире

10 визуализаций, которые должен знать каждый специалист по данным

Одна картинка стоит 1000 слов

Древние руины иногда обнаруживают после долгих лет исследования регионов мира, покрытых густыми джунглями или гигантскими лесами. Ощущение археолога в момент открытия дает окно в чувство, которое часто испытывают специалисты по данным, когда они получают представление о своих данных - через визуализацию - что проясняет ключевой аспект анализа.

Для обоих это Эврика!

Визуализация данных играет две ключевые роли:

1. Четкое доведение результатов до широкой аудитории.

2. Организация просмотра данных, предлагающая новую гипотезу или следующий шаг в проекте.

Неудивительно, что большинство людей предпочитают визуальные эффекты большим таблицам чисел. Вот почему четко обозначенные сюжеты с осмысленной интерпретацией всегда появляются на первых страницах научных статей.

В этом посте рассматриваются 10 визуализаций, которые вы можете использовать для своих данных - хотите ли вы убедить более широкий мир в своих теориях или открыть свой собственный проект и сделать следующий шаг:

  1. Гистограммы
  2. Столбчатые / круговые диаграммы
  3. Точечные / линейные графики
  4. Временная последовательность
  5. Карты отношений
  6. Тепловые карты
  7. Географические карты
  8. 3-D графики
  9. Сюжеты с более высокой размерностью
  10. Облака слов

Гистограммы

Начнем с гистограмм, которые дают нам обзор всех возможных значений интересующей числовой переменной, а также того, как часто они встречаются. Простые, но мощные гистограммы иногда называют распределениями данных.

С визуальной точки зрения мы рисуем таблицу частот, в которой интересующая переменная разбита на диапазоны по оси x и где мы показываем частоту значений в каждой ячейке по оси y.

Например, представьте, что компания делает свои интеллектуальные термостаты более привлекательными для потребителей, предлагая скидки, которые зависят от почтового индекса. Гистограмма термостатических скидок помогает понять диапазон значений, а также частоту каждого значения.

Обратите внимание, что примерно половина скидок на термостат составляла от 100 до 120 долларов. Только несколько почтовых индексов имеют скидки от 140 до 60 долларов.

Источник данных здесь.

Гистограммы и круговые диаграммы

Гистограммы (и круговые диаграммы) относятся к категориальным переменным, как гистограммы для числовых переменных. И столбиковые, и круговые диаграммы лучше всего подходят для распределений переменных, которые могут принимать только фиксированное количество значений, таких как низкое / нормальное / высокое, да / нет или обычное / электрическое / гибридное.

Бар или пирог? Важно знать, что гистограммы часто могут быть неточными визуально. Человеческий мозг плохо справляется с обработкой круговых диаграмм (подробнее об этом читайте в этой статье ¹).

Слишком много категорий может привести к тому, что гистограмма или круговая диаграмма перегрузят визуализацию. В этом случае подумайте о выборе верхних значений N и визуализируйте только их.

В следующем примере показаны столбиковые и круговые диаграммы артериального давления пациентов с разбивкой по категориям НИЗКОЕ, НОРМАЛЬНОЕ и ВЫСОКОЕ.

Источник данных здесь.

Точечные и линейные графики

Наверное, самые простые диаграммы - это точечные диаграммы. Они показывают двумерное (x, y) представление данных на декартовой плоскости и особенно полезны для проверки взаимосвязи между двумя переменными, поскольку позволяют наблюдателю визуально исследовать любые корреляции. Линейные графики - это точечные графики, но с линией, соединяющей все точки (часто используется, когда переменная y является непрерывной).

Например, предположим, что вы хотите узнать, как цена дома соотносится с площадью в квадратных футах. На следующем рисунке показан график рассеяния с ценами на жилье по оси Y и площадью в квадратных футах по оси X. Обратите внимание, как график показывает уровень линейной корреляции между переменными - как правило, чем больше площадь в квадратных футах, тем выше цена.

Мне особенно нравятся точечные диаграммы, потому что вы можете расширить их размерность с помощью цвета и размера. Например, мы могли бы добавить третье измерение, раскрасив точки в соответствии с количеством спален в каждом доме.

Простой способ расширить диаграммы рассеяния до 3-х или 4-х измерений - использовать цвет и размер пузырьков. Например, если каждый пузырь на последнем графике окрашен в соответствии с количеством комнат в каждом доме, у нас будет третье измерение, представленное на диаграмме.

Источник данных здесь.

Графики временных рядов

Временные графики - это точечные графики с временным диапазоном по оси x, где каждая точка образует часть линии, напоминая нам, что время непрерывно (хотя компьютеры - нет).

Графики временных рядов отлично подходят для визуального исследования тенденций, скачков и сбросов данных с течением времени, что делает их особенно популярными для финансовых данных и данных датчиков.

Здесь, например, ось Y представляет дневную цену закрытия акций Tesla с 2015 по 2017 год.

Источник данных здесь.

Диаграммы отношений

Если ваша цель - разработать исчерпывающую гипотезу, может быть особенно полезно визуально представить взаимосвязи в ваших данных. Представьте, что вы - научный сотрудник медицинской компании, работающий над проектом в области анализа данных, чтобы помочь врачам ускорить принятие решений о назначении рецептов. Предположим, что существует четыре препарата (A, C, X и Y) и врачи прописывают каждому пациенту одно и только одно лекарство. Ваш набор данных включает исторические данные о назначениях пациентов с указанием пола пациента, артериального давления и уровня холестерина.

Как интерпретируются диаграммы отношений? Каждый столбец в наборе данных представлен разным цветом. Толщина линий на диаграммах показывает, насколько важна (подсчет частоты) взаимосвязь между значениями двух столбцов. Давайте посмотрим на пример, чтобы углубиться в толкование.

Диаграмма взаимосвязи рецептов на лекарства предлагает несколько идей:

• Всем пациентам с высоким кровяным давлением примерно одинаково прописывались препараты А и Y.

• Препарат С назначают только пациентам с низким артериальным давлением.

  • Ни у одного из пациентов, которым назначен препарат X, не было повышенного артериального давления.

Имея в руках эти интригующие идеи, вы можете начать формулировать набор гипотез и запускать новые области исследования. Например, классификатор машинного обучения может точно прогнозировать использование препаратов A, C и, возможно, X, но поскольку препарат Y привязан ко всем возможным значениям функций, вам могут потребоваться дополнительные функции, чтобы начать делать прогнозы.

Источник данных здесь.

Тепловые карты

Еще один крутой и красочный способ придать дополнительное измерение двухмерному графику - это использовать тепловые карты, которые используют цвет в матрице или отображении карты, чтобы показать частоту или концентрацию. Большинство пользователей находят тепловые карты особенно интуитивно понятными, поскольку концентрация цвета выявляет тенденции и области, представляющие особый интерес.

На следующем рисунке показана визуализация расстояний Левенштейна между названиями фильмов в базе данных IMDB. Чем дальше заголовок каждого фильма от других заголовков, тем темнее он отображается на диаграмме, например (с точки зрения расстояния Левенштейна) Супермен далек от Batman Forever, но близко в Супермен 2.

Заслуга за эту великолепную визуализацию принадлежит Майклу Заргаму ².

Карты

Как и большинство людей, я люблю карты и могу проводить часы в приложениях, которые используют карты для визуализации интересных данных: Google Maps, Zillow, Snapchat и других. Если ваши данные включают информацию о долготе и широте (или другой способ организации данных географически (почтовые индексы, коды городов, данные округов, данные аэропортов и т. Д.), Карты могут привнести богатый контекст в ваши визуализации.

Рассмотрим пример скидки термостата из предыдущего раздела Гистограмма. Напомним, что скидки различаются в зависимости от региона. Поскольку данные включают информацию о долготе и широте, мы можем отображать скидки на карте. После того, как я назначил цветовую гамму от самого низкого бонуса (синий) до самого высокого бонуса (красный), я мог поместить данные на карту Штатов:

Источник данных здесь.

Облака слов

Поразительное количество данных, доступных для изучения, представлено в виде простого произвольного текста. В качестве первого прохода по этим данным мы могли бы захотеть визуализировать частоту слов в корпусе, но гистограммы и круговые диаграммы действительно лучше всего работают с частотами в данных, которые являются числовыми, а не вербальными. Так что вместо этого мы можем обратиться к облакам слов.

Имея произвольные текстовые данные, мы можем начать с фильтрации стоп-слов, таких как «а», «и», «но» и «как», а также путем стандартизации всего текста в нижнем регистре. Я часто обнаруживаю, что есть дополнительная работа по очистке и формированию данных, в зависимости от ваших целей, включая удаление диакритических знаков, выделение корней и т. Д. Как только данные будут готовы, можно быстро использовать визуализацию облака слов, чтобы получить представление о наиболее распространенных словах в корпусе.

Здесь я использовал Большой набор данных обзоров фильмов ³, чтобы нарисовать облако слов для положительных отзывов, а другое - для отрицательных.

3-D графики

Все более распространенным становится визуализация трехмерных данных путем добавления третьего измерения к диаграмме рассеяния. Эти диаграммы обычно выигрывают от интерактивности, поскольку вращение и изменение размера могут помочь пользователю получить осмысленное представление данных. В следующем примере показана 2-мерная функция плотности вероятности Гаусса вместе с панелью элементов управления для настройки представления.

Источник данных здесь.

Графики более высоких измерений

При работе с многомерными данными мы хотим визуализировать влияние четырех, пяти или более функций одновременно. Для этого мы можем сначала спроецировать в двух или трех измерениях, воспользовавшись любой из упомянутых ранее техник визуализации. Например, представьте себе добавление третьего измерения к нашей карте скидок для термостата, где каждая точка была расширена до вертикальной линии, которая показывала среднее потребление энергии для этого места. Это приведет нас к четырем параметрам: долгота, широта, размер скидки и среднее потребление энергии.

Для данных более высокой размерности нам часто требуется уменьшить размерность, используя либо анализ главных компонентов (PCA), либо t-стохастическое вложение соседей (t-SNE).

Самым популярным методом уменьшения размерности является PCA, который уменьшает размерность данных на основе поиска новых векторов, которые максимизируют линейное изменение данных. Когда линейные корреляции данных сильны, PCA может значительно уменьшить размер данных с небольшой потерей информации.

Напротив, t-SNE - это метод нелинейного уменьшения размерности, который уменьшает размерность данных, приблизительно сохраняя расстояние между точками данных в исходном многомерном пространстве.

Рассмотрим этот небольшой образец базы данных рукописных цифр MNIST⁴. База данных содержит тысячи изображений цифр от 0 до 9, которые исследователи используют для тестирования своих алгоритмов кластеризации и классификации. Размер этих изображений составляет 28 x 28 = 784 пикселя, но с t-SNE мы можем уменьшить эти 784 измерения до двух:

Источник данных здесь.

Итак, у вас есть десять наиболее распространенных типов визуализации со значимыми примерами для каждого из них. Все визуализации этого блога были выполнены с помощью Watson Studio Desktop. Помимо Watson Studio Desktop, определенно рассмотрите такие инструменты, как R, Matplotlib, Seaborn, ggplot, Bokeh и plot.ly - и это лишь некоторые из них.

И желаю удачи в оживлении ваших данных!

[1] Стивен Фью. (Август 2007 г.). Сохраните пироги для десерта. Https://www.perceptualedge.com/articles/visual_business_intelligence/save_the_pies_for_dessert.pdf

[2] Майкл Заргам и Хорхе Кастаньон. (2017). Физический подход к сотрудничеству в области науки о данных. Средний пост.

[3] Эндрю Л. Маас, Раймонд Э. Дейли, Питер Т. Фам, Дэн Хуанг, Эндрю Й. Нг и Кристофер Поттс. (2011). Изучение векторов слов для анализа настроений. 49-е ежегодное собрание Ассоциации компьютерной лингвистики (ACL 2011).

[4] Янн ЛеКун и Коринна Кортес. (2010). База данных рукописных цифр MNIST. Доступно на http://yann.lecun.com/exdb/mnist/

Особая благодарность Стиву Муру за отличный отзыв об этом посте.

Twitter: @castanan
LinkedIn: @ jorgecasta