Я всегда верил в то, что «численные расчеты точны, а графики грубые». Из-за человека, который только начал изучать аналитику данных, мне было трудно понять важность визуализации данных вместе со сводной статистикой. Но все изменилось после посещения этой встречи по визуализации данных, когда я познакомился с квартетом Анскомба.

Квартет Анскомба был разработан статистиком Фрэнсисом Анскомбом. Он состоит из четырех наборов данных, каждый из которых содержит одиннадцать пар (x, y). Важно отметить, что эти наборы данных имеют одну и ту же описательную статистику. Но все меняется полностью, и я должен подчеркнуть ПОЛНОСТЬЮ, когда они изображены на графике. Каждый график рассказывает отдельную историю независимо от их сходной сводной статистики.

Сводная статистика показывает, что средние значения и дисперсии были идентичны для x и y во всех группах:

  • Среднее значение x равно 9, а среднее значение y равно 7,50 для каждого набора данных.
  • Точно так же дисперсия x равна 11, а дисперсия y составляет 4,13 для каждого набора данных.
  • Коэффициент корреляции (насколько сильна связь между двумя переменными) между x и y составляет 0,816 для каждого набора данных.

Когда мы наносим эти четыре набора данных на координатную плоскость x / y, мы можем заметить, что они показывают одни и те же линии регрессии, но каждый набор данных рассказывает другую историю:

  • В наборе данных I есть чистые и хорошо подогнанные линейные модели.
  • Набор данных II не распространяется нормально.
  • В наборе данных III распределение является линейным, но вычисленная регрессия отклоняется из-за выброса.
  • Набор данных IV показывает, что одного выброса достаточно для получения высокого коэффициента корреляции.

Этот квартет подчеркивает важность визуализации в анализе данных. Глядя на данные, можно увидеть много структуры и ясную картину набора данных.

Компьютер должен производить и вычисления, и графики. Следует изучить оба вида результатов; каждый будет способствовать пониманию.