Изначально опубликовано в моем личном блоге.

Когда вы начинаете свой путь машинного обучения, вы столкнетесь с нулевой гипотезой и p-значением. В определенный момент вашего пути становится очень важно знать, что это значит, чтобы принимать осмысленные решения при разработке моделей машинного обучения. Итак, в этом посте я попытаюсь объяснить, что означают эти две вещи, а вы попытаетесь это понять.

Теперь, если у вас нет опыта в статистике, определения нулевой гипотезы и p-значения не будут иметь для вас никакого смысла. Это просто тарабарщина, идущая над вашей головой. Вот что случилось со мной, когда я несколько раз пытался их понять. Мне потребовалось несколько дней, чтобы понять, что они означают. Я до сих пор могу ошибаться в своем понимании. И я уверен, что вы, ребята, будете знать об этом больше, чем я, и поправите меня в комментариях. Так что с нетерпением жду этого.

Нулевая гипотеза

Чтобы понять это, давайте взглянем на некоторые данные из реального мира. Я посмотрел на индекс качества воздуха (AQI) для города, в котором я живу (Бангалор) только что, и он говорит, что текущий AQI составляет 162, что примерно на 62 единицы выше «удовлетворительного» индекса качества.

Для тех из вас, кто не знает, если AQI находится в диапазоне от 0 до 50, воздух хороший, что-либо большее, но в пределах 100 - умеренное. И все остальное нездорово.

Теперь я обращусь к этому веб-сайту или к любому другому веб-сайту, если на то пошло, и скажу вам, что AQI для моего города составляет 162, что вредно для здоровья. В этом заявлении я кое-что констатирую и даю доказательства как ценности, так и того, почему это вредно для здоровья. Итак, теперь это утверждение становится нулевой гипотезой. Другими словами, мы можем сказать, что результат или результат теста можно рассматривать как нулевую гипотезу. Нулевая гипотеза представлена ​​как H0 (H-not).

Люди, обладающие достаточным опытом работы со статистикой и нулевыми гипотезами, первыми укажут, что утверждение, которое я выбрал для этого в качестве примера, можно разбить на две нулевые гипотезы, и это правда. Вот эти двое:

  • Индекс качества воздуха в Бангалоре сейчас составляет 162.
  • Индекс качества воздуха более 150 - это вред для здоровья.

Чтобы упростить этот пример, мы рассмотрим первое утверждение, что AQI равен 162.

Нулевая гипотеза - ›Индекс качества воздуха в Бангалоре на 8 ноября 2019 года в 18:00 составляет 162.

Это утверждение могло быть неверным. Люди, опубликовавшие это значение, провели множество тестов со своими инструментами и пришли к нему в конце теста. Но у вас могут быть свои собственные инструменты для измерения качества воздуха, или вам может казаться, что воздух кажется слишком чистым, чтобы иметь такое высокое значение. Итак, вы хотите оспорить или оспорить это утверждение, и вы готовы доказать, что AQI намного меньше 162 для этой даты, времени и места. Итак, ваша «Альтернативная гипотеза» становится:

Альтернативная гипотеза - ›Индекс качества воздуха в Бангалоре на 8 ноября 2019 года в 18:00 меньше 162.

Здесь следует отметить, что нулевые гипотезы - это обычно утверждения, которые ученые хотят доказать неверными, но начнут исследования для достижения этой цели, предполагая, что нулевая гипотеза верна. Реальные примеры нулевой гипотезы будут примерно такими:

  • Средний доход мужчин в технологической индустрии такой же, как средний доход женщин в технологической индустрии.
  • Между разочарованием и агрессией нет корреляции.

Как видите, ученые предполагают, что эти утверждения или факты являются правдой, и начинают свои исследования или тесты, чтобы доказать, что это неверно. Но аналогично тому, что происходит в суде, эти утверждения считаются правдой, если их неверность не доказана. Когда начинается процесс доказательства их ошибочности, ученые сформируют другое утверждение, которое будет противоположно этим нулевым гипотезам, и эти новые утверждения станут альтернативными гипотезами. Итак, альтернативные гипотезы для приведенных выше утверждений будут:

  • Средний доход мужчин в сфере высоких технологий НЕ совпадает со средним доходом женщин в сфере высоких технологий.
  • Между разочарованием и агрессией существует корреляция.

Альтернативные гипотезы представлены как H1 или HA.

Надеюсь, вы поняли эту очень запутанную концепцию. Помня о нулевой гипотезе, перейдем к значению Р.

P-значение

Мы можем определить p-значение следующим образом:

В статистике p-значение - это вероятность получения наблюдаемых результатов теста при условии, что нулевая гипотеза верна.

Ну, это всего лишь одно из определений p-значения. Сравнительно легко понять значение p после того, как вы поймете, что такое нулевая гипотеза. P-значение - это вероятность того, что вы получите те же результаты, что и нулевая гипотеза. Итак, если мы рассмотрим средний доход в примере с технологической отраслью из предыдущего раздела, мы можем сказать, что p-значение - это вероятность обнаружения того, что средний доход как для мужчин, так и для женщин в технологической отрасли одинаков. Мы рассматриваем вероятность для случая, когда доход одинаков (а не для случая, когда доход отличается), потому что мы считаем, что нулевая гипотеза верна.

Одно из наиболее часто используемых значений p - 0,05. Если вычисленное значение p оказывается меньше 0,05, нулевая гипотеза считается ложной или аннулированной (отсюда и название «нулевая гипотеза»). И если значение больше 0,05, нулевая гипотеза считается верной. Позвольте мне немного подробнее остановиться на этом.

Помните, что p-значение - это вероятность того, что мы получим те же результаты, что и нулевая гипотеза, и в нашем примере порог для этой вероятности равен 0,05. Таким образом, если вычисленное значение p меньше 0,05, это означает, что вероятность того, что мы получим те же результаты, что и нулевая гипотеза, очень мала. А если p-значение больше 0,05, то вероятность получения тех же результатов, что и нулевая гипотеза, очень высока, поэтому мы можем считать нулевую гипотезу истинной.

Опять же, надеюсь, вы это поняли. Я действительно не знаю, как объяснить эти вещи, чтобы не сбить вас с толку и не запутаться сам. Но я старался изо всех сил. Если у вас есть лучшие и простые примеры, оставьте их в комментариях ниже.

Следуйте за мной в Twitter, чтобы узнать больше о Data Science, Machine Learning и общих технических новинках. Кроме того, вы можете следить за моим личным блогом, так как я публикую там много своих руководств, постов с практическими рекомендациями и полезных свойств машинного обучения до Medium.