Учебное пособие по проведению проверки гипотез на наборе данных о ценах на жилье с использованием статистических моделей библиотеки Python.

Недавно я изучал статистику, чтобы повысить свои навыки начинающего специалиста по данным. Недавно я был удивлен, узнав, что линейную регрессию можно использовать для проверки гипотез на наборах данных. Поэтому я решил исследовать это и обнаружил, что статистическая библиотека Python, statsmodels, имеет возможность выполнять проверку гипотез.

Проверка гипотезы — это действие в статистике, при котором аналитик проверяет предположение относительно параметра совокупности. Проверка гипотезы используется для проверки правдоподобия гипотезы с использованием выборочных данных.

Значение p — это вероятность получения результатов, по крайней мере столь же экстремальных, как наблюдаемые результаты проверки гипотезы, при условии, что нулевая гипотеза верна. Значение p служит альтернативой точкам отклонения, чтобы обеспечить наименьший уровень значимости, при котором нулевая гипотеза будет отклонена. Меньшее значение p означает, что есть более веские доказательства в пользу нулевой гипотезы.

Значение p 0,05 или ниже считается значимым, и нулевую гипотезу следует отклонить. Значение p больше 0,05 означает, что отклонение от нулевой гипотезы незначительно, и нулевая гипотеза не отвергается.

Я использовал набор данных sklearn Boston House Price для проверки гипотезы с использованием библиотеки statsmodels.

Я создал программу с помощью Google Golab, которая представляет собой бесплатный онлайн-блокнот Jupyter Notebook.

Первое, что я сделал после создания программы, это импортировал библиотеки, которые мне понадобятся для выполнения программы, а именно:

  1. Pandas для создания фрейма данных,
  2. NumPy для числовых расчетов,
  3. Sklearn для выполнения операций машинного обучения,
  4. Matplotlib для графического отображения данных,
  5. Seaborn для статистической визуализации данных и
  6. Statsmodels для использования модели линейной регрессии.

Как только библиотеки были импортированы, я использовал sklearn для вызова набора данных Boston House Price. Этот набор данных устарел, поэтому для вызова данных необходимо было импортировать предупреждения, а затем игнорировать их. Этот набор данных устарел из-за этических соображений, но я использовал его для иллюстрации проверки гипотезы. (Я пытался использовать модель в наборе данных о ценах на жилье в Калифорнии, но все значения p_value, полученные в результате проверки гипотезы, были равны 0, и я не знал, правильно ли это.)

Затем я использовал seaborn для анализа цен на жилье, которые отображаются переменной y:

Затем я использовал statsmodels, чтобы использовать модель обычных наименьших квадратов (OLS) и вписать в нее набор данных:

На снимке экрана ниже представлена ​​распечатанная сводка. p_value — это пятый столбец слева. Значение p необходимо проверить, чтобы увидеть, больше ли оно 0,05, и если да, то его можно удалить из списка функций в наборе данных:

На приведенном выше снимке экрана функции x3 и x7 больше, чем 0,05, что означает, что они могут быть удалены из набора данных, поскольку они не имеют большого значения.

Для этого поста я подготовил обзор кода, который можно посмотреть здесь:

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Посетите наш Community Discord и присоединитесь к нашему Коллективу талантов.