Учебное пособие по проведению проверки гипотез на наборе данных о ценах на жилье с использованием статистических моделей библиотеки Python.
Недавно я изучал статистику, чтобы повысить свои навыки начинающего специалиста по данным. Недавно я был удивлен, узнав, что линейную регрессию можно использовать для проверки гипотез на наборах данных. Поэтому я решил исследовать это и обнаружил, что статистическая библиотека Python, statsmodels, имеет возможность выполнять проверку гипотез.
Проверка гипотезы — это действие в статистике, при котором аналитик проверяет предположение относительно параметра совокупности. Проверка гипотезы используется для проверки правдоподобия гипотезы с использованием выборочных данных.
Значение p — это вероятность получения результатов, по крайней мере столь же экстремальных, как наблюдаемые результаты проверки гипотезы, при условии, что нулевая гипотеза верна. Значение p служит альтернативой точкам отклонения, чтобы обеспечить наименьший уровень значимости, при котором нулевая гипотеза будет отклонена. Меньшее значение p означает, что есть более веские доказательства в пользу нулевой гипотезы.
Значение p 0,05 или ниже считается значимым, и нулевую гипотезу следует отклонить. Значение p больше 0,05 означает, что отклонение от нулевой гипотезы незначительно, и нулевая гипотеза не отвергается.
Я использовал набор данных sklearn Boston House Price для проверки гипотезы с использованием библиотеки statsmodels.
Я создал программу с помощью Google Golab, которая представляет собой бесплатный онлайн-блокнот Jupyter Notebook.
Первое, что я сделал после создания программы, это импортировал библиотеки, которые мне понадобятся для выполнения программы, а именно:
- Pandas для создания фрейма данных,
- NumPy для числовых расчетов,
- Sklearn для выполнения операций машинного обучения,
- Matplotlib для графического отображения данных,
- Seaborn для статистической визуализации данных и
- Statsmodels для использования модели линейной регрессии.
Как только библиотеки были импортированы, я использовал sklearn для вызова набора данных Boston House Price. Этот набор данных устарел, поэтому для вызова данных необходимо было импортировать предупреждения, а затем игнорировать их. Этот набор данных устарел из-за этических соображений, но я использовал его для иллюстрации проверки гипотезы. (Я пытался использовать модель в наборе данных о ценах на жилье в Калифорнии, но все значения p_value, полученные в результате проверки гипотезы, были равны 0, и я не знал, правильно ли это.)
Затем я использовал seaborn для анализа цен на жилье, которые отображаются переменной y:
Затем я использовал statsmodels, чтобы использовать модель обычных наименьших квадратов (OLS) и вписать в нее набор данных:
На снимке экрана ниже представлена распечатанная сводка. p_value — это пятый столбец слева. Значение p необходимо проверить, чтобы увидеть, больше ли оно 0,05, и если да, то его можно удалить из списка функций в наборе данных:
На приведенном выше снимке экрана функции x3 и x7 больше, чем 0,05, что означает, что они могут быть удалены из набора данных, поскольку они не имеют большого значения.
Для этого поста я подготовил обзор кода, который можно посмотреть здесь:
Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Посетите наш Community Discord и присоединитесь к нашему Коллективу талантов.