Нужно ли мне обрабатывать ловушку фиктивной переменной вручную в регрессии или sklearn сделает это?

Я знаю, что мы должны сразу кодировать категориальные данные перед обучением алгоритму машинного обучения. но мой вопрос: нам нужно удалить один столбец вручную или sklearn сделает это?

machine-learning one-hot-encoding dummy-variable

Krushna Borkar 05.06.2018 источник

Ответы (3)

arrow_upward
4
arrow_downward

Я предполагаю, что вы хотите удалить один столбец также для небинарных категориальных признаков, чтобы избежать мультиколлинеарности, которая может вызвать проблемы для линейных моделей. Это так же просто, как предоставить аргумент drop_first=True для pd.get_dummies(). Кажется, что sklearn.preprocessing.OneHotEncoder не имеет простого интерфейса для этого, и в любом случае его использование сложно, так как категориальные функции должны быть заранее закодированы в int.

Mischa Lisovyi 06.06.2018

arrow_upward
0
arrow_downward

Вам нужно вручную обрабатывать ловушку фиктивной переменной в регрессии. Нам нужно удалить один столбец вручную.

Shivam Kejriwal 17.06.2020

arrow_upward
-3
arrow_downward

Нет смысла удалять столбец с числом nunique больше 2, поскольку каждый столбец будет представлять экземпляр фиктивной переменной. Я предполагаю, что вы быстро кодируете двоичный столбец с признаками. Вместо этого используйте кодировщик меток sklearn.

Shaz 05.06.2018

Нужно ли мне обрабатывать ловушку фиктивной переменной вручную в регрессии или sklearn сделает это?

Ответы (3)

Похожие вопросы