В логистической регрессии:
функция гипотезы,
h(x) = ( 1 + exp{-wx} )^-1
где, w - веса/параметры, которые должны быть подобраны или оптимизированы
Функция стоимости (-ve логарифмическая функция правдоподобия) задается как:
Для одного обучения, например.. (x, y):
l(w) = y * log ( h(x) ) + (1 - y) * log ( 1 - h(x) )
Цель состоит в том, чтобы максимизировать l(w) по всем обучающим примерам и тем самым оценить w.
Вопрос :
Рассмотрим ситуацию, когда положительных (y=1) обучающих примеров намного больше, чем отрицательных (y=0) обучающих примеров.
Для простоты:
если рассматривать только положительные (y=1) примеры: Алгоритм работает:
maximize ( l(w) )
=> maximize ( y * log ( h(x) ) )
=> maximize ( log( h(x) ) )
=> maximize ( h(x) ); since log(z) increases with z
=> maximize ( ( 1 + exp{-wx} )^-1 )
=> maximize ( wx );
since a larger wx will increase h(x) and move it closer to 1
Другими словами, алгоритм оптимизации попытается увеличить (wx), чтобы лучше соответствовать данным и увеличить вероятность.
Однако представляется возможным, что алгоритм может непреднамеренно увеличивать (wx), но не улучшать решение (граница решения):
by scaling w: w' = k*w ( where k is positive constant )
Мы можем увеличить (k*wx), никоим образом не меняя наше решение.
1) Почему это не проблема? Или это проблема?
2) Можно утверждать, что в наборе данных с гораздо большим количеством положительных примеров, чем отрицательных, алгоритм будет пытаться продолжать увеличивать ||w||.