Логистическая регрессия

классификация

Введение

Логистическая регрессия — это алгоритм классификации, используемый для распределения наблюдений по дискретному набору классов. В отличие от линейной регрессии, которая выводит непрерывные числовые значения, логистическая регрессия преобразует свои выходные данные с помощью логистической сигмовидной функции, чтобы вернуть значение вероятности, которое затем может быть сопоставлено с двумя или более дискретными классами.

Логистическая регрессия используется для расчета вероятности возникновения бинарного события и решения вопросов классификации. Например, прогнозирование того, является ли входящее электронное письмо спамом или нет, или прогнозирование того, является ли транзакция по кредитной карте мошеннической или нет. В медицинском контексте логистическая регрессия может использоваться для прогнозирования доброкачественности или злокачественности опухоли. В маркетинге его можно использовать, чтобы предсказать, купит ли данный пользователь (или группа пользователей) определенный продукт или нет. Онлайн-образовательная компания может использовать логистическую регрессию, чтобы предсказать, завершит ли студент свой курс вовремя или нет.

Какие существуют типы логистической регрессии?

Три типа логистической регрессии:

Бинарная логистическая регрессия — это статистический метод, используемый для прогнозирования взаимосвязи между зависимой переменной (Y) и независимой переменной (X), где зависимая переменная является бинарной по своей природе. Например, вывод может быть успешным/неудачным, 0/1, истинным/ложным или да/нет. Это тип логистической регрессии, на котором мы сосредоточились в этом посте.
Полиномиальная логистическая регрессия используется, когда у вас есть одна категориальная зависимая переменная с двумя или более неупорядоченными уровнями (т.е. два или более дискретных результата). Это очень похоже на логистическую регрессию, за исключением того, что здесь у вас может быть более двух возможных результатов. Например, давайте представим, что вы хотите предсказать, какой вид транспорта будет наиболее используемым в 2030 году. Тип транспорта будет зависимой переменной с возможными выходными данными, например, поездом, автобусом, трамваем и велосипедом.
Порядковая логистическая регрессия используется, когда зависимая переменная (Y) упорядочена (то есть порядковая). Зависимая переменная имеет значимый порядок и более двух категорий или уровней. Примерами таких переменных могут быть размер футболки (XS/S/M/L/XL), ответы на опросы общественного мнения (Согласен/Не согласен/Нейтрально) или результаты теста (Плохо/Средне/Хорошо).

Преимущества логистической регрессии

Преимущества

Логистическую регрессию легче реализовать, интерпретировать и очень эффективно обучать.
Он не делает никаких предположений о распределении классов в пространстве признаков.
Его можно легко распространить на несколько классов (полиномиальная регрессия) и естественное вероятностное представление прогнозов классов.
Логистическая регрессия хорошо работает в случаях, когда набор данных линейно разделим.

Недостатки

Логистическая регрессия не может предсказать непрерывный результат.
Если количество наблюдений меньше количества признаков, логистическую регрессию использовать не следует, иначе это может привести к переоснащению.
Логистическая регрессия требует средней или нулевой мультиколлинеарности между независимыми переменными.
Логистическая регрессия может быть неточной, если размер выборки слишком мал.

Что такое сигмовидная функция

Чтобы сопоставить прогнозируемые значения с вероятностями, мы используем сигмовидную функцию. Функция сопоставляет любые реальные входные данные {***t***} и выводит значение от ***ноля*** до ***единицы***. Для логита это интерпретируется как входные логарифмические шансы и выходная вероятность. логистическая «сигмовидная» функция определяется следующим образом:

Чтобы понять, как сигмовидная функция сжимает значения в пределах диапазона, давайте визуализируем график сигмоидной функции.

Как видно из графика, сигмовидная функция становится асимптотой к y=1 для положительных значений x и становится асимптотой к y=0 для отрицательных значений x.

Регуляризация в логистической регрессии

Регуляризация чрезвычайно важна в моделировании логистической регрессии. Без регуляризации асимптотическая природа логистической регрессии приведет к тому, что потери будут приближаться к 0 в больших размерностях.

Регуляризация — это наиболее часто используемый метод наказания сложных моделей в машинном обучении. Он используется для уменьшения переобучения (или сокращения ошибок обобщения) за счет уменьшения веса сети. Это также повышает производительность моделей для новых входных данных.

Срок наказания

Смещая точки данных к конкретным значениям, таким как очень маленькие значения до нуля, регуляризация достигает этого смещения, добавляя параметр настройки для усиления этих точек данных:

Регуляризация L1: добавляется штраф L1, равный абсолютному значению величины коэффициента, или просто ограничивается размер коэффициентов. Например, регрессия Лассо реализует этот метод.
Регуляризация L2: добавляется штраф L2, равный квадрату величины коэффициентов. Например, регрессия Риджа и SVM реализуют этот метод.
Эластичная сеть: когда регуляризация L1 и L2 объединяются вместе, это становится методом эластичной сети, он добавляет гиперпараметр.

Если и L1, и L2 регуляризация работают хорошо, вам может быть интересно, зачем нам нужны обе. Оказывается, у них разные, но одинаково полезные свойства, с практической точки зрения, L1 имеет тенденцию уменьшать коэффициенты до нуля, тогда как L2 имеет тенденцию уменьшать коэффициенты равномерно.

Таким образом, L1 полезен для выбора признаков, поскольку мы можем отбросить любые переменные, связанные с коэффициентами, которые стремятся к нулю.

L2, с другой стороны, полезен, когда у вас есть коллинеарные/созависимые функции.

(Примером пары созависимых признаков является пол и беременность, поскольку при нынешнем уровне медицинских технологий беременными могут быть только женщины.) Созависимость имеет тенденцию увеличивать дисперсию коэффициентов, делая коэффициенты ненадежными/нестабильными, что ухудшает общность модели. L2 уменьшает дисперсию этих оценок, что противодействует эффекту созависимости.

Вывод

В этом блоге я представил основную концепцию логистической регрессии. Я надеюсь, что этот блог был полезен и достаточно мотивировал вас, чтобы заинтересоваться этой темой.