Несмотря на то, что это называется регрессией (прогноз, при котором цель является непрерывной), это метод классификации, основанный на вероятности.

В ситуациях, когда нам нужно спрогнозировать качественную реакцию. например Маленький, средний или большой. Для прогнозирования можно использовать логистическую регрессию, и это явление называется классификацией.

Существуют различные методы классификации, такие как K-ближайший сосед, деревья решений, случайный лес, машины опорных векторов и т. Д.

Мы сталкиваемся с множеством проблем классификации, например, определяем, является ли электронное письмо спамом или нет, на основе размера тела электронного письма, заголовка электронного письма, отправителя электронного письма или определяем, является ли транзакция по кредитной карте мошеннической или нет. на основе прошлой истории транзакций, различных используемых устройств или классификации диапазона предварительно утвержденных кредитов, которые получает клиент банка, на основе кредитного рейтинга клиента, его структуры расходов, чистой стоимости и других деталей.

Если размер набора классов для записи предсказанных ответов равен двум, мы называем его Биномиальной классификацией, а для трех или более - полиномиальной классификацией.

В этой короткой статье мы объясним биномиальную логистическую регрессию,

Концепция логистической регрессии состоит в том, чтобы найти взаимосвязь между характеристиками и вероятностью конкретного результата.

В приведенных выше примерах определение того, является ли электронное письмо спамом или нет, или прогнозирование того, является ли произошедшая транзакция по кредитной карте мошеннической или нет, имеет только два класса.

Полиномиальная логистическая регрессия имеет дело с ситуациями, когда переменная ответа может иметь три или более возможных значения.

Предположим, у нас есть «x» в качестве функций и «y» в качестве прогнозируемого ответа, который может быть либо 0 или 1.

Взаимосвязь может быть смоделирована как вероятность успеха или 1 как p, а для неудачи или 0 как q = (1-p)

Используя модель линейной регрессии для представления этих вероятностей, мы получаем.

p(X) = β0 + β1X

Как показано на диаграмме, проблема с этим подходом: для предсказания, близкого к нулю, мы предсказываем отрицательную вероятность; если бы мы прогнозировали очень большие значения, мы бы получили значения больше 1. Эти прогнозы неразумны.

Чтобы избежать этого, используйте функцию, которая выдает результат от 0 до 1 для всех значений X. В логистической регрессии мы используем функцию Logit.

Зависимые переменные в логит-регрессии подчиняются распределению Бернулли с неизвестной вероятностью. Мы оцениваем неизвестное p для любой данной линейной комбинации независимых переменных. Эта ссылка для подключения называется Logit.

Кроме того, приведенное выше уравнение можно представить, как показано ниже.

Где левая часть уравнения представляет собой логарифмическую нечетную или логитную функцию, а единицы в скобках - нечетные.

Это сигмоидальная функция, она дает S-образную кривую, а значения вероятностей находятся между 0 и 1.

Натуральный логарифм отношения шансов эквивалентен линейной функции независимых переменных.

Вышеприведенное уравнение дает значение вероятностей по оси X. Чтобы получить значения по оси Y, примените правила логарифмов, чтобы получить уравнение.

Где p̂ - оценочная вероятность.

Коэффициенты регрессии для логистической регрессии рассчитываются с использованием оценки максимального правдоподобия или MLE.

И наконец -
Если вам понравились статьи, поделитесь этой статьей и задавайте вопросы. Спасибо!