Вступление

Алгоритм персептрона - один из первых методов контролируемого машинного обучения, который использовался для классификации точек данных на две группы. Этот алгоритм был изобретен Фрэнком Розенблаттом в 1958 году и использовался для идентификации различных типов форм (например, треугольника, квадрата, круга и т. Д.), Когда определенная форма была помещена перед машиной Персептрона.

Одно из основных предположений, над которым работает этот алгоритм, заключается в том, что данные должны быть линейно разделяемыми, то есть должен существовать линейный классификатор, который разделяет данные с нулевой ошибкой обучения. Математически для двух наборов A и B можно определить линейно разделимые данные так, что,

где (w, wo) - некоторые параметры, определяющие гиперплоскость линейного классификатора.

Как работает алгоритм

Мы определяем линейный классификатор с нулевой ошибкой обучения как,

Любой алгоритм работает путем максимизации или минимизации целевой функции, которая выполняется при определенных ограничениях. Здесь алгоритм Perceptron пытается минимизировать целевую функцию, чтобы предсказать правильную метку для набора данных.

Целевая функция (L) и ограничения определяются следующим образом:

Если прогнозируемое значение «f (x; w)» и известные метки «yi» имеют одинаковый знак (например, +1 или -1), то скалярное произведение yi.f (x; w) будет ›0. Это означает что определенный выше линейный классификатор f (x; w) правильно предсказывает для точки данных xi.

Алгоритм пытается минимизировать целевую функцию, которая является суммированием всех случаев, когда определенный линейный классификатор не предсказывал выходные данные правильно. Следовательно, целевая функция всегда будет находиться в диапазоне от 0 до некоторого положительного значения. Он принимает положительное значение из-за присущего отрицательному знаку целевой функции.

Таким образом, этот алгоритм завершается, когда значение целевой функции становится равным 0, что означает, что ни одна из точек не была классифицирована неправильно.

Gradient Decent: минимизация целевой функции

В отличие от других алгоритмов, невозможно найти минимум производной этой целевой функции. Следовательно, мы используем метод градиентного приличия, чтобы минимизировать L.

Градиент приличный работает по логике, что даже если мы не можем решить производную целевой функции (L) аналитически, производная по-прежнему дает нам информацию относительно направления, в котором L увеличивается в w.

Таким образом, для достаточно малого положительного значения «r» мы имеем L (w1) ‹L (w).

Недостатки алгоритма персептрона

  1. Основное предположение о том, что данные должны быть обязательно линейно разделимы, является одним из основных недостатков этого алгоритма. Если данные нельзя разделить линейно, алгоритм никогда не сойдется, и гиперплоскость будет продолжать двигаться бесконечно.
  2. Кроме того, этот алгоритм не принимает во внимание качество гиперплоскости и сходится к первой найденной. Таким образом, теряется возможность определить лучшую гиперплоскость, которая дала бы лучшую точность с новыми данными испытаний.

Оба эти недостатка можно решить с помощью более совершенных алгоритмов классификации, таких как SVM и т. Д.

Заключение

Таким образом, алгоритм перцептрона был одной из первых попыток классификации данных по группам, которая привела к разработке гораздо более совершенных классификаторов, способных преодолеть недостатки перцептрона.

Спасибо, что дочитали этот пост до конца!

Оставайтесь в безопасности!