Линейный, Сигмовидный, ReLU ОБЪЯСНЕН!!!

В моем проекте распознавания цифр моя нейронная сеть изо всех сил пыталась работать хорошо. Однако я обнаружил функции активации, которые позволяют нейронным сетям изучать нелинейные отношения.

Но я не знал, какую функцию активации использовать, поскольку доступно много вариантов. Поэтому в этом блоге я объяснил основные функции активации и их использование.

Зачем нужны функции активации?

Предположим, мы хотим предсказать, станет ли продукт лидером продаж, основываясь на различных исходных характеристиках, таких как цена, стоимость доставки, маркетинговые усилия и качество материалов. Теперь то, что произойдет, если мы попытаемся решить эту проблему с помощью нейронной сети без какой-либо функции активации или с использованием линейной функции активации по всей сети, может иметь аналогичные эффекты.

Оба случая приведут к нейронной сети, которая может представлять только линейные отношения между входом и выходом.

Сеть будет способна изучать только линейные отношения между входными функциями и целевой переменной, исключая любые нелинейные зависимости, которые могут существовать. Следовательно, наши прогнозы лидеров продаж будут упрощенными и неточными, поскольку модель будет пытаться определить критические факторы, определяющие успех продукта.

Таким образом, вместо того, чтобы использовать нейронную сеть с одним скрытым слоем и одним выходным слоем, мы могли бы просто использовать модель линейной регрессии.

Однако в реальных сценариях отношения между этими переменными часто бывают сложными и нелинейными. Например, влияние цены, стоимости доставки, маркетинга и материалов на вероятность того, что продукт станет лидером продаж, может не следовать простой линейной схеме.

Чтобы зафиксировать эти сложные отношения, нам нужно ввести в нейронную сеть нелинейные функции активации. Функции активации, такие как sigmoid, ReLU и tanh, вносят нелинейность, применяя математические операции, которые преобразуют входные данные нелинейным образом.

Используя нелинейные функции активации, нейронная сеть может изучать и моделировать нелинейные закономерности в данных. Он может фиксировать сложные взаимосвязи между входными функциями, скрытыми функциями и вероятностью того, что продукт станет лидером продаж. Это позволяет делать более точные прогнозы и лучше понимать основные факторы, влияющие на спрос на продукт.
Таким образом, для примера прогнозирования спроса лучше всего подходит функция активации ReLU, которая дает точный прогноз для лидеров продаж. В следующей части мы изучим, как выберите функцию активации для проблемы.

Выбор функций активации

В зависимости от целевой метки или истинной метки y будет один довольно естественный выбор функции активации для выходного слоя, и затем мы пойдем и посмотрим на выбор функции активации также для скрытых слоев. вашей нейронной сети.

При построении нейронной сети одним из важных решений является выбор подходящей функции активации для выходного слоя. Выбор функции активации зависит от характера проблемы, которую вы пытаетесь решить. В этом сообщении блога мы рассмотрим различные сценарии и порекомендуем подходящие функции активации в зависимости от типа вывода, который вы хотите предсказать.

  1. Сигмовидная функция активации для двоичной классификации. При работе с задачами двоичной классификации, когда выходные данные могут принимать один из двух классов (например, да или нет, истина или ложь), сигмовидная функция активации является популярным выбором. . Сигмовидная функция сопоставляет выходные данные сети со значением вероятности от 0 до 1. Это позволяет установить четкие границы решений и эффективную классификацию.

2. Линейная функция активации для задач регрессии. В задачах регрессии цель состоит в том, чтобы предсказать непрерывное значение, например, предсказать цену дома или температуру. В таких случаях на выходном слое обычно используется линейная функция активации. Линейная активация сохраняет диапазон реальных значений, позволяя нейронной сети прогнозировать широкий диапазон непрерывных выходных данных.

3. Функция активации выпрямленной линейной единицы (ReLU) для неотрицательных выходных меток. Для задач, в которых выходные данные должны быть неотрицательными, например для прогнозирования количества продаж, функция активации выпрямленной линейной единицы (ReLU) является подходящей. выбор. ReLU сопоставляет все отрицательные значения с нулем и сохраняет неотрицательные значения без изменений, что делает его идеальным для задач с неотрицательными выходными метками.

Когда дело доходит до скрытых слоев нейронной сети, наиболее часто используемая функция активации называется ReLU. Хотя сигмовидные функции активации широко использовались на заре нейронных сетей, ReLU популярен сегодня.