Бинарная кросс-энтропия против категориальной кросс-энтропии с 2 классами

При рассмотрении проблемы классификации входа в один из 2 классов, 99% примеров, которые я видел, использовали NN с одним выходом и сигмоидой в качестве их активации с последующей двоичной кросс-энтропийной потерей. Другой вариант, о котором я подумал, - это заставить последний слой производить 2 вывода и использовать категориальную кросс-энтропию с классами C = 2, но я никогда не видел этого ни в одном примере. Есть ли для этого какие-то причины?

Спасибо


person MRm    schedule 30.08.2019    source источник


Ответы (1)


Если вы используете softmax поверх двух выходных сетей, вы получите результат, который математически эквивалентен использованию одного выхода с sigmoid наверху.
Выполните математические вычисления, и вы увидите.

На практике, исходя из моего опыта, если вы посмотрите на необработанные "логиты" двух выходных цепей (до softmax), вы увидите, что один в точности отрицательный по отношению к другому. Это результат того, что градиенты тянут каждый нейрон точно в противоположном направлении.

Следовательно, поскольку оба подхода эквивалентны, конфигурация с одним выходом имеет меньше параметров и требует меньше вычислений, поэтому более выгодно использовать один выход с сигмовидной вершиной.

person Shai    schedule 30.08.2019