Я знаю, что эти две функции предназначены для обратного распространения факела, и интерфейс выглядит следующим образом:
updateGradInput(input, gradOutput)
accGradParameters(input, gradOutput, scale)
Я не понимаю, что на самом деле означают gradInput
и gradOutput
в слое. Предположим, что стоимость сети равна C
, а уровень — L
. Означают ли gradInput
и gradOutput
слоя L
d_C/d_input_L
и d_C/d_output_L
?
Если да, то как вычислить gradInput
по gradOutput
?
Кроме того, означает ли accGradParameters
накапливать d_C/d_Weight_L
и d_C/d_bias_L
? Если да, то как вычислить эти значения?