В плотном слое следует инициализировать веса в соответствии с некоторым эмпирическим правилом. Например, в RELU веса должны исходить из нормального распределения и масштабироваться как 2/n, где n — количество входных данных для слоя (согласно Эндрю Нг).
Справедливо ли то же самое для сверточных слоев? Как правильно инициализировать веса (и смещения) в сверточном слое?