Публикации по теме 'changing-loss-weight'


Адаптивное взвешивание функций потерь для моделей keras с несколькими выходами
Недавно, экспериментируя с дистилляцией знаний для уменьшения размера моделей глубоких нейронных сетей, я хотел опробовать предложение, сделанное JH Cho et. al в своей статье под названием Об эффективности извлечения знаний . Они утверждают, что для лучшего обучения модели ученика помогает преждевременное прекращение обучения модели учителя. Они также делятся обширным набором результатов для проверки своих утверждений. Вдохновленный этим, я захотел попробовать это на себе. Простая..