Публикации по теме 'changing-loss-weight'
Адаптивное взвешивание функций потерь для моделей keras с несколькими выходами
Недавно, экспериментируя с дистилляцией знаний для уменьшения размера моделей глубоких нейронных сетей, я хотел опробовать предложение, сделанное JH Cho et. al в своей статье под названием Об эффективности извлечения знаний .
Они утверждают, что для лучшего обучения модели ученика помогает преждевременное прекращение обучения модели учителя. Они также делятся обширным набором результатов для проверки своих утверждений. Вдохновленный этим, я захотел попробовать это на себе.
Простая..