Публикации по теме 'knowledge-distillation'


Адаптивное взвешивание функций потерь для моделей keras с несколькими выходами
Недавно, экспериментируя с дистилляцией знаний для уменьшения размера моделей глубоких нейронных сетей, я хотел опробовать предложение, сделанное JH Cho et. al в своей статье под названием Об эффективности извлечения знаний . Они утверждают, что для лучшего обучения модели ученика помогает преждевременное прекращение обучения модели учителя. Они также делятся обширным набором результатов для проверки своих утверждений. Вдохновленный этим, я захотел попробовать это на себе. Простая..

Distill-BERT: использование BERT для создания более умного текста
Создавайте лучшие рассказы, эссе, ответы и многое другое, используя знания BERT Область обработки естественного языка сейчас находится в эпоху крупномасштабных предварительно обученных моделей, которые в первую очередь можно попробовать практически для любой новой задачи. Такие модели, как BERT, RoBERTa и ALBERT, настолько велики и были обучены с таким большим объемом данных, что они могут обобщить свои предварительно обученные знания, чтобы понять любые последующие задачи, для которых..

FedMD: гетерогенное федеративное обучение с помощью дистилляции модели
Федеративное обучение с различными моделями В стандартном федеративном обучении [1] централизованный сервер отправляет глобальную модель каждому участнику перед началом обучения. После каждого раунда федеративного обучения участники отправляют свой локальный градиент обратно в глобальную модель, и сервер обновляет его средним значением всех локальных градиентов. Следовательно, участники, вовлеченные в процесс федеративного обучения, получили только обобщенную глобальную модель без учета..