Федеративное обучение с различными моделями

В стандартном федеративном обучении [1] централизованный сервер отправляет глобальную модель каждому участнику перед началом обучения. После каждого раунда федеративного обучения участники отправляют свой локальный градиент обратно в глобальную модель, и сервер обновляет его средним значением всех локальных градиентов. Следовательно, участники, вовлеченные в процесс федеративного обучения, получили только обобщенную глобальную модель без учета какой-либо персонализации своих данных. Одной из проблем федеративного обучения является неоднородность данных и устройств. Это может создать проблему, когда у пользователя есть обширные данные, но он не может настроить глобальную модель, чтобы воспользоваться преимуществами собственной персонализации (поскольку градиенты усредняются, усреднение эффекты могут быть заглушены другими градиентами, кроме его собственного).

При статистической неоднородности или неоднородности данных разные участники имеют разные данные. Чтобы иметь персонализированную модель, такую ​​как разные модели, созданные для разных участников, в первую очередь необходимо решить статистическую неоднородность, которая неявно приводит к неоднородности модели. Чтобы справиться со статистической неоднородностью, необходимо иметь индивидуальную модель для каждого участника, однако нам также необходимо убедиться, что индивидуальная модель сходится к истинной глобальной модели, что невозможно при простом усреднении из-за дрейфа клиента.

В данной работе [3] автор акцентирует внимание на другом типе неоднородности, а именно на различиях локальных моделей. Автор исследовал и применил два метода, такие как перенос обучения и дистилляция знаний [2], в федеративное обучение. Это позволяет глобальной модели быть универсальной, а также позволяет каждому участнику иметь индивидуальную модель с персонализацией.

Один тривиальный пример без персонализации: предположим, что мы обучаем федеративную модель обучения для рекомендаций по еде с двумя участниками A и B, как показано на рис. 1. Участник A имеет данные только о фруктах, участник B имеет данные только о напитках. Очевидно, что оба участника имеют данные, взятые из разных распределений. Следовательно, использование простого усреднения градиентов не делает ни одну из моделей уникальной, поскольку участник А хочет персонализировать только фрукты, а участник Б хочет персонализировать только напитки, а не смесь того и другого.

структура ФРС

Автор предлагает структуру под названием «FedMD», которая позволяет включить трансферное обучение и дистилляцию знаний в федеративное обучение (рис. 2 ниже).

Трансферное обучение

Причиной использования трансферного обучения является нехватка частных данных, поскольку частные наборы данных могут быть небольшими, и если мы сможем использовать трансферное обучение на большом общедоступном наборе данных, это будет чрезвычайно полезно для модели.

Дистилляция знаний

При дистилляции знаний [2] полученные знания передаются на основе оценок класса или оценок вероятности. Эти недавно вычисленные оценки класса будут использоваться в качестве новой цели для набора данных, и с помощью этих подходов мы можем обучить любую независимую модель, чтобы использовать знания, полученные из одной модели, в другую модель.

ФРС

Структура FedMD требует, чтобы каждый участник 1. Обучите уникальную модель общедоступного набора данных конвергенции (большой общедоступный набор данных), 2. Обучайте свой собственный небольшой частный набор данных, используя уникальную модель. 3. Во время каждого раунда федеративного обучения участники вычисляют баллы класса по общедоступному набору данных и отправляют результат на центральный сервер, 4. Центральный сервер вычисляет и обновляет консенсус, который представляет собой среднее значение баллов класса 5. Обновленный консенсус или баллы класса теперь будут базовым уровнем (новый общедоступный набор данных), который участники теперь будут использовать для дальнейшего объединенного обучения и тонкой настройки.

На следующем рисунке 3 представлена ​​общая структура гетерогенного федеративного обучения, используемая структурой FedMD, где каждый агент/участник владеет частным набором данных и уникально разработанной моделью. У каждого участника есть баллы класса, рассчитанные с помощью дистилляции знаний, которая известна как переводчик. Переводчик связывается с центральным сервером, известным как консенсус, и консенсус выполняет обновление консенсуса с помощью среднего балла класса, вычисленного для каждого участника.

Полный алгоритм структуры FedMD из статьи [3] показан ниже.

Результаты

Эксперимент на 10 участниках

Эксперименты проводятся на 10 участниках, у каждого уникальные сверточные сети, отличающиеся количеством каналов и слоев. Эти 10 участников сначала проходят обучение на общедоступном наборе данных и достигают точности теста около 99% по MNIST и 76% по CIFAR10 достигают современной точности, а затем обучают свою модель на собственном небольшом частном наборе данных. На рис. 4 ниже показано, что кривая медленно приближается к оптимальной точности теста структуры FedMD, когда используется структура FedMD.

Вывод

FedMD — это структура, которая позволяет участникам иметь уникальную, независимо и в частном порядке разработанную модель федеративного обучения. Эта структура ослабляет проблемы статистической и модельной неоднородности в федеративном обучении. Архитектура модели участников не обязательно должна быть такой же, как в обычном федеративном обучении, например. Федеративное усреднение (FedAvg), и это достигается с помощью трансферного обучения и дистилляции знаний. FedMD — это одна из платформ, которая позволяет участникам создавать свою собственную модель в соответствии с ее четкой спецификацией в федеративном обучении, что дополнительно решает некоторые проблемы, такие как нехватка личных данных и конфиденциальность модели.

использованная литература

[1] https://towardsdatascience.com/introduction-to-federated-learning-and-challenges-ea7e02f260ca

[2] Хинтон, Джеффри, Ориол Виньялс и Джефф Дин. «Извлечение знаний в нейронной сети. Препринт arXiv arXiv: 1503.02531 (2015 г.)»

[3] Далян Ли, Джунпу Ван. «FedMD: гетерогенное федеративное обучение с помощью дистилляции модели