На пути к созданию «Универсальной модели»

Это вторая часть серии статей о многозадачном обучении (MTL), в которой рассматриваются основные подходы к MTL.

Первая часть этой серии статей доступна здесь и представляет собой введение в многозадачное обучение.

План, часть 2:

  1. Подходы к многозадачному обучению
    — Жесткое совместное использование параметров
    — Программное совместное использование параметров
  2. Базовые стратегии обучения для многозадачного обучения
    — Подходы к выборке экземпляров
    — Подходы к выборке эпох

Третья часть этой серии статей теперь доступна здесь.

Подходы к многозадачному обучению

В этом разделе мы рассмотрим распространенные способы выполнения многозадачного обучения в глубоких нейронных сетях.

Общий общий доступ к параметрам

При жестком совместном использовании параметров модель совместно использует скрытые слои для всех задач и сохраняет несколько слоев, специфичных для задачи, для специализации каждой задачи.

Совместное использование программных параметров

При мягком совместном использовании параметров каждая задача имеет собственный набор параметров. Эти слои для конкретных задач затем упорядочиваются во время обучения, чтобы уменьшить различия между общими слоями. Это побуждает слои иметь одинаковый вес, но позволяет каждой задаче специализироваться на определенных компонентах.

Основные стратегии обучения для многозадачного обучения

В этом разделе мы рассмотрим основные стратегии обучения для задачи MTL, где выходное пространство для всех задач одинаково.

Подходы к выборке экземпляров:

Чтобы определить количество экземпляров для извлечения из каждого набора данных для каждой эпохи

  1. Единообразие
     – Единая выборка экземпляров для каждой задачи.
     – Количество экземпляров задачи ограничивается задачей с наименьшим набором данных.
     – Задачи с большими наборами данных. страдают от ограниченного обучения, поскольку они не могут использовать весь набор данных для обучения.
  2. Зависит от размера
    — выборка экземпляров пропорциональна размеру их набора данных.
    — предпочтение отдается задачам с большими наборами данных.
    — это может привести к недостаточному соответствию задач с небольшими наборами данных. и переоснащение задач большими наборами данных.
  3. Унифицированный → Размер
     — равномерно для первой половины обучения и на основе размера набора данных для второй половины.
  4. Динамический
     — выборка экземпляров на основе разрыва между производительностью в текущую эпоху и производительностью однозадачной модели.
    — количество экземпляров, выбранных для каждой задачи, меняется после каждой эпохи, поскольку выборка выполняется из экземпляров для задач, требующих обучения (большой разрыв в производительности по сравнению с однозадачной моделью аналога), и меньшее количество экземпляров для задач, которые сошлись (предельная производительность). разрыв по сравнению с однозадачной моделью аналога)

Подходы к выборке эпох:

Чтобы определить порядок экземпляров в эпохе

  1. Разделенные пакеты
     — последовательное обучение задачам, т. е. обучение с использованием всех экземпляров одной задачи перед началом обучения следующей задаче.
     — это неизбежно приведет к катастрофическому забыванию (забвению ранее изученные задачи по мере изучения новых задач).
  2. Однородные пакеты
    — каждый пакет содержит экземпляры только одной задачи, но пакеты перемешиваются, т. е. модель изучает все задачи вместе только в том случае, если в одном пакете присутствуют образцы только из одной задачи.
  3. Неоднородные пакеты
     — объединяйте наборы данных для всех задач и перемешивайте всю коллекцию данных.
     — каждый пакет может содержать экземпляры многих задач.
  4. Однородные пакеты (принудительная неоднородность)
    — одинаковое количество экземпляров каждой задачи в каждом пакете.

Третья часть этой серии статей теперь доступна здесь.

Использованная литература:

  • Рудер, Себастьян. «Обзор многозадачного обучения в глубоких нейронных сетях». препринт arXiv arXiv:1706.05098 (2017 г.).
  • Уоршам, Джозеф и Джугал Калита. «Многозадачное обучение для обработки естественного языка в 2020-х годах: куда мы идем?». Письма о распознавании образов (2020 г.).
  • Stanford CS330: многозадачность и метаобучение, 2019.
  • Готтумуккала, Анант и др. «Стратегии динамической выборки для многозадачного понимания прочитанного». Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики. 2020.