Эта статья основана на содержании статьи Япэн Тяня и Ченляна Сюй с CVPR 2021. Статью можно найти здесь. Кредит на использованные изображения принадлежит авторам статьи, поскольку они были взяты оттуда. Эта статья написана в рамках курса CS753 (автоматическое распознавание речи) в ИИТ Бомбея Говиндом Саджу, Адитьей Джейном и Санкалпом Парашаром и предназначена для широкой аудитории, изучающей информатику.

Введение

В повседневной жизни наше восприятие основано на информации, поступающей от наших различных органов чувств. Мы воспринимаем речь комбинацией звука, который мы слышим, движения губ говорящего, выражения лица и т. д. Однако в этой системе возможны атаки со стороны противника, такие как эффект Мак-Герка, когда речевой сигнал с визуальным из другого речевого сигнала приводит к тому, что мы воспринимаем совершенно другой звук речи. Содержание статьи (и этого блога) посвящено методам обеспечения надежности методов машинного обучения, объединяющих аудио- и визуальные входные данные.

Формально определяя задачу, нам дается аудиовход и соответствующий речевой сигнал, и наша цель — предсказать метку для этого экземпляра. Атака противника на такую ​​проблему будет состоять в том, чтобы внести небольшие возмущения во входной сигнал, чтобы он был незаметен для людей, но неправильно классифицировался машинной моделью. Целью этой атаки является максимизация функции потерь, используемой моделью, с учетом ограничений на величину допустимых возмущений. Состязательная атака может быть одномодальной (один сенсорный ввод) или мультимодальной.

Говоря математическим языком, следующее уравнение представляет цель атаки со стороны противника. X представляет собой вектор признаков для звукового и речевого сигнала, а эпсилон относится к небольшому значению для ограничения p-нормы возмущения.

В одномодальных атаках одно из значений эпсилон устанавливается равным 0, в то время как в мультимодальных атаках оба эпсилона будут иметь небольшое значение.

Для выполнения аудиовизуальной классификации определяется следующая модель.

Как видно из изображения, аудиовходы и визуальные входы обрабатываются отдельно, а затем объединяются вместе, на основе которых делаются прогнозы. Кровавые технические детали архитектуры модели опущены в этом блоге, и заинтересованные читатели могут найти их в разделе 3.2 указанной статьи.

Защита от враждебных атак

Для защиты от состязательных атак в документе предлагается двухсторонний подход:

  • Обучение дискриминативным и компактным унимодальным вложениям
  • Внешние банки памяти функций для шумоподавления функций

Для первого пункта предлагаемое решение состоит в том, чтобы добавить еще один член к обучаемой функции потерь. Этот термин измеряет косинусное сходство между векторами звуковых и визуальных признаков. Это гарантирует, что вложения, изученные для пространств звуковых и визуальных признаков, будут независимыми, и сделает модель более устойчивой к атакам злоумышленников.

Второй момент включает в себя изменение векторов признаков на основе банка памяти для шумоподавления входных данных. Банки звуковых и визуальных характеристик создаются во время обучения, каждый из которых содержит K сэмплов. После того, как банки памяти построены, мы используем следующие уравнения, чтобы найти измененные векторы признаков. Форма этих уравнений, известная как регрессия лассо, является стандартной для машинного обучения и решается с использованием алгоритма итеративного порогового усадки (ISTA).

После того, как эти уравнения решены, векторы признаков с шумоподавлением могут быть построены следующим образом:

На этом теоретический раздел блога завершен, и теперь мы переходим к экспериментальной оценке, сделанной в статье.

Экспериментальная оценка

Наборы данных, используемые для оценки, представляют собой набор данных MIT-MUSIC и набор данных Kinetics-Sounds. Методами, используемыми для создания атак, являются метод быстрого градиентного знака (FGSM), прогнозируемый градиентный спуск (PGD) и итерационный метод на основе импульса (MIM). Во-первых, различные методы сравниваются на восприимчивость к атакам, и, наконец, оценивается эффективность предложений, изложенных выше.

На этих графиках унимодальный-A и унимодальный-V относятся к базовым моделям, использующим только один режим сенсорного ввода. Из экспериментов видно, что для чистых входных данных модели AV работают лучше, чем одномодальные модели. Однако это не обязательно, если вход атакован.

Из экспериментов мы наблюдаем, что если один из режимов атакован, он все равно может помочь другому. Однако совместное восприятие не всегда лучше индивидуального при аудиовизуальных атаках.

Затем в документе анализируются различные формы методов слияния и их подверженность атакам. Сумма, конкатенация, FiLM, вентилируемая сумма и вентилируемая конкатенация — вот опробованные методы. На чистых входных данных FiLM кажется хуже, чем другие, у которых все есть конкурентоспособные результаты. При атаках Concat и gated concat работают намного лучше, чем другие методы слияния, причем concat является наиболее надежным.

Чтобы визуализировать влияние локализации звука на видеопоток, модель была обучена предсказывать, в каких областях воспроизводится звук. При атаках этот метод был чрезвычайно восприимчив к атакам, и атака была возможна без того, чтобы злоумышленник даже не завладел потерями локализации.

При сравнении различных защитных механизмов, описанных в этом документе, с другими было замечено, что этот механизм наиболее надежен в отношении уязвимости к атакам, а производительность на чистых образах была сравнима или даже выше, чем у базовых моделей.

Ссылки:

Тянь, Япэн и Ченлян Сюй. «Может ли аудиовизуальная интеграция повысить устойчивость к мультимодальным атакам?» Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2021.