21 июля 2023 г., ПЕРЕМЕНА СЕРДЦЕВ: УЛУЧШЕНИЕ РАСПОЗНАВАНИЯ РЕЧИ ЭМОЦИЙ ПОСРЕДСТВОМ ПРЕОБРАЗОВАНИЯ МОДАЛЬНОСТИ РЕЧИ В ТЕКСТ — Зейнаб Садат Тагави, Али Сатвати и Хоссейн Самети

Распознавание эмоций по речи является сложной задачей из-за сложности и изменчивости звуковых сигналов. В статье, опубликованной как Tiny Paper на ICLR 2023, исследователи из Технологического университета Шарифа предлагают использовать преобразование модальности в текст для улучшения распознавания речевых эмоций.

Сначала исследователи установили, что в мультимодальном распознавании эмоций текстовые подходы часто превосходят речевые подходы к тому же набору данных. Они предполагают, что преобразование речевой модальности в текст может улучшить производительность.

Они проверяют эту идею с помощью двух экспериментов с набором данных MELD:

  1. Преобразование модальности: использует систему автоматического распознавания речи (ASR) (Vosk) для преобразования речи в текст с последующим классификатором текста (RoBERTa).
  2. Modality-Conversion++: предполагает идеальное ASR и использует транскрипты золотого стандарта, а затем классифицирует с помощью RoBERTa.

Первый метод дает взвешенную оценку F1 43,1%, превосходя современные модели на основе речи, такие как SpeechFormer. Второй метод позволяет получить еще более высокий балл 60,4% F1.

Основные выводы:

  • Преобразование модальности из речи в текст может повысить эффективность распознавания речевых эмоций.
  • С идеальным преобразователем речи в текст классификация на основе текста значительно превосходит даже самые лучшие модели на основе речи.
  • Это подчеркивает потенциал использования альтернативных модальностей и преобразования модальностей для задач распознавания эмоций.

Исследователи предполагают, что преобразование модальностей для использования более эффективной для конкретной задачи является многообещающим подходом. Они предлагают дальнейшую работу по совершенствованию ASR и методов классификации текста.

В целом, это исследование демонстрирует силу преобразования модальности и использования текста для улучшения распознавания речевых эмоций. Это открывает новые возможности для мультимодальных и кросс-модальных методов для решения проблем в задачах обработки речи.

раскрытие информации: Автор использует ИИ для создания черновиков резюме.