Распознавание эмоций по речи является сложной задачей из-за сложности и изменчивости звуковых сигналов. В статье, опубликованной как Tiny Paper на ICLR 2023, исследователи из Технологического университета Шарифа предлагают использовать преобразование модальности в текст для улучшения распознавания речевых эмоций.
Сначала исследователи установили, что в мультимодальном распознавании эмоций текстовые подходы часто превосходят речевые подходы к тому же набору данных. Они предполагают, что преобразование речевой модальности в текст может улучшить производительность.
Они проверяют эту идею с помощью двух экспериментов с набором данных MELD:
- Преобразование модальности: использует систему автоматического распознавания речи (ASR) (Vosk) для преобразования речи в текст с последующим классификатором текста (RoBERTa).
- Modality-Conversion++: предполагает идеальное ASR и использует транскрипты золотого стандарта, а затем классифицирует с помощью RoBERTa.
Первый метод дает взвешенную оценку F1 43,1%, превосходя современные модели на основе речи, такие как SpeechFormer. Второй метод позволяет получить еще более высокий балл 60,4% F1.
Основные выводы:
- Преобразование модальности из речи в текст может повысить эффективность распознавания речевых эмоций.
- С идеальным преобразователем речи в текст классификация на основе текста значительно превосходит даже самые лучшие модели на основе речи.
- Это подчеркивает потенциал использования альтернативных модальностей и преобразования модальностей для задач распознавания эмоций.
Исследователи предполагают, что преобразование модальностей для использования более эффективной для конкретной задачи является многообещающим подходом. Они предлагают дальнейшую работу по совершенствованию ASR и методов классификации текста.
В целом, это исследование демонстрирует силу преобразования модальности и использования текста для улучшения распознавания речевых эмоций. Это открывает новые возможности для мультимодальных и кросс-модальных методов для решения проблем в задачах обработки речи.
раскрытие информации: Автор использует ИИ для создания черновиков резюме.
