Я следил за учебными пособиями на DeepLearning.net, чтобы узнать, как реализовать сверточную нейронную сеть, которая извлекает функции из изображений. Учебник хорошо объяснен, легко понять и следовать.
Я хочу расширить ту же CNN, чтобы одновременно извлекать мультимодальные функции из видео (изображения + аудио).
Я понимаю, что видеовход — это не что иное, как последовательность изображений (интенсивность пикселей), отображаемых в течение определенного периода времени (например, 30 кадров в секунду), связанного со звуком. Однако я не совсем понимаю, что такое звук, как он работает или как он разбивается на части для передачи в сеть.
Я прочитал пару статей на эту тему (извлечение/представление мультимодальных функций), но ни в одной из них не объяснялось, как звук вводится в сеть.
Более того, из своих исследований я понял, что мультимодальное представление — это то, как на самом деле работает наш мозг, поскольку мы намеренно не фильтруем наши чувства, чтобы достичь понимания. Все это происходит одновременно без нашего ведома об этом через (совместное представление). Простой пример: если мы слышим львиный рык, мы мгновенно создаем мысленный образ льва, чувствуем опасность и наоборот. В нашем мозгу запускается множество нейронных паттернов, чтобы достичь всестороннего понимания того, как выглядит лев, как он звучит, что он чувствует, как пахнет и т. д.
Вышеупомянутое является моей конечной целью, но пока я разбиваю свою проблему для простоты.
Я был бы очень признателен, если бы кто-нибудь мог пролить свет на то, как аудио анализируется, а затем представляется в сверточной нейронной сети. Я также был бы признателен за ваши мысли относительно мультимодальной синхронизации, совместных представлений и того, как правильно обучать CNN с мультимодальными данными.
EDIT: я обнаружил, что звук может быть представлен в виде спектрограмм. Это обычный формат для аудио, представленный в виде графика с двумя геометрическими измерениями, где горизонтальная линия представляет время, а вертикальная — частоту.
Можно ли использовать ту же технику с изображениями на этих спектрограммах? Другими словами, могу ли я просто использовать эти спектрограммы в качестве входных изображений для моей сверточной нейронной сети?