Что не так с CNN и спектрограммами для обработки звука?

В последние годы были достигнуты большие результаты в создании и обработке изображений с помощью нейронных сетей. Частично это можно объяснить высокой производительностью глубоких CNN по захвату и преобразованию высокоуровневой информации в изображениях. Ярким примером этого является процесс передачи стиля изображения с использованием CNN, предложенный L. Gatys et. al. который может отображать семантическое содержание изображения в другом стиле [1].

Процесс переноса нейронного стиля хорошо объясняется Y. Li et. al: «этот метод использовал матрицы Грама нейронных активаций из разных слоев CNN для представления художественного стиля изображения. Затем он использовал метод итеративной оптимизации для создания нового изображения из белого шума путем сопоставления нейронных активаций с изображением содержимого и матриц Грама с изображением стиля » [2].

Проще говоря, эти результаты можно рассматривать как достигаемые путем создания изображений в соответствии с комбинациями функций исходного контента и стилей изображений на разных уровнях абстракции. Например, это может быть поддержание структур и контуров высокого уровня изображения содержимого с одновременным включением цветов и функций текстуры нижнего уровня изображения стиля.

Производительность передачи стиля в области визуальной обработки была весьма впечатляющей и дает основания для оптимизма в отношении «более умных» алгоритмов обработки звука, если могут быть достигнуты аналогичные результаты. Поскольку спектрограммы представляют собой двумерные представления спектров звуковых частот с течением времени, были предприняты попытки их анализа и обработки с помощью CNN. Было показано, что можно обрабатывать спектрограммы как изображения и выполнять передачу нейронного стиля с помощью CNN [3], но до сих пор результаты не были столь убедительными, как для визуальных изображений [4].

Чтобы преодолеть эту проблему и добиться лучших результатов в нейронной обработке звука, нам может потребоваться рассмотреть, почему передача стиля с помощью CNN не работает так же хорошо на спектрограммах. По сути, эти методы применяют машинное зрение для того, чтобы делать машинный слух. Я считаю, что это создает серьезную проблему, которая может препятствовать развитию технологий с использованием искусственного интеллекта в обработке звука. Хотя к проблеме, несомненно, можно подойти со многих сторон, возможно, стоит изучить различия между изображениями и спектрограммами и, как следствие, некоторые различия между зрением и слухом.

Звуки «прозрачны»

Одна из проблем, возникающих при сравнении визуальных изображений и спектрограмм, заключается в том, что визуальные объекты и звуковые события накапливаются по-разному. Используя визуальную аналогию, можно сказать, что звуки всегда «прозрачны» [4], тогда как большинство визуальных объектов непрозрачны.

При обнаружении на изображении пикселя определенного цвета чаще всего можно предположить, что он принадлежит одному объекту. Дискретные звуковые события не разделяются на слои на спектрограмме: вместо этого все они суммируются в единое целое. Это означает, что нельзя предположить, что конкретная наблюдаемая частота в спектрограмме принадлежит одному звуку, поскольку величина этой частоты могла быть произведена любым количеством накопленных звуков или даже сложными взаимодействиями между звуковыми волнами, такими как подавление фазы. Это затрудняет разделение одновременных звуков в представлениях спектрограмм.

Оси спектрограмм не имеют одинакового значения.

CNN для изображений используют двумерные фильтры, которые разделяют веса по измерениям x и y [4]. Как описано ранее, это основано на предположении, что элементы изображения несут одно и то же значение независимо от их местоположения. Чтобы это было правдой, вы также должны предположить, что оси x и y данных имеют одинаковые последствия для смысла содержимого. Например, лицо остается лицом независимо от того, перемещено ли оно на изображении по горизонтали или вертикали.

В спектрограммах два измерения представляют собой принципиально разные единицы, одно из которых является силой частоты, а другое - временем. Перемещение звукового события по горизонтали смещает его положение во времени, и можно утверждать, что звуковое событие означает одно и то же, независимо от того, когда оно происходит. Однако перемещение звука по вертикали может повлиять на его значение: например, перемещение частот мужского голоса вверх может изменить его значение от мужчины к ребенку или гоблину. Выполнение частотных сдвигов звукового события также может изменить его пространственную протяженность [4]. Следовательно, пространственная инвариантность, которую обеспечивают 2D CNN, может не работать так же хорошо для этой формы данных.

Спектральные свойства звуков нелокальны.

В изображениях можно предположить, что похожие соседние пиксели принадлежат одному и тому же визуальному объекту, но в звуке частоты чаще всего не локально распределены на спектрограмме [4]. Периодические звуки обычно состоят из основной частоты и ряда гармоник, которые разделены отношениями, продиктованными источником звука. Именно смесь этих гармоник определяет тембр звука.

В случае женского вокала основная частота в данный момент времени может составлять 200 Гц, в то время как первая гармоника - 400 Гц, следующие 600 Гц и так далее. Эти частоты не сгруппированы локально, но они перемещаются вместе в соответствии с общими отношениями. Это еще больше усложняет задачу поиска локальных особенностей на спектрограммах с использованием двумерных сверток, поскольку они часто неравномерно разнесены, даже если перемещаются в соответствии с те же факторы.

Звук по своей сути серийный

При оценке визуальной среды мы можем «сканировать» наше окружение несколько раз, чтобы найти каждый визуальный объект в сцене. Поскольку большинство объектов неподвижны, свет будет отражаться от них предсказуемым образом, и можно составить мысленную карту их размещения на физической сцене. С точки зрения восприятия предполагается, что визуальные объекты продолжают существовать в наблюдаемом месте, даже если вы посмотрите в другом месте.

Это не относится к звукам. Звук принимает физическую форму волн давления, и с точки зрения слушателя такие волны существуют только в их текущем состоянии в определенный момент времени. Как только момент прошел, волна прошла, удаляясь от наблюдателя. Вот почему имеет смысл называть эти явления звуковыми событиями, а не объектами. С физической точки зрения это означает, что слушатели воспринимают звук только мгновенно. В тех случаях, когда изображения можно рассматривать как содержащие большие объемы статической параллельной информации, звук в таком случае является в высшей степени последовательным.

Более подходящее сравнение - сравнение аудио и видео. Оба эти средства массовой информации могут быть концептуализированы как изображающие движения во времени, где зависимости во времени важны для воспринимаемого значения содержания. Поскольку видео состоит из наборов изображений (кадров), оно содержит гораздо больше параллельной информации.

Один из способов проиллюстрировать это - «заморозить» момент времени в обоих носителях. Глядя на один кадр видео (часто изображающий ~ 1/25 секунды воздействия света), все еще часто можно собрать значительный объем смысла о контексте, действиях и сцене видео: отдельные объекты могут быть идентифицированы и, иногда можно оценить действия и движения. Однако, когда «замораживает» отдельный момент звука (например, соответствующую совокупность ~ 1/25 секунды) с помощью спектрального анализа, оценки не могут быть столь же всеобъемлющими. Можно собрать некоторый контекст об общем тональном балансе и характеристиках сигнала, но не в такой степени, как для видео.

Например, невозможно идентифицировать отдельные звуковые события вне контекста времени, чтобы увидеть, какие спектральные изменения происходят в соответствии с одними и теми же временными паттернами. Единственное, что можно установить наверняка, - это тональный баланс слышимого звука (звуков) в данный конкретный момент времени. Объяснение этому восходит к ранее обсуждавшейся физической форме звука в виде волн: Звуки не существуют как статические объекты, которые можно наблюдать параллельно, они приходят как последовательности давления воздуха, и смысл этих давлений должен быть время.

Эти причины предполагают, что звук как средство передачи смысла по своей сути является последовательным и более зависимым от времени, чем видео, что представляет собой еще одну причину, по которой визуальные представления спектрограммы звуков, подаваемых в сети обработки изображений без временной осведомленности, могут не работать оптимально.

Случай для моделирования человеческого опыта

Значительный прорыв в технологии искусственного интеллекта был достигнут благодаря моделированию человеческих систем. Хотя искусственные нейронные сети представляют собой математические модели, которые лишь слабо связаны с тем, как функционируют реальные человеческие нейроны, их применение для решения сложных и неоднозначных проблем реального мира было глубоким. Моделирование архитектурной глубины мозга в этих нейронных сетях открыло широкие возможности в изучении более значимых представлений данных. В распознавании и обработке изображений вдохновение из сложных и более пространственно инвариантных ячеек зрительной системы в CNN также привело к значительным улучшениям в состоянии наших технологий.

Как утверждает Дж. Б. Аллен в статье «Как люди обрабатывают и распознают речь?», до тех пор, пока человеческая способность к восприятию превышает таковую у машин, мы выиграем от понимания принципов человеческих систем [5]. Люди, как правило, очень искусны, когда дело касается задач восприятия, и контраст между человеческим пониманием и статус-кво ИИ становится особенно очевидным в области машинного слуха. Принимая во внимание преимущества, получаемые от вдохновения человеческими системами в обработке изображений (и представленные аргументы, что визуальные модели не работают так же хорошо для звука), я предполагаю, что мы выиграем от аналогичного процесса в машинном слухе с нейронными сетями.

Это часть более крупного проекта по созданию машинного слуха. Если вы пропустили другие статьи, нажмите ниже, чтобы узнать больше:

Предыстория: Обещание ИИ в обработке звука
Часть 1: Человеческий аппаратный слух с ИИ (1/3)
Часть 2: Человеческий машинный слух с ИИ (2/3)
Часть 3: Человекоподобный машинный слух с ИИ (3/3 )

Использованная литература:

[1] Л. А. Гэтис, А. С. Эккер и М. Бетге, «Передача стилей изображения с использованием сверточных нейронных сетей», Конференция IEEE 2016 г. по компьютерному зрению и распознаванию образов (CVPR), 2016 г., стр. 2414–2423.

[2] Й. Ли, Н. Ван, Дж. Лю и Х. Хоу, «Демистификация передачи нейронного стиля», январь 2017 г.

[3] П. Верма и Дж. О. Смит, «Передача нейронного стиля для аудио-спектрограмм», январь 2018 г.

[4] Л. Вайс. 2017. Представления аудио спектрограммы для обработки с помощью сверточных нейронных сетей. Труды Первого международного семинара по глубокому обучению и музыке, совместно с IJCNN. Анкоридж, США. Май 2017 г. 1 (1). С. 37–41. DOI: 10.13140 / RG.2.2.22227.99364 / 1

[5] Дж. Б. Аллен, «Как люди обрабатывают и распознают речь?», IEEE Trans. Речевой аудиопроцесс., Т. 2, вып. 4. С. 567–577, 1994.