Может ли кто-нибудь объяснить уровень корреляции в FlowNet простым способом?

В настоящее время я читаю статью «FlowNet: изучение оптического потока с помощью сверточных сетей», и у меня возникают проблемы с пониманием уровня корреляции.

Кажется, я не могу найти никакого объяснения в Google, поэтому я подумал, что должен спросить ее:

  1. Когда в документе говорится о сравнении каждого патча из f_1 с каждым патчем из f_2, где f_1 и f_2 – карты объектов размерности whc, что они подразумевают под патчем? Мы говорим о фрагменте функций из карты объектов или фрагменте пикселей из одного из исходных изображений?

  2. что такое x_1 и x_2? Являются ли они пикселем функции (1 * 1 * c) на картах функций? они являются координатными значениями?

  3. Что именно означает f_1(x_1 + o)?

Большое спасибо!


person n88b    schedule 04.12.2019    source источник


Ответы (2)


Из карты характеристик-2 патч 21x21x256 извлекается только один раз, а затем каждое ядро ​​1x1x256 из карты характеристик-1 свёртывается с этим (21x21x256) патчем.

Дополнительные пояснения: каждое ядро ​​(1 x 1 x 256) из карты объектов-1 свертывается только с пикселем-1 патча (21 x 21 x 256), чтобы получить одну карту объектов, а затем все (1 x 1 x 256) ядра карты признаков-1 снова свернуты с пикселем-2 патча (21x21x256), чтобы получить вторую карту объектов. Этот процесс продолжается для всех пикселей патча (21x21x256), пока мы не получим 441 карту объектов, которая равно количеству пикселей в извлеченной карте объектов. пожалуйста, посмотрите на этот рисунок

person Abbas Khan    schedule 10.01.2020

  1. патч функций из карты функций
  2. пиксель объекта (1*1*c) на картах объектов
  3. характерный пиксель, расположенный на расстоянии o от x1

корреляционный слой в потоковой сети вычисляет патчи из карт объектов (первая карта объектов и вторая карта объектов).

введите здесь описание изображения

чтобы вычислить корреляцию между пикселем объекта x1 и пикселем объекта x2, корреляционный слой вычисляет скалярное произведение между окнами (размер (2k+1,2k+1)), которые центрируют x1 и x2. поэтому они просто делают точечный продукт между элементами в окнах и добавляют их.

person ingeechart    schedule 08.01.2020