В нынешнюю эпоху Интернета записывается и распространяется неизмеримое количество мультимедийных данных. Среди них видео - один из самых распространенных и богатых способов обработки, хотя и один из самых дорогих в обработке. Таким образом, алгоритмы для быстрой и точной обработки видео становятся критически важными для реальных приложений. Сегментация видеообъектов, то есть классификация набора пикселей видеопоследовательности на интересующий объект (ы) и фон, входит в число задач, которые, несмотря на наличие множества привлекательных приложений, в настоящее время не могут быть выполнены с удовлетворительным уровнем качества и приемлемым уровнем качества. скорость.

Проблема заключается в моделировании простым и интуитивно понятным, но мощным и неизученным способом. Сегментация видеообъекта формулируется как поиск по пикселям в изученном пространстве встраивания. В идеале в пространстве внедрения пиксели, принадлежащие одному и тому же экземпляру объекта, расположены близко друг к другу, а пиксели от других объектов находятся дальше друг от друга. Модель построена путем изучения полностью сверточной сети (FCN) в качестве модели встраивания с использованием модифицированной потери триплетов, адаптированной для сегментации видеообъектов, где нет четкого соответствия между пикселями.

У этой формулировки есть несколько основных преимуществ: во-первых, предлагаемый метод очень эффективен, поскольку не требует точной настройки времени тестирования и требует только одного прямого прохода через сеть внедрения и поиска ближайшего соседа для обработки каждого кадра. . Во-вторых, этот метод обеспечивает гибкость для поддержки различных типов пользовательского ввода (например, нажатые точки, каракули, маски сегментации и т. Д.) В единой структуре. Более того, процесс встраивания не зависит от ввода данных пользователем. Таким образом, векторы внедрения не нужно пересчитывать при изменении пользовательского ввода, что делает этот метод идеальным для интерактивного сценария.

Интерактивная сегментация видеообъектов. Интерактивная сегментация видеообъектов основана на итеративном взаимодействии с пользователем для сегментации интересующего объекта. Для решения этой задачи было предложено множество методов.

Глубокое метрическое обучение: Ключевая идея глубокого метрического обучения обычно состоит в том, чтобы преобразовать необработанные характеристики с помощью сети, а затем напрямую сравнить образцы в пространстве встраивания. Обычно метрическое обучение выполняется для изучения сходства между изображениями или патчами, а методы, основанные на попиксельном метрическом обучении, ограничены.

Предлагаемая архитектура

Проблема состоит в том, чтобы сформулировать сегментацию видеообъекта как проблему поиска по пикселям, то есть для каждого пикселя в видео мы ищем наиболее похожий опорный пиксель в пространстве встраивания и присваиваем ему такую ​​же метку. Метод состоит из двух этапов:

  1. Сначала вставьте каждый пиксель в d-мерное пространство встраивания с помощью предложенной сети встраивания.
  2. Во-вторых, выполните поиск по пикселям в пространстве для встраивания, чтобы перенести метки на каждый пиксель в соответствии с его ближайшим опорным пикселем.

Пользовательский ввод для точной настройки модели: Первый способ - это точная настройка сети для конкретного объекта на основе пользовательского ввода. Например, такие методы, как OSVOS или MaskTrack позволяют точно настроить сеть во время тестирования на основе ввода данных пользователем. При обработке нового видео им требуется много итераций обучения, чтобы адаптировать модель к конкретному целевому объекту. Этот подход может занять много времени (секунды на последовательность) и, следовательно, непрактичен для приложений реального времени, особенно с человеком в цикле.

Пользовательский ввод как сетевой ввод: Другой способ внедрения пользовательского взаимодействия - использовать его как дополнительный ввод в сеть. Таким образом, во время тестирования обучение не выполняется. Недостатком этих методов является то, что сеть должна быть пересчитана после изменения пользовательского ввода. Это может быть значительный промежуток времени, особенно для видео, учитывая большое количество кадров.

В отличие от двух вышеупомянутых методов, в предлагаемой работе ввод пользователя отделен от сетевых вычислений. Таким образом, прямой проход сети необходимо вычислять только один раз. Единственное вычисление после пользовательского ввода - это поиск ближайшего соседа, который выполняется очень быстро и позволяет быстро реагировать на пользовательский ввод.

Модель внедрения: в предлагаемой модели f, где каждый пиксель x j, i представлен как d -мерный вектор вложения ej, i = f (xj, i). В идеале пиксели, принадлежащие одному и тому же объекту, расположены близко друг к другу в пространстве внедрения, а пиксели, принадлежащие разным объектам, удалены друг от друга. Модель встраивания построена на DeepLab на базе магистральной архитектуры ResNet.

  1. Во-первых, сеть проходит предварительную подготовку к семантической сегментации на COCO.
  2. Во-вторых, последний слой классификации удаляется и заменяется новым сверточным слоем с d выходными каналами.
  3. Затем настройте сеть, чтобы изучить встраивание для сегментации видеообъектов.

Архитектура лаборатории DEEP - это базовый экстрактор признаков и два сверточных слоя в качестве встраиваемой головки. Результирующая сеть является полностью сверточной, поэтому вектор внедрения всех пикселей в кадр может быть получен за один прямой проход. Для изображения размером h × w пикселей на выходе получается тензор [h / 8, w / 8, d], где d - размер пространства вложения. Поскольку FCN используется в качестве модели внедрения, пространственная и временная информация не сохраняется из-за инвариантности трансляции операции свертки. Формально функцию встраивания можно представить как:

где i и j относятся к i-му пикселю в кадре j. Используется модифицированный триплет потерь:

Предлагаемый метод оценивается на наборах данных DAVIS 2016 и DAVIS 2017 как в полууправляемом, так и в интерактивном сценариях. В контексте полууправляемой сегментации видеообъектов (VOS), когда в качестве входных данных предоставляется полная аннотированная маска в первом кадре.

Результат

В данной работе представлен концептуально простой, но очень эффективный метод сегментации видеообъектов. Проблема выражается в поиске по пикселям в пространстве встраивания, полученном с помощью модификации потери триплетов, разработанной специально для сегментации видеообъектов. Таким образом, аннотированные пиксели на видео (с помощью каракулей, сегментации по первой маске, щелчков и т. Д.) Являются эталонными образцами, а остальные пиксели классифицируются с помощью простого и быстрого подхода к ближайшему соседу.

Муниб Уль Хасан