Кластеризация, локализация тегов, идентификация ключевых моментов и важные подходы

В связи с огромным ростом количества видео в Интернете становится действительно трудно эффективно искать среди миллионов из них. При поиске по запросу о событии пользователи часто удивляются огромному количеству видео, возвращаемых такими поисковыми системами, как Google. Изучение таких результатов может занять много времени, а также может ухудшить взаимодействие с пользователем.

Поэтому мы обсудим способы автоматизации этого процесса с помощью методов резюмирования видео на основе машинного обучения.

Определение обобщения видео

« Обобщение видео - это процесс преобразования необработанного видео в более компактную форму без потери большого количества информации .

- Определение взято из исследовательской работы Обобщение видео через семантические обслуживаемые сети Шанхайского университета Цзяо Тонг.

Обобщение видео помогает пользователям перемещаться по большой последовательности видео и находить те, которые наиболее соответствуют запросу.

В общей системе обобщения видео извлекаются особенности изображения видеокадров, а затем выбираются наиболее репрезентативные кадры посредством анализа визуальных вариаций среди визуальных характеристик.

Это делается либо путем получения целостного обзора всего видео, либо путем определения локальных различий между соседними кадрами. Большинство этих попыток основываются на глобальных функциях, таких как цвет, текстура, информация о движении и т. Д. Для обобщения также используются методы кластеризации.

Обобщение видео можно разделить на две формы:

  1. Статическое резюмирование видео (ключевые кадры) и
  2. Динамическое резюмирование видео (просмотр видео)

Статические сводки видео состоят из набора ключевых кадров, извлеченных из исходного видео, в то время как динамические сводки видео состоят из набора кадров и создаются с учетом сходства или специфичных для предметной области отношений между всеми кадрами видео.

Одним из преимуществ просмотра видео по сравнению с набором ключевых кадров является возможность включать в себя элементы звука и движения, которые потенциально улучшают как выразительность, так и объем информации, передаваемой сводкой. Кроме того, просмотр беглого кадра зачастую интереснее и интереснее, чем слайд-шоу с ключевыми кадрами.

С другой стороны, наборы ключевых кадров не ограничены какими-либо проблемами синхронизации или синхронизации, и поэтому они предлагают гораздо большую гибкость с точки зрения организации для целей просмотра и навигации по сравнению со строгим последовательным отображением фрагментов видео.

Новейшие достижения в области глубокого обучения - из источника, которому можно доверять. Подпишитесь на еженедельное погружение во все, что связано с глубоким обучением, подготовленное экспертами, работающими в этой области.

Методы обобщения видео

Обобщение тематических видео

Цифровое видео содержит множество функций, таких как цвет, движение, голос и т. Д. Эти методы хорошо работают, если пользователь хочет сосредоточиться на особенностях видео. Например, если пользователь хочет видеть цветовые особенности, то лучше выбрать технику резюмирования видео на основе цвета.

Методы обобщения видео на основе характеристик классифицируются на основе движения, цвета, динамического содержимого, жестов, аудиовизуальных материалов, стенограмм речи, объектов и т. Д.

Если вы хотите узнать больше об этой технике, нажмите здесь.

Обобщение видео с помощью кластеризации

Кластеризация - это наиболее часто используемый метод, когда мы сталкиваемся с похожими характеристиками или действиями в пределах кадра. Это также помогает исключить те кадры, которые имеют нерегулярные тенденции. Другие методы резюмирования видео позволяют более эффективно просматривать видео, но также создают слишком длинные или запутанные сводки. Обобщение видео на основе кластеризации подразделяется на аналогичные действия, K-средние, разделенную кластеризацию и спектральную кластеризацию.

Если вы хотите узнать больше об этой технике, нажмите здесь.

Подход к локализации тегов и ключевой идентификации

В Интернете доступны миллионы видео с обширными метаданными, такими как заголовки, комментарии и теги. Поэтому в последнее время были предприняты усилия по поиску или изучению информации тегов веб-видео.

В частности, существует схема, которая обогащает информацию тегов видео YouTube, исследуя их избыточность, например перекрывающийся или дублированный контент. Они строят граф для набора видео, и теги из избыточных видео могут быть переданы в целевое видео через структуры графа.

Модель набора экземпляров используется для выполнения локализации тегов (примечание: математика, лежащая в основе этого, выходит за рамки этой статьи). Кроме того, идентификация ключевого кадра выполняется на основе предположения, что видео обычно появляются в результатах поиска несколько раз.

Следовательно, такого рода идентификация может быть достигнута путем обнаружения почти дублирования, то есть выполнения обнаружения почти дублирования с использованием пар ключевых кадров, извлеченных из различных веб-видео. Поскольку почти повторяющиеся ключевые кадры обычно имеют небольшую разницу, метод на основе кластеризации может использоваться для ускорения процесса идентификации ключевого кадра.

Если вы хотите узнать больше об этой технике, нажмите здесь.

Модель мешка важности

Видео можно рассматривать как набор взвешенных характеристик вместо одинаково важных. Модель BoI предоставляет механизм для использования как межкадровых, так и внутрикадровых свойств путем количественной оценки важности отдельных функций, представляющих все видео.

Таким образом, репрезентативные кадры могут быть идентифицированы путем агрегирования взвешенных характеристик. Вполне разумно предположить, что видеопоследовательность в необработанном пространстве функций представляет собой плотное многообразие. Чтобы удалить избыточные визуальные элементы, необходимо проецировать видеопоследовательность в разреженное пространство низкой размерности. Метод линейного кодирования с локальными ограничениями предоставляет такой механизм, который может использовать преимущества геометрической структуры многообразия для изучения нелинейной функции в многомерном пространстве / многообразии и локально внедрять точки на многообразии в пространство более низкой размерности, выраженное как координаты относительно набора опорных точек.

Подробнее об этой теме рассказывается в данной статье.

Заключение

Эти методы - только начало новой эры в технологии глубокого обучения, когда дело касается резюмирования видео. В ближайшем будущем будет сделано много усовершенствований для создания и оптимизации лучших резюме на основе аудитории, средства доставки и цели резюмирования. Совместными усилиями всей отрасли мы сделаем обобщение видео масштабируемым, надежным и невероятно эффективным.

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Являясь независимой редакцией, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее создавать лучшие модели машинного обучения.