Краткое содержание:
- В статье исследуются преимущества использования 3D-оценки и отслеживания позы человека для распознавания действий человека в видео.
- В большинстве предшествующих работ используется «эйлеровский» подход к рассмотрению фиксированных точек пространства во времени. В этой статье предлагается «лагранжев» подход к отслеживанию траектории движения человека во времени для распознавания действий.
- Авторы используют современный 3D-оценщик поз человека (HMR) и трекер (PHALP) для получения 3D-поз и треклетов для людей в видео.
- Они предлагают модель на основе трансформатора под названием LART, которая использует треклеты людей в качестве входных данных и предсказывает действия людей.
- Эксперименты с набором данных AVA показывают, что их модель, основанная только на позах, превосходит предыдущие методы, основанные на позах, на 8,2 mAP. Сочетание функций позы и контекстного внешнего вида еще больше повышает производительность, превосходя современные на 2,8 мАд.
- Показанные основные преимущества: моделирование траекторий во времени, интеграция взаимодействия нескольких человек, объединение функций позы и внешнего вида в лагранжевой структуре.
- Ограничения: полагаться на внешний оценщик позы, простое слияние позы и внешнего вида, отсутствие явного моделирования объектов.
- Главный вывод: отслеживание людей в 3D и моделирование траекторий во времени дает полезные сигналы для распознавания сложных человеческих действий, выходящих за рамки фиксированного пространственно-временного моделирования.
Таким образом, эта статья демонстрирует ценность использования современной 3D-оценки позы и отслеживания для распознавания действий человека. Показано, что лагранжева точка зрения на отслеживание траекторий сущностей во времени превосходит доминирующие эйлеровы подходы. Существуют возможности для дальнейших улучшений за счет улучшения оценки позы, моделирования внешнего вида и взаимодействия с объектами.
раскрытие информации: Автор использует ИИ для создания черновиков резюме.
