- SG-Shuffle: многоаспектный преобразователь в случайном порядке для создания графа сцены (arXiv)
Автор: Ан Дык Буй, Соён Карен Хан, Джосия Пун.
Аннотация: Генерация графа сцены (SGG) обеспечивает всестороннее представление изображений для человеческого понимания, а также задач визуального понимания. Из-за проблемы смещения длинных хвостов меток объектов и предикатов в доступных аннотированных данных граф сцены, созданный с использованием текущих методологий, может быть смещен в сторону общих, неинформативных меток отношений. Отношения иногда могут быть невзаимоисключающими, которые могут быть описаны с нескольких точек зрения, таких как геометрические отношения или семантические отношения, что еще больше усложняет прогнозирование наиболее подходящей метки отношения. В этой работе мы предложили конвейер SG-Shuffle для генерации графа сцены с 3 компонентами: 1) Parallel Transformer Encoder, который учится предсказывать отношения объектов более исключительным образом, группируя метки отношений в группы аналогичного назначения; 2) Shuffle Transformer, который учится выбирать окончательные метки отношений из характерной для категории функции, созданной на предыдущем шаге; и 3) Взвешенная потеря CE, используемая для устранения систематической ошибки обучения, вызванной несбалансированным набором данных.
2. Изучите контекстную информацию для создания графа 3D-сцены (arXiv)
Автор: Юаньюань Лю, Чэнцзян Лун, Чжаосюань Чжан, Бокай Лю, Цян Чжан, Баокай Инь, Синь Ян.
Аннотация: Генерация 3D-графа сцены (SGG) представляет большой интерес для компьютерного зрения. Хотя точность 3D SGG для грубой классификации и меток с одним отношением постепенно повышалась, производительность существующих работ по-прежнему далека от совершенства для ситуаций с мелкозернистой структурой и несколькими метками. В этой статье мы предлагаем структуру, полностью изучающую контекстную информацию для задачи 3D SGG, которая пытается одновременно удовлетворить требования мелкозернистого класса сущностей, множественных меток отношений и высокой точности. Предлагаемый нами подход состоит из модуля извлечения признаков графа и модуля контекстного рассуждения графа, что обеспечивает надлежащее извлечение признаков избыточности информации, структурированную организацию и иерархический вывод. Наш подход обеспечивает превосходную или конкурентоспособную производительность по сравнению с предыдущими методами в наборе данных 3DSSG, особенно в подзадаче прогнозирования отношений.