1. Улучшение настройки визуальных подсказок для трансформеров машинного зрения с самостоятельным контролем (arXiv)

Автор: Сын Рён Ю, Ынджи Ким, Дахуин Чон, Чонбом Ли, Сонгро Юн.

Аннотация: Настройка визуальной подсказки (VPT) — это эффективный метод настройки для адаптации предварительно обученных преобразователей зрительного восприятия (ViT) к последующим задачам. Он использует дополнительные обучаемые токены, известные как подсказки, которые управляют замороженными предварительно обученными ViT. Несмотря на то, что VPT продемонстрировал свою применимость с трансформаторами машинного зрения с наблюдением, он часто уступает преобразователям с автоматическим наблюдением. На основе эмпирических наблюдений мы пришли к выводу, что эффективность VPT во многом зависит от блоков ViT, с которыми взаимодействуют токены подсказок. В частности, VPT демонстрирует улучшенную производительность при выполнении задач классификации изображений для MAE и MoCo v3, когда маркеры подсказок вставляются в более поздние блоки, а не в первый блок. Эти наблюдения позволяют предположить, что существует оптимальное расположение блоков для вставки токенов подсказок. К сожалению, определение оптимальных блоков для подсказок в каждом самоконтролируемом ViT для различных будущих сценариев является дорогостоящим процессом. Чтобы смягчить эту проблему, мы предлагаем простой, но эффективный метод, который изучает шлюз для каждого блока ViT, чтобы настроить его вмешательство в токены приглашения. В нашем методе на токены подсказок выборочно влияют блоки, которые требуют управления для адаптации к задаче. Наш метод превосходит варианты VPT в классификации изображений FGVC и VTAB и семантической сегментации ADE20K. Код доступен по адресу https://github.com/ryongithub/GatedPromptTuning.

2. Подробные визуальные подсказки (arXiv)

Автор: Линфэн Ян, Юэцзе Ван, Сян Ли, Синьлун Ван, Цзянь Ян.

Аннотация: Модели визуального языка (VLM), такие как CLIP, продемонстрировали впечатляющие возможности передачи нулевого кадра в визуальном восприятии на уровне изображения. Однако эти модели показали ограниченную производительность в задачах уровня экземпляра, требующих точной локализации и распознавания. В предыдущих работах предполагалось, что включение визуальных подсказок, таких как цветные прямоугольники или круги, может улучшить способность моделей распознавать интересующие объекты. Тем не менее, по сравнению с языковыми подсказками, дизайн визуальных подсказок исследуется редко. Существующие подходы, которые используют грубые визуальные подсказки, такие как цветные прямоугольники или круги, часто приводят к неоптимальной производительности из-за включения нерелевантных и зашумленных пикселей. В этой статье мы тщательно изучаем дизайн визуальных подсказок, исследуя более мелкие маркировки, такие как маски сегментации и их варианты. Кроме того, мы представляем новую платформу нулевого выстрела, которая использует аннотации на уровне пикселей, полученные из универсальной модели сегментации, для детальных визуальных подсказок. Следовательно, наше исследование показывает, что прямое применение размытия за пределами целевой маски, называемое обратной маской размытия, демонстрирует исключительную эффективность. Эта предлагаемая стратегия подсказки использует точные аннотации маски, чтобы уменьшить фокус на слабо связанных областях, сохраняя при этом пространственную согласованность между целью и окружающим фоном. Наша детальная визуальная подсказка (FGVP) демонстрирует превосходную производительность при нулевом понимании ссылочных выражений в тестах RefCOCO, RefCOCO+ и RefCOCOg. Он превосходит предыдущие методы со средним запасом от 3,0% до 4,6% с максимальным улучшением на 12,5% в подмножестве RefCOCO+ testA. Эксперименты по обнаружению деталей, проведенные в наборе данных PACO, еще раз подтверждают превосходство FGVP над существующими методами визуального подсказывания. Код и модели будут доступны.