1. GaitMAST: обучающая сеть пространственно-временных характеристик с учетом движения для перекрестного распознавания походки(arXiv)

Автор: Цзинци Ли, Цзяци Гао, Юйчжэнь Чжан, Хунмин Шань, Цзюньпин Чжан

Аннотация. Как уникальная биометрическая характеристика, которую можно воспринимать на расстоянии, походка имеет широкое применение для аутентификации человека, социального обеспечения и т. д. Существующие методы распознавания походки уделяют внимание извлечению либо пространственных, либо пространственно-временных представлений. Тем не менее, они почти не рассматривают возможность извлечения различных характеристик движения, фундаментальной характеристики походки, из последовательностей походки. В этой статье мы предлагаем новую сеть обучения пространственно-временным функциям с учетом движения для распознавания походки, называемую GaitMAST, которая может раскрыть потенциал функций с учетом движения. В частности, для поверхностного слоя мы предлагаем двухканальный экстрактор признаков на уровне кадра, в котором один путь извлекает общие пространственно-временные признаки, а другой извлекает существенные признаки движения, фокусируясь на динамических областях. На более глубоких уровнях мы разрабатываем средство извлечения признаков на уровне клипа с двумя ветвями, в котором одно фокусируется на мелкозернистой пространственной информации, а другое — на сохранении деталей движения. Следовательно, наш GaitMAST хорошо сохраняет уникальные модели ходьбы человека, дополнительно повышая надежность пространственно-временных характеристик. Обширные экспериментальные результаты двух широко используемых перекрестных наборов данных о походке демонстрируют превосходную эффективность GaitMAST по сравнению с существующими современными методами. В CASIA-B наша модель достигает средней точности первого ранга 94,1%. В частности, GaitMAST достигает точности 1-го ранга 96,1% и 88,1% в условиях ношения сумки и пальто соответственно, превосходя второе место с большим отрывом и демонстрируя свою устойчивость к пространственным вариациям.

2. Обучение дискриминационным и ортогональным признакам для надежного обнаружения ключевых слов(arXiv)

Автор: Донхён Ким, Кёндык Ко, Дэвид К. Хан, Хансок Ко

Аннотация: Донхён Ким, Кёндык Ко, Дэвид К. Хан, Хансок Ко

Аннотация: обнаружение ключевых слов (KWS) является важным компонентом интеллектуального устройства для оповещения системы, когда пользователь запрашивает команду. Поскольку эти устройства, как правило, ограничены вычислительными и энергетическими ресурсами, модель KWS должна быть разработана с учетом небольшой занимаемой площади. В нашей предыдущей работе мы разработали легкие динамические фильтры, которые извлекают надежную карту признаков в шумной среде. Переменные обучения динамического фильтра совместно оптимизируются с весами KWS с использованием потерь кросс-энтропии (CE). Однако одних только потерь CE недостаточно для высокой производительности при низком SNR. Чтобы обучить сеть более надежной работе в шумных средах, мы вводим потери LOw Variant Orthogonal (LOVO). Потери LOVO состоят из тройных потерь, применяемых на выходе динамического фильтра, ортогональных потерь на основе спектральной нормы и потерь на расстоянии внутреннего класса, применяемых в модели KWS. Эти потери особенно полезны для поощрения сети к извлечению дискриминационных признаков в условиях невидимого шума.

3.Об изучении признаков при наличии ложных корреляций(arXiv)

Автор :Павел Измайлов, Полина Кириченко, Нейт Грувер, Эндрю Гордон Уилсон

Аннотация. Известно, что глубинные классификаторы полагаются на ложные признаки — шаблоны, которые коррелируют с целевыми данными обучения, но не имеют отношения к задаче обучения, например, фон изображения при классификации переднего плана. В этой статье мы оцениваем количество информации об основных (не ложных) функциях, которые могут быть декодированы из представлений, полученных с помощью стандартной минимизации эмпирического риска (ERM) и специализированного группового обучения устойчивости. После недавней работы над глубоким перевзвешиванием признаков (DFR) мы оцениваем представления признаков путем повторного обучения последнего слоя модели на удерживаемом наборе, где ложная корреляция нарушена. В задачах множественного зрения и НЛП мы показываем, что функции, полученные с помощью простой ERM, очень конкурентоспособны с функциями, полученными с помощью специализированных методов групповой устойчивости, направленных на уменьшение эффекта ложных корреляций. Более того, мы показываем, что на качество представлений изученных признаков сильно влияют проектные решения, выходящие за рамки метода обучения, такие как архитектура модели и стратегия предварительного обучения. С другой стороны, мы обнаружили, что сильная регуляризация не является необходимой для изучения высококачественных представлений признаков. Наконец, используя результаты нашего анализа, мы значительно улучшили лучшие результаты, о которых сообщалось в литературе по популярным задачам прогнозирования цвета волос Waterbirds, CelebA и WILDS-FMOW, достигнув 97%, 92% и 50% точности для худшей группы соответственно.