Я прошел через пару YOLO
руководств, но мне сложно понять, предопределены ли поля привязки для каждой ячейки, на которую должно быть разделено изображение. В одном из руководств, которые я изучил, изображение было разделено на ячейки 13x13, и в нем говорилось, что каждая ячейка предсказывает 5 якорных ячеек (больше, чем это, хорошо, вот моя первая проблема, потому что он также говорит, что сначала обнаружит, какой объект присутствует в маленькой ячейке, до предсказания ящиков).
Как маленькая ячейка может предсказать якорные боксы для объекта большего размера. Также сказано, что каждая ячейка классифицируется, прежде чем предсказывать свои якорные блоки, как маленькая ячейка может классифицировать в ней нужный объект, не запрашивая соседние ячейки, если только небольшая часть объекта попадает в ячейку
E.g.
скажем, одна из 13 ячеек содержит только белую часть кармана мужчины, одетого в футболку, как эта ячейка может правильно определить присутствие мужчины, не будучи связанной с соседними ячейками? с обычным CNN при попытке локализовать отдельный объект я знаю, что предсказание ограничивающего прямоугольника относится ко всему изображению, поэтому, по крайней мере, я могу сказать, что сеть имеет представление о том, что происходит повсюду на изображении, прежде чем решить, где должен быть прямоугольник.
PS: То, что я сейчас думаю о том, как работает YOLO, заключается в том, что в основном каждой ячейке назначаются заранее определенные блоки привязки с классификатором на каждом конце, прежде чем затем будут выбраны блоки с наивысшими оценками для каждого класса, но я уверен это где-то не складывается.
ОБНОВЛЕНИЕ: ошибся с этим вопросом, он должен был быть о том, как были выбраны обычные ограничивающие прямоугольники, а не якорные / предыдущие прямоугольники. Поэтому я отмечаю ответ
@craq
как правильный, потому что именно так определяются якорные блоки в соответствии с документом YOLO v2.