Я только начинаю разбираться в CNN и компьютерном зрении, поэтому я начал исследовать алгоритмы обнаружения объектов, я прочитал статью для Yolov1 и пытаюсь реализовать код с нуля, используя тензорный поток (я знаю, что это будет сложно, но я чувствую, что таким образом узнаю больше), однако у меня есть вопрос относительно формата обучающих данных.
Согласно YOLOv1, если я пытаюсь распознать, скажем, 3 изображения, маркировка должна выглядеть примерно так:
[Objectness,x,y,W,H,c1,c2,c3]
Где c1, c2, c3 представляют количество классов, в данном случае 3 (например, человек, велосипед, автомобиль) и Объектность представляет уверенность в том, что объект существует 1, если он есть, и 0, если его нет...
Используя приведенное выше изображение в качестве справки, нужно ли мне также помечать все пустые ячейки для этого конкретного изображения?
1st cell, there is no object here = [0,?,?,?,?,?,?,?]
2nd cell, there is no object here = [0,?,?,?,?,?,?,?]
3rd cell, there is no object here = [0,?,?,?,?,?,?,?]
4th cell, there is a black car here = [1,x,y,W,G,0,0,1]
5th cell, there is no object here = [0,?,?,?,?,?,?,?]
6th cell, there is a silver car here = [1,x,y,W,G,0,0,1]
7th cell, there is no object here = [0,?,?,?,?,?,?,?]
8th cell, there is no object here = [0,?,?,?,?,?,?,?]
9th cell, there is no object here = [0,?,?,?,?,?,?,?]
Или просто 2 метки, где содержатся объекты
4th cell, there is a black car here = [1,x,y,W,G,0,0,1]
6th cell, there is a silver car here = [1,x,y,W,G,0,0,1]