2024/10/23

SSD 筆記 (Single-Shot Detector)

ref: 和yolov1 一樣,重點在設計最後的 output label.

把 yolov1 的最後 NxN 格換成預先定義好的框
框的大小固定的話,要怎麼fit 到不同大小的 object ?
就把不同大小的 featuremap 來用。

經過 CNN, 和 stride=2 之後的 feature map 會縮小。
在縮小的 feature map 上,同樣大小的眶,框住的比例就變大了。

所以 SSD 會把多個 layer 的 fearture map 拿出來做 CNN, 都做出該層的 框框 location 和 confidence.

好複雜

和 Yolov1 一樣,就是在設計 output label 的解釋和格式,

conv.relu - conv.relu - maxpool - ...

這樣的 network 中的某幾層,讓 stride = 2,output feature map 的 size 就會變 1/2.
(所有的 conv 都會加 padding,讓stride=2 時,output size 不變)

在末端的幾層 feature 做 object detection

沒有留言:

張貼留言