SSD: Single Shot Multibox Detector

google
detection
singleshot-detector
convolutional
eccv
eccv2016

(Curtis Kim) #1

1번의 네트워크 forwarding 만으로 여러 물체를 검출하는 모델입니다. R-CNN류에서 상대적으로 좋은 성능이 나오다가, 이 논문을 통해 Single shot detector로도 충분히 좋은 성능이 나올 수 있다는 것을 보여준 것 같습니다. 특히, 속도가 빠르다보니 실시간 물체 검출에 사용됩니다.

  • YOLO 보다 빠르면서 R-CNN류만큼 정확한 성능
    • SSD : 72.1% mAP @ 58FPS
    • Faster R-CNN : 73.2% mAP @ 7FPS
    • YOLO : 63.4% mAP @ 45FPS
  • 여러 Feature Scale을 잘 사용할 수 있도록 모델링
  • 학습이 쉽도록 각 filter별 역할을 잘 분리시켜, location 정보와 class 정보 등을 출력하도록 함
  • 학습이 쉽도록 각 feature map은 서로 다른 scale을 담당하도록 하고, anchor 설계를 함

Model

Base Network 위에 여러 Convolutional Layer를 쌓아 output size가 점점 작아지는 구조. 이를 통해 "여러 스케일=여러 레이어"라는 가정 하에 네트워크 구조를 설계하였습니다.

각각의 Feature Layer 에서는 Convolutional Filter를 적용해 카테고리별 점수와 default box에 상대적인 offset을 출력해 detection을 하도록 했습니다. YOLO의 경우에는 Conv. Filter가 아닌 Fully Connected Layer를 거쳐 bounding box를 regression했다는 점에서 다릅니다.

또, 각 Feature layer에서 각 셀은 Conv. Filter에 의해 k개의 Box 정보를 출력하게 되는데, 해당 bounding box들은 default box라고 불리는 사전에 정의된 다양한 모양/비율의 bounding box와 가까운 쪽으로 mapping됩니다. 이는 다른 논문에서 anchor box 혹은 prior box라고 부르는 것과 유사합니다. 이 논문에서는 각 feature layer는 서로 다른 크기를, 각 conv. filter는 서로 다른 ratio의 default box에 매핑되게 함으로써 네트워크가 학습에 용이할 수 있도록 설계했다고 할 수 있습니다.

트레이닝 목적식은

image

와 같이 정의되는데, L_{conf} 는 각 bounding box가 갖는 class 정보로 cross entropy로 정의되며, L_{loc} 는 위치 정보로 Smooth L1 Loss 로 정의되어 있습니다.

이 때, 여러 default box와 GT 사이에 Jaccard Overlap이 0.5인 모든 경우에 대해 matching하여 loss를 계산하도록 했습니다. 네트워크가 1개의 정확한 bounding box를 배우도록 강제하기 보다는 매칭이 충분히 잘 된 여러 default box에 대해 loss가 계산되도록 함으로써 학습을 좀 더 쉽게 만들었다고 할 수 있습니다.

추가로, augmentation과 hard negative mining을 적용했다고 합니다.

Base network는 vgg16이며, fc6와 fc7을 conv. layer로 교체해 사용했습니다.

Experiments

VOC2007에서 R-CNN 류와 맞먹는 성능을 보여줍니다. 다만, SSD300을 주의깊게 보면, 작은 물체 검출에 상대적으로 어려움을 겪는다는 것을 알 수 있습니다. 아무래도 작은 물체는 깊이가 깊은 네트워크의 높은 레이어에서 정보가 덜 남을 수 있기 때문인데, input size를 키운 SSD500에서 어느정도 극복은 되었다고 볼 수 있습니다.

VOC2012에서도 비슷한 결과이나 YOLO 대비 SSD가 훨씬 나은 성능임을 볼 수 있습니다.

image

MS COCO 결과입니다.

VOC2007에 대한 성능과 속도에 대한 비교입니다. 속도라는 factor가 들어가는 순간, SSD는 상대적으로 매우 매력적일 수 밖에 없습니다.

Reference & Related Pages

YOLO : http://openresearch.ai/t/yolo-you-only-look-once-unifed-real-time-object-detection


Mobile Video Object Detection with Temporally-Aware Feature Maps
Pelee: A Real-Time Object Detection System on Mobile Devices