Pelee: A Real-Time Object Detection System on Mobile Devices

detection
singleshot-detector
imagenet
2018
convolutional
iclr2018

(Curtis Kim) #1

Network Backbone과 Detection 구조 제안하는 논문으로, 모바일에서 realtime을 달성했다고 합니다. Yolo v2 보다 빠르면서 성능도 더 높습니다.

들어가기에 앞서,

Depthwise Separable Convolution은 효과적인 구현이 많은 프레임워크에서 제공되지 않고 있다. + 성능 하락에 영향을 미친다.

라는 문제를 제기합니다. Mobilenet 이나 Mobilenet v2 그리고 Xception 등의 모델에서 효율성을 이유로 Depthwise Separable Convolution을 사용하는데, 이 논문에서는 일반적인 Convolution 만 사용한 것이 특징입니다.

기본적으로는 Densenet 구조를 따르고 있습니다.

  • Imagenet Top-1 Accuracy : 71.3% (+0.6% mobilenet)
  • 66% Size of mobilenet
  • SSD 와의 결합으로 Object Detection역시, 23FPS (Iphone8) 달성

Architecture

1번의 Stem Block 이후에 4번의 Feature Extractor로 이루어져 있는 구조입니다. Feature Extractor 각 Stage는 Dense Layer와 Transition Layer로 이루어져 있습니다.

즉 Stem Block으로 초반에 효과적인 Feature 선별과 사이즈를 줄이는 과정을 거치고, 이후에는 2-way dense layer로 feature를 뽑으면서 중간중간에 Transition layer를 이용해서 계속해서 size를 줄이는 방식입니다.

Experiments

Dataset 구성이 조금 특이한데, Stanford Dogs&Cats 데이터셋과 동일한 구조이지만 ImageNet 데이터를 이용해 데이터 수를 늘린 형태입니다.

DenseNet-41 구조로부터 PeleeNet으로 오면서 성능이 올라가는 모습입니다.

다른 모델과 비교했을 때, 매우 적은 연산으로 굉장히 높은 성능을 달성했음을 주장합니다.

이미지넷 전체에 대해서도 VGG , Mobilenet , Shufflenet 등과 비교해서 더 좋은 성능과 더 적은 연산양을 보입니다.

VOC 2007, COCO 디텍션 데이터셋에서도 다른 Realtime Detector 대비 우수한 성능을 보입니다.

iOS 의 CoreML을 이용해 효과적인 구현을 한 경우 위와 같이 realtime에 준하는 성능을 보입니다.

일단, 기본적으로 YOLO v2 그리고 Mobilenet 대비 우수한 성능, 즉 SSD 에 준하는 성능을 보이는 매우 효과적인 모델이므로, 사용하게 될 경우가 많은 아키텍쳐로 보입니다.


'Network Compression' Outline
'Object Detection' Outline