'Object Detection' Outline

outline

(Curtis Kim) #1

Object Detection

  • Classification + Localization
  • 물체의 종류를 구분(classification) 하고 그 위치를 Bounding Box(x, y, width, height) 형태로 찾는(localization) 모델링

Before R-CNN

DPM: Object Detection with Discriminatively TrainedPart Based Models

Selective Search for Object Recognition

Deep Neural Networks for Object Detection

  • #2013 #google #nips #nips2014
  • Single Forward로 여러 Bounding Box까지는 얻었지만, 각 Box의 Class는 또 다른 네트워크를 수행하여 얻었음
  • 즉, 첫번째 단계에서는 Object Box Candidates 만을 찾고, 각 Box에 대해 Classification 수행

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

  • Sliding Window 방식으로 각 Class별로 학습된 Regressor를 반복수행함
  • Class가 늘어나면 Regressor가 비례해서 증가

R-CNN

image

아래의 3가지 단계로 구분되는 Two Stage Detector.

  1. Hypothesize Bounding Boxes
  2. Resampling Pixels / features for each boxes
  3. Classifier / Bounding Box Regressor

(R-CNN) Rich feature hierarchies for accurate object detection and semantic segmentation

(SPPNet) Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

  • #2014

Fast R-CNN

  • #2015 #iccv #iccv2015
  • Object Classification과 Bounding Box Regression을 Neural Network으로 변경해 성능과 속도를 높임.
  • ROI Pooling 제안으로, Feature 계산양을 많이 줄임.
  • 즉, 이미지에 대해 Feature를 얻은 후, 필요한 영역(ROI)의 Feature로 Detection을 처리하는 방식.

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

(OHEM) Training Region-based Object Detectors with Online Hard Example Mining

A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

R-FCN: Object Detection via Region-based Fully Convolutional Networks

  • 2016
  • #nips #nips2016
  • Fully Convolutional Network
  • Heatmap 형태의 Output 출력. Translation에 더 적합한 형태의 모델링.
  • Two Stage Detector의 두번째 Stage를 무시할만한 수준의 연산으로 처리
  • #sota 에 근접한 성능이면서 realtime에 가까운 매우 빠른 속도.

R-FCN-3000 at 30fps: Decoupling Detection and Classification

[Feature Pyramid Networks for Object Detection]


Single-Shot Detector

(YOLO) You Only Look Once: Unifed Real-time Object Detection

PVANet: Lightweight Deep Neural Networks for Real-time Object Detection

YOLO9000: Better, Faster Stronger

  • 2016.12
  • #cvpr #cvpr2017
  • Other reviews in Korean
  • At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster R- CNN with ResNet and SSD while still running significantly faster.

  • 기존 yolo 모델을 개선해 sota를 갱신하고, semi-supervised learning 까지도 확장한 모델

SSD: Single Shot Multibox Detector

DSSD : Deconvolutional Single Shot Detector

Enhancement of SSD by concatenating feature maps for object detection

Context-aware Single-Shot Detector

Feature-Fused SSD: Fast Detection for Small Objects

FSSD: Feature Fusion Single Shot Multibox Detector

Extend the shallow part of Single Shot MultiBox Detector via Convolutional Neural Network

Tiny SSD: A Tiny Single-shot Detection Deep Convolutional Neural Network for Real-time Embedded Object Detection

YOLOv3: An Incremental Improvement

  • 2018
  • YOLOv2 대비 더 나아진 성능, SSD대비 빠르고 효율적.
  • 네트워크 구조를 변경하고 멀티스케일 피쳐를 사용함.

StairNet: Top-Down Semantic Aggregation for Accurate One Shot Detection

Pelee: A Real-Time Object Detection System on Mobile Devices


Video Detection

Seq-NMS

  • #2015
  • 매 프레임별 Detection된 모든 결과를 모아서 결과를 refine하는 휴리스틱 제안.
  • 서로 인접한 프레임의 거의 유사할 것이라는 가정으로 인접한 박스들의 점수를 보정함.

Deep Feature Flow for Video Recognition

  • #2017 #cvpr #cvpr2017
  • 매 프레임에서 Feature를 뽑지 않도록 함으로써 속도를 개선한 논문.
  • Feature를 직접 뽑지 않고, 이전에 뽑은 Feature가 현재 프레임에 맞도록 Optical Flow를 이용해 변환하는 것을 제안함
  • 속도를 많이 빨라지고, 성능 하락은 크지 않음. 다만, 속도가 매 프레임 일정하지는 않음.

Flow-Guided Feature Aggregation for Video Object Detection

  • #2017 #iccv #iccv2017
  • “Deep Feature Flow for Video Recognition” 에서 제안된 Feature Flow로 성능을 향상시킬 수 있도록 feature aggregation하는 것을 제안한 논문.

Impression Network for Video Object Detection

  • #2017 #sensetime
  • SenseTime에서 낸 논문
  • Deep Feature Flow와 FGFA를 합쳐서 속도/성능 향상을 동시에 노림

Mobile Video Object Detection with Temporally-Aware Feature Maps

  • #2018 #google #video #mobile
  • #google 에서 낸 논문.
  • Convolutional LSTM 의 효율적인 제안으로 Mobile을 위한 Online Video Detection 모델 제안

Etc

Soft-NMS – Improving Object Detection With One Line of Code

Learning non-maximum suppression