(MDNet) Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

sota
tracking
convolutional
2015

(Curtis Kim) #1

VOT2015 Challenge에서 1위를 한 Deep Learning 기반의 Object Tracking Network 입니다. Deep Learning 기반의 Object Tracking 이 뾰족하게 잘 제시되던 것이 없었던 중에 새로운 방식을 잘 제안해서 좋은 성능을 냈습니다. 이후의 ADNet : Action Decision Network 논문에도 영향을 주었습니다.

Backgrounds

Deep Learning이 다양한 Vision 문제에 도움을 주었는데 Tracking 분야에는 상대적으로 영향이 적었다.

  • low-level handcraft feature를 사용한 효율적인 알고리즘을 이기기가 쉽지 않았음
  • 최근에는 Imagenet 등으로 pretrain된 네트워크로부터 출발하는데, 근본적으로 트래킹에 대한 레이블이 적은 것은 여전히 문제.
  • 비디오 시퀀스에 대한 단일화 된 표현 방법을 배운다는 것이 쉽지는 않음. 이 문제 때문에 기존의 트래킹 알고리즘들은 밝기 변화, 변형 등에 취약.

MDNet은 공통의 표현방법(representation)과 특정 도메인을 위한 표현 방법(representation)을 나누어 학습

  • 일반적인 피쳐도 배우면서도 도메인에 알맞은 피쳐를 따로 배울 수 있는 구조로 설계
  • 작은 CNN을 사용함
  • 새로운 도메인에 잘 적응되도록 online learning을 시도함

Architecture

3개의 Conv Layer와 2개의 FC 레이어로 이루어져 있습니다. 그 위에 K개의 브랜치가 각각의 도메인에 맞게 나누어져 있습니다. 각 브랜치는 해당 물체인지 아닌지를 판별하는 Binary Classification을 수행합니다.

이렇게 작은 네트워크로 설계한 것은 (1) 트래킹 자체가 타겟과 배경을 구분하는 쉬운 문제이고, (2) 레이어가 많아지면 localization에 상대적으로 취약한 부분도 있고, (3) tracking 대상이 일반적으로 작다는 점, 마지막으로 (4) 온라인 러닝에 더욱 효율적이라는 점에서 장점이 있습니다.

Online Tracking

K개의 브랜치를 없애고 fc를 새로 추가합니다. Weight는 랜덤하게 초기화합니다. 우리가 트래킹하려는 대상(도메인)에 대해서 FC레이어를 Finetune하여 사용합니다. 그리고 아래와 같이 온라인으로 수집된 데이터를 온라인 학습에 사용합니다.

  • Long Term : 일정 주기로 얻어진 sample로 학습
  • Short Term : 트래킹이 실패할 때마다 짧은 시간 내에 모아진 데이터로 학습

이 때 negative sample은 짧은 시간 내에 모아진 것들만 사용하는데, 이는 negative sample이 시간이 오래되면 훨씬 상관없는 데이터가 많기 때문이라고 합니다. 상식적으로도 이해되는 부분입니다.

또, negative sample은 Hard Example Mining으로 선별하는데, 이는 얻어진 sample 들 중 positive로 점수가 높은 것들을 모은 것을 말합니다. detection 등에서 주로 사용하던 기법과 비슷합니다.

마지막으로 네트워크로 얻어진 Bounding Box는 Bounding Box Regression을 추가해 더 정밀하게 조정하도록 되어 있습니다.

Experiments

OTB 데이터에 대한 실험 결과입입니다. 빨간 색이 MDNet인데, 압도적입니다.

트래킹 특성 별 성능인데 역시 압도적입니다.

MDNET-BB : BoundingBox Regression 없는 버전
SDNET : 멀티도메인 정보 없이 Single 도메인으로만 학습한 버전
MDNET-BB-HM : Hard negative mining과 Box Regression 없는 버전

약간의 성능차는 있지만, 기본적으로 onling training 하는 제안된 구조가 강력한 성능의 기반을 마련했음을 알 수 있습니다.

VOT 데이터에서도 역시 좋은 성능을 보고했습니다.

Conclusion

딥러닝을 이용해 아주 효과적이고 성능 좋은 방식을 제안했다는 점에서 의의가 있습니다. 이후의 연구들이 MDNet의 아이디어를 많이 따를 것이라고 생각합니다. (ADNet) Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 이라는 논문에서도 이 아이디어를 발전시켰는데, 재미있습니다.


(MGNet) Online object tracking via motion-guided convolutional neural network
'Object Tracking' 카테고리의 설명