(SA-Siam) A Twofold Siamese Network for Real-Time Object Tracking

cvpr
cvpr2018
tracking
singleshot-tracking
convolutional
siamese

#1

SiameseFC의 변형으로 성능 향상을 이루어낸 모델입니다. 크게 2개의 네트워크의 앙상블로 볼 수 있습니다.

  • Appearance Branch : SiameseFC와 동일한 네트워크입니다. '모양’만 보고 동일한 부분을 찾아주는 네트워크입니다.
  • Semantic Branch : Alexnet 등 Imagenet으로 학습된 모델을 사용합니다. '내용’을 좀 더 보면서 동일한 부분을 찾아주는 네트워크입니다.

Introduction

SiamFC는 모양만 보고 유사한 위치를 찾는 Similarity Learning을 통해 Tracking을 합니다. 따라서 모습이 급격히 변하는 상황에서 성능이 떨어질 수 있습니다. 이 부분이 개선점의 주요한 부분입니다.

Architecture

A-Net(Appearance)는 SiamFC와 동일하며, 추가된 부분은 S-Net(Semantic) 입니다.

S-Net이 A-Net 대비 다른 점은 아래와 같습니다.

  • 이미지넷으로 pretrain된 모델을 가져다가, weight를 고정하고 사용한다. 고정하지 않으면 두 브랜치가 더욱 비슷해질 것이므로, 그렇게 하지 않았다.
  • fusion module을 삽입해서 pretrain된 모델에서 나온 feature가 tracking score map으로 변환될 수 있도록 한다. 이 때 1x1 Convolution을 사용했다.
  • Channel Attention을 추가했다. 각 채널별 Weight \epsilon 을 attention weight로 사용한다.

이렇게 두 네트워크로부터 출력된 각각의 Score Map은 Weighted Average를 통해 하나로 합쳐집니다.

A-Net과 S-Net은 각각 따로 학습되었으며, 이는 한쪽의 영향력이 너무 큰 특정 데이터들에 Fitting되는 것을 방지하기 위함이라고 밝히고 있습니다.

Channel Attention

Semantic Feature는 더 일반화된(General) feature라고 볼 수 있지만, discriminative하지 않다고 밝히고 있습니다. 의미 상 비슷한 물체가 여러개 존재한다면, 그것들을 구분해내는 능력이 상대적으로 떨어질 수 있다는 점입니다. 이 부분을 개선하기 위해서 Channel Attention을 추가했다고 밝힙니다. 이를 통해서 타겟의 변화에 대한 적응력이 더 높아진다고 밝히고 있습니다.

S-Net feature에 네트워크를 추가로 달아서 Attention Weight를 출력하도록 설계했고, Context까지 보기 위해서 전체 이미지에 대해 사용했습니다. 또 Target에 대해서만 Attention을 추가했습니다.

Results

A-Net과 S-Net 각각의 성능은 유사하나, 두 브랜치를 합치고, Attention 등의 테크닉이 들어가면서 성능이 올라가는 것을 확인할 수 있습니다.

기존 SiamFC 대비 성능이 많이 개선되었음을 확인할 수 있습니다.

거의 최고 성능의 Tracker에 준하는 성능이면서, 다른 Realtime Tracker 대비 좋은 성능을 보여줍니다. OTB에서는 다른 realtime tracker대비 성능이 많이 개선되었고 VOT에서는 준하는 성능을 보였습니다.


(RASNet) Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
'Object Tracking' 카테고리의 설명