(RASNet) Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking

cvpr
cvpr2018
tracking
singleshot-tracking
convolutional
siamese

(Curtis Kim) #1

SiamFC의 또다른 변형 중 하나입니다. 주로 Attention을 이용해서 성능을 높이려는 시도가 있었습니다.

SiamFC는 offline training만 하고, online training은 하지 않습니다. 따라서 타겟을 실시간으로 추적함에 있어서 변화에 적응하는 것이 상대적으로 취약합니다. 이 논문은 이러한 단점을 Attention Mechanism을 통해 해결하려고 시도합니다.

Architecture

SiamFC와 유사하지만 Target Image로 부터 뽑아내는 추가적인 정보가 있습니다. 바로 Attention 정보입니다. 이 Attention 정보는 Correlation할 때 최종적으로 사용되며, 이를 위해서 몇가지 Attention을 사용합니다.

Dual Attention = Global Attention + Residual Attention

이미지 내에서 어느 위치가 중요한지를 판별하는 Attention에 대한 것입니다. 이를 단지 대다수의 이미지에서 얻어진 Global Attention과, 특정 이미지로부터 얻은 Residual Attention으로 나눈 것 뿐입니다.

Residual Attention을 위해서, Hour Glass 형태의 Network를 사용했는데, 이는 주로 #cnn:human-pose-estimation#cnn:segmentation 에서 사용되던 아키텍쳐로, Input과 동일한(혹은 비슷한) 크기의 Output map을 출력하는데 자주 사용되는 방식입니다.

Channel Attention

단순한 Network 구조를 이용해서 채널별 Weight를 출력하게 하여, Attention을 줍니다.

Loss

SiamFC와 유사하나 Loss에 일종의 Weight Term이 추가됩니다.

여기에서 \Omega 는 이미지 pair i, j 가 가까울 수록 더 높은 점수를 주도록 설계되었다고 보시면 됩니다.

위와 같은 예제에서 랜덤하게 이미지 쌍을 추출하면, 1과 4 이미지는 트레이닝에 있어서 좋은 경우는 아닌데, 이는 4번 이미지가 완전히 가려져 있기 때문입니다. 이런 경우에 대해 학습 가중치를 떨어트린다고 이해할 수 있습니다.

Results

VOT 2018에서 4위, Real Time 분야에서는 1위입니다. SA-Siam 대비해서도 VOT2015, VOT2017에서 더 나은 성능입니다.


'Object Tracking' 카테고리의 설명