CREST: Convolutional Residual Learning for Visual Tracking

iccv
iccv2017
2017

#1

DCF 를 Residual이 포함되어있는 1-layer Convolution Layer로 변경하여 실험한 논문입니다. Residual을 사용하지 않은 비슷한 모델로는 UCT 가 있습니다.

전체적안 아키텍쳐는 위와 같습니다. 현재 프레임(Search Frame)은 CNN을 거쳐서 Feature가 나오고, 이 Feature가 1-Layer Convolution Layer를 거쳐서 Response Map을 출력하게 됩니다.

이 때, 현재 프레임은 Spatial Residual 이라는 이름으로 Residual Connection을 하나 만들고, 첫번째 프레임(Target)의 피쳐로 부터는 Temporal Residual 이라는 이름으로 Residual Connection을 하나 추가합니다.

즉 위와 같이, 1-Layer Conv. 외에 현재 프레임과, 첫번째 프레임의 피쳐로부터 Residual을 2개 추가한다는 뜻입니다.

최종적으로 아웃풋은

와 같은 형태로, Base, Spatial Residual, Temporal Residual의 합으로 이루어지게 됩니다. 논문에서는, Residual이 미치는 영향은 작긴 하지만, deformation이 큰 경우에 stable한 결과를 준다고 주장합니다.

모델 업데이트는 온라인에서 주기적으로 Backprop으로 이루어집니다. Scale Estimation(크기 추정)은 네트워크에 여러 스케일을 보내서, 가장 높은 Score의 Response Map을 출력하는 경우를 선택하는 방식이니 조금 비효율적인 부분이네요.

OTB에서는 #sota 에 준하는 성능, VOT에서는 다소 떨어지는 성능을 보입니다. Residual의 영향을 따로 자세히 분석한 부분이 없는 것 같아서 아쉽습니다.


UCT: Learning Unified Convolutional Networks for Real-Time Visual Tracking
'Object Tracking' 카테고리의 설명