UCT: Learning Unified Convolutional Networks for Real-Time Visual Tracking

iccv
iccv2017
2017

(Curtis Kim) #1

CNN으로 Tracking하는 논문 중 하나입니다. DCF 대신, Conv. Layer를 이용한다는 점에서 CREST: Convolutional Residual Learning for Visual Tracking 과 유사합니다.

CNN을 통해서 Score Map이 출력되고 Ground Truth와 L2 Loss를 통해 학습되는 구조입니다. 즉, Output을 통해 최신 프레임에서 위치 정보를 얻을 수 있습니다.

또 추가적인 auxilary branch에 의해서 scale을 estimate하도록 되어 있습니다. CREST, 혹은 기존의 방법에서는 멀티 스케일로 여러번 inference를 한 뒤 점수가 가장 높은 것을 선별하도록 했는데, 상대적으로 더 계산량이 적고 효과적인 방법으로 접근했습니다.

또 추가적으로, 현재 object tracking이 어느 정도로 성공적인지를 측정하는 방식을 쓰고 있습니다. PNR과 Response Score Map의 최대값을 기준으로 Threshold를 이용해 구별합니다.

PNR = \dfrac{R_{max}-R_{min}}{mean(R/R_{max})}

위 그림의 예제에서, Target(빨간 박스)이 다른 물체에 의해 가려지는 경우 PNR 점수가 급격하게 떨어지는데, 이런 경우에는 model update를 하지 않겠다는 뜻입니다.

PNR, Scale Estimation 등의 여부에 따라 성능 차이를 볼 수 있습니다. 논문에서 제안한 방식들이 성능에 크고 작게 모두 영향을 줍니다.

2016년 당시 기준으로, 다양한 셋에서 나쁘지 않은 성능, 그리고 상대적으로 빠른 속도를 보여줍니다.


(FlowTrack) End-to-end Flow Correlation Tracking with Spatial-temporal Attention
'Object Tracking' 카테고리의 설명