(EAST) Learning Policies for Adaptive Tracking with Deep Feature Cascades

iccv
iccv2017
2017
siamese

(Curtis Kim) #1

Siamese 구조를 가졌다는 점에서는 기존의 SiamFC 류와 유사합니다. 다른 점은, Conv Layer중 어떤 레벨(depth)의 Feature를 사용할 것인지와 Target Object의 Scale 크기를 Reinforcement Learning Agent가 결정한다는 것입니다.

Q-Net의 존재만 제외하면 SiamFC와 거의 동일합니다. 2개의 이미지(Target-첫번째프레임, Search-현재프레임) 동일한 CNN으로부터 Feature를 뽑아내고, 이를 Cross-Correlation Layer를 통해 Score Map을 취득하는 형태입니다.

이 논문에서는 추가로 Q-Net을 삽입하였습니다. Q-Net은 RL Agent인데, 각 레이어를 한단계 한단계 올라갈 때마다, action을 출력합니다. Q-Net은 각 레이어에서의 ScoreMap과 Action History를 인풋으로 받습니다. IoU를 Reward로 합니다.

  • Stop : 지금 Layer에서 멈추고, 현재 Feature의 결과로 최종 결과를 출력함
  • Scaling Actions : 박스 크기를 조절하고 다음 Layer에서 추가적으로 연산하라

위의 예제처럼, C1부터 시작해서 각 Action을 수행하며 상위 레이어로 올라가고, Stop Action이 출력되면 최종 결과로 내뱉습니다. 대략 평균적으로 2.1 레이어에서 멈춘다고 합니다.

Hard Example이 있는 위치에서 더 많은 연산을 사용합니다.

EAST-Pixel 대비, EAST_last(무조건 마지막 Conv Layer까지 사용)하는 버전이 약간 성능은 높지만 속도가 3배 정도 느려지는 결과가 있으므로 비효율적이라고 주장합니다.

  • EAST_th : RL 대신에 threshold로 feedforward를 결정하는 휴리스틱 모델
  • EAST_ch : confidence history 제외
  • EAST_ah : action history 제외

VOT15 에서도 속도 대비 favorably 좋은 성능을 보여줍니다.

트래킹하는 대부분의 시점에서 트래킹이 매우 쉽기 때문에, RL Agent를 통해 효율성을 높인 논문이라고 요약할 수 있겠습니다.


'Object Tracking' 카테고리의 설명