Impression Network for Video Object Detection

detection
video
2017
sota

#1

Deep Feature Flow와 FGFA 논문에서 얻은 두 아이디어를 합쳐 Video Detection 모델을 제시했습니다.

  • Deep Feature Flow : 비디오에서는 이전 프레임의 피쳐를 재활용함으로써 "속도"를 높일 수 있다.
  • FGFA : 이전 프레임의 피쳐를 Aggregation 함으로써 "성능"을 높일 수 있다.

Deep Feature Flow가 속도 향상을 한 이유는 피쳐는 키 프레임마다만 뽑고, 나머지 프레임에 대해서는 추정하는 방식으로 재활용을 했기 때문입니다. FGFA가 성능 향상이 된 이유는 현재 이미지 프레임에서 얻기 어려운 정보를 기존 프레임에서 가져왔기 때문입니다. Impression Network는 그 두가지 방법을 잘 융합해서, 기존 프레임 피쳐를 재활용하는데 속도와 성능 면에서 모두 향상되도록 하였습니다.

위 두 논문에서 언급되는 반복적인 내용은 생략하고, 차이점만 설명하겠습니다.

Architecture

Deep Feature Flow와 동일하게, Key frame 마다 피쳐를 생성하고, 나머지 프레임에 대해서는 Feature Flow를 통해 추정합니다. 즉, Key Frame에서 얻은 Feature 는 Non-Key Frame에서는 Deep Feature Flow와 동일한 방식으로 추정된 Feature를 N_{task} 네트워크에 입력으로 넣어서 결과를 얻습니다.

그런데, Deep Feature Flow에서는 Key Frame마다 Feature를 생성하되, 그 이전 Key Frame에서 데이터를 가져오지는 않았습니다. FGFA는 반면에, 이전 프레임에서 얻은 피쳐를 현재 프레임에서도 사용하도록 Weight Sum을 함으로써 현재 프레임에서 얻기 어려운 정보까지 얻으려고 노력합니다. 이 부분은 이 논문에서는 Impression Feature라는 이름으로 부르며, 이를 Key Frame 마다 전달해주도록 설계했습니다.

Deep Feature Flow에서와 동일하게 FlowNet을 사용했습니다.

Feature Aggregation

FGFA와 거의 유사하지만, 조금 다른 점은 아래입니다.

  • Key Frame 사이에서만 Feature를 전달한다.
  • 전달할 때, N_q 라는 position-wise weight map을 이용해서 합치는데, 이 또한 작은 네트워크를 통해 생성한다.
  • 합쳐지기 전 Feature f_i 와 합쳐진 이후 Feature f_i^{task} 를 g 라는 상수 값으로 weight average한 것이 Impression Feature f_i^{imp} 이며, 이 Feature를 다음 키 프레임에 전달한다. f_i^{imp} = (1-g) \cdot f_i + g \cdot f_i^{task}

즉, N_q 는 현재 키 프레임에서 얻은 Feature와 이전 Impression Feature 사이에 어떤 가중치로 합을 해야하는가를 나타내는 Weight Map이며, g는 현재 프레임으로만 얻은 Feature와 과거 Feature까지 합쳐진 데이터 사이에 어떤 가중치로 다음 Impression을 전달해야하는가를 나타내는 상수입니다.

현재 프레임에서 정보를 부족하게 얻었다면, 이는 기존 Impression으로부터 충족될 것이고, 반대의 경우에는 Impression에 좋은 정보가 쌓여가게 될 것입니다.

Training

트레이닝은 임의의 3장의 이미지를 추출하여 진행합니다. 2장의 이미지로는 Impression을 만들고, 1장의 이미지는 Feature Flow만으로부터 Detection을 수행하게하여, End-to-end로 학습합니다. 이 때 이미지 3장은 연속되지 않은, 일정 범위 내에 있는 3장을 선별하도록 했습니다만, 이는 실제로 impression이 누적되는 것은 아니므로, 일종의 approximation으로 볼 수 있습니다. 기타 사항들은 FGFA나 DFF와 유사합니다.

Results

image

Sparse Feature를 통해 속도가 향상되고(3배), Impression과 Quality-aware weight map 등을 통해 성능이 향상됨을 확인할 수 있습니다.

image

기존 FGFA 대비 속도 향상이 많이 이루어지고, 유사한 성능입니다. FGFA는 Feature Flow를 통해 성능향상을 꾀했는데, 속도가 느려지는 단점이 있었고, 이 논문은 속도를 손해보지 않고 유사한 성능을 내었다는 점을 강조하는 것 같습니다.

기존 DFF 대비해서 속도와 성능에 대한 리포트입니다. 속도 향상에 주안점을 둔 DFF 대비해서도 동일 속도에서 더 빠른 성능임을 강조합니다.


'Object Detection' Outline
(FlowTrack) End-to-end Flow Correlation Tracking with Spatial-temporal Attention