Seq-NMS for Video Object Detection

2015

#1

이미지 CNN으로 Detection한 결과를 시간 순서라는 정보를 이용해 잘 합치겠다는 컨셉의 논문입니다.

실시간으로 처리하는 것은 아니고, 이미지 전체에 대해서 각 프레임 별로 Detection 결과를 얻은 후, 최종적으로 적용하는 방식을 제안합니다. 단순 적용만으로 수 %의 정확도 향상이 있었습니다.

Sequence Selection : 여러 프레임에서 얻어진 Bounding Box, Score 정보가 Input 입니다. 얻어진 각 Box들은 다음 프레임, 그리고 그 다다음 프레임과 IoU가 0.5 이상인 경우 그림처럼 연결되는 그래프를 형성하게 됩니다. 즉, 인접한 두 비디오 프레임은 거의 비슷할테니, iou 역시도 높은 것들은 같은 물체일거라는 일종의 휴리스틱입니다.

이렇게 형성된 그래프를 끊기지 않게 이으면서 점수의 합이 최대가 되도록 각 프레임 별로 Box를 선별합니다. 그러면 위 그림의 까만색 개의 경우 가장 오른쪽처럼, 선별되게 됩니다.

Sequence Re-scoring : 이렇게 선별된 Box들끼리는 동일한 점수를 공유하도록 보정하는데, 이때 평균값을 사용하거나, 최대값, 혹은 기타 다른 방식으로 동일한 점수로 보정합니다.

Suppression : 이후에 보통의 방식과 유사하게 Suppression을 처리하며, 더이상 처리할 것이 없을떄까지 반복합니다.

즉, 이 논문은 Sequence Selection, Re-scoring, Suppression의 3단계로 이루어진 후처리 휴리스틱을 제안합니다. 이러한 방식을 통해 Weaker Detection의 Score를 보정함으로써 전체적인 향상을 이루어낸다고 주장합니다.

이미지 프레임 별 NMS 대비, 향상된 결과를 보여줍니다.


'Object Detection' Outline