Deep Occlusion Reasoning for Multi-Camera Multi-Target Detection

convolutional
mcmtt

(Leo) #1

Essence

Contribution

  • Multi Camera Multi Target Detection (MCMTD) 을 CNN + CRF 로 해결
  • Crowded 된 환경에서 robust 한 알고리듬을 제안
  • Ground plane 상에 presence probability 을 output 으로 가지는 모델 제시

Idea

멀티 카메라 환경에서 사람이 많을 때 multi-target detection 문제를 다루는 논문입니다. 보통 사람이 많이 들락날락하는 환경에선 occlusion 이 발생하기 쉬운데, 이 논문에선 CNN 과 CRF 를 결합한 모델을 이용하여 해결하는 논문입니다. 본 논문은 WILDTRACK Dataset 에서 detection 과 tracking 에서 우수한 accuracy 성능을 보였습니다. 참고로 MCMTT 에서 발생하는 occlusion 문제를 딥러닝으로 해결하려는 논문은 CVPR 2016 페이퍼인 RCNN-2D/3D 이랑 POM-CNN 이 있습니다. 아래 Figure 1 에서 보이듯이 제안된 방법론이 기존의 RCNN-2D/3D 이나 POM-CNN 에 비해 occlusion 에 강한 모습을 보입니다.

이 논문의 key idea 를 요약하면 아래와 같습니다 (Figure 2 참조)

  • Generative model

  • 카메라 c 에서 관찰된 이미지 I^{c} 를 CNN 인 \mathcal{F}^{c} 를 이용해

  • High-order CRF 를 이용해 잠재적인 occlusion 가능성을 모델링하여 robustness 를 확보

  • 하는 것입니다.

Figure 2 에서 generative model 과 discriminative model 의 역할은 각각 다음과 같습니다

Generative model

Discriminative model

  • \mathcal{F}_{k}^{c} 는 이미지 I^{c} 를 input 으로 받은 CNN 으로 feature vector 를 추출하기 위한 discriminative model 의 역할을 합니다.

우선 이 논문에서 사용하는 기호는 다음과 같습니다. 매우 복잡해서 스킵하고 싶습니다만 일단 수식을 최소 한도로 소개하는게 필요해서 기재합니다 :sweat_smile: (그림은 설명을 위해 제가 그린 그림이에요)

  • c \in \{1,\ldots, C\} : 카메라 index number
  • Z_{i}\in\{ 0, 1 \} : i 번째 location 에서 사람이 있는 경우 1, 없으면 0
  • I^{c} : c 번째 카메라에서 찍힌 2D-RGB 이미지. 사이즈는 H^{c}\times W^{c} 입니다. 이미지 I^{c} 의 픽셀 k=(k_{x}, k_{y}) 는 2차원 원소로서 (k_{x}, k_{y}) = k \in \{1,\ldots, H^{c}\} \times \{1,\ldots, W^{c}\}
  • 카메라 c 에서 i 번째 location 의 human-size 3D-cylinder 의 2D projection 을 포함하는 가장 작은 직사각형이 있을 때 T_{i}^{c} 는 top-left coordinate, B_{i}^{c} 는 bottom-right coordinate
  • L_{k}^{c} : 카메라 c 에서 위에서 언급한 projection 중 픽셀 k 를 포함하는 집합
  • \mathcal{F}^{c} = \mathcal{F}(I^{c} ; \theta_{F}) : RGB 이미지 I^{c} 이 input 이고 \theta_{F} 가 parameter 인 CNN operator
    • output 은 각 픽셀 k 에서 d-차원 벡터로 계산되며 \mathcal{F}_{k}^{c} 로 표기
  • \psi_{\rm{h}}^{c, k} : 카메라 c 에서 이미지의 픽셀 k 에서 계산된 high-order potential.
\begin{aligned} P(Z; I) &= \frac{1}{\mathcal{Z}} \exp \psi_{\rm{h}}(Z ; \mathcal{F}(I ; \theta_{F})) \\ \psi_{\rm{h}}(Z ; F) &= \sum_{\substack{ 1\leq c \leq C \\ k \in \{1,\ldots, H^{c}\} \times \{1, \ldots, W^{c}\}}} \psi_{\rm{h}}^{c, k}(Z ; \mathcal{F}_{k}^{c}) \end{aligned}

작성중…


WILDTRACK: A Multi-camera HD Dataset for Dense Unscripted Pedestrian Detection