DOTA: A Large-scale Dataset for Object Detection in Aerial Images

drone
aerial-robot
detection
dataset
cvpr
cvpr2018

(Curtis Kim) #1

Essence

  • 최근 공개된 가장 큰 항공사진 데이터셋
  • #cvpr #cvpr2018

Contribution

  • 최근 공개된 가장 큰 항공사진 데이터셋
    • 2806 이미지
  • 베이스라인 제공
  • 항공 사진에서의 어려운 점을 설명

Key Ideas

항공 사진은 아래와 같은 어려운 점이 있을 수 있습니다.

  • 물체의 크기의 편차가 클 수 있다.
  • 매우 작은 물체가 군집해 있을 수 있다.
  • 물체의 방향이 지면에 대해 360도 어느 방향이든 가능하다.

15개 레이블/카테고리는 아래와 같습니다.

plane, ship, storage tank, baseball diamond, tennis court, basketball court, ground track field, harbor, bridge, large vehicle, small vehicle, helicopter, roundabout, soccer ball field and basketball court.

Annotation은 일반적인 Detection과 조금 다르게, 위 사진처럼 각도 정보를 포함하기 위하여 4개의 좌표로 변경했습니다. Heading(물체가 향하는 방향)의 왼쪽 코너부터 시계방향으로 4개의 점을 찍는 방식입니다.

이미지 사이즈는 800px - 4000px 수준으로 다양합니다. 대신 Spartial Resolution Information이라는 정보를 주는데,
이는 실제 항공 사진을 취득할 때 카메라의 높이 정보입니다. 이 정보를 이용하면 유사한 높이에서 촬영한 것처럼 Normalization할 수 있을 것으로 기대되며, 다른 용도로도 활용할 수 있을 것 같습니다. 또 다른 디텍션 데이터셋들에 대비해서 작은 물체의 비율이 많다는 점도 특징입니다.

논문에서 Baseline으로 실험한 모델들은 아래와 같습니다.

  • Faster R-CNN
  • R-FCN
  • YOLOv2
  • SSD

일반적인 Detection처럼 Horizontal Bounding Box로 문제를 풀면 위와 같은 결과를 얻습니다. 물체 크기가 작아 2-stage Detector들이 더 좋은 성능을 내는 것을 확인할 수 있습니다. Faster RCNN이 가장 높은 성능으로 보고했습니다.

Oriented Bounding Box의 경우에 가장 성능이 높았던 Faster RCNN을 변경하여 실험한 결과입니다. FR-O를 제외하고는 모두 Horizontal Bounding Box를 Oriented GT Box와 비교한 것이라 성능이 낮게 나온 것임을 염두에 두어야 합니다.

실제로 저자 코드를 확인해보니 이미지를 일괄적으로 1024x1024로 리사이즈하고, Spatial Resolution Information을 사용하지 않았는데, 이 부분에서 성능개선을 많이할 수 있을 것으로 기대합니다.