본문 바로가기

인공지능/컴퓨터비전

Visual Grounding 벤치마크 데이터셋 (RefCOCO/RefCOCO+/RefCOCOg 등)

Visual grounding 관련 논문 세미나를 몇 개 했다. Visual grounding 은 결국 text description이 지칭하는 object를 localization 하는 task이다. 이 localization 방법에 따라 REC, RES로 나뉜다. 우리가 익히 아는 bounding box로 detection을 하면 REC(Referring Expression Comprehension), mask로 segmentation을 하면 RES(Referring Expression Segmentation)이다.

딥러닝 분야는 워낙 빠르게 성장했고 또 빠르게 변화하는 필드라 그런지 비슷한 task에 대해 여러가지 이름이 붙는다. 가령 LLaVA나 Gemini, DeepSeek 이런 것들이 MLLM으로도 불리고 LVLM으로도 불리는 것 처럼 말이다. 정말 하나로 좀 통일했으면 좋겠다. 

최근에 RES 의 데이터셋을 정리할 일이 있어서 잠깐 정리해보았다. 

참고로 Referring segmentation분야는 One expression, One object를 기본 전제로 하고 있다. 즉, 하나의 문장이 하나의 객체를 지칭하고 있다는 것. 이 한계를 지적하며 나온 GRES도 있긴 하다.

RefCOCO/RefCOCO+/RefCOCOg

RefCOCO: 절대적인 위치(왼쪽, 오른쪽), 색상 정보 포함 (e.g. The man on the left, Blue shirt)

  • Train/Val/Test
  • Test A: 사람(People) 객체 중심 이미지만 포함
  • Test B: 사람이 아닌 일반 사물(Objects) 중심의 이미지만 포함

RefCOCO+: 객체의 외형적 특성이나 속성(Attribute) 위주로 묘사 (e.g. The man wearing glasses, Cat sitting on the sofa)

  • 절대적인 위치 표현, 색상 표현 금지
  • Test A, Test B 존재

RefCOCOg: 객체 간의 관계나 복잡한 상황 묘사 많이 포함 (e.g. A zebra grazing specifically in the middle of other zebras)

  • RefCOCO/RefCOCO+ 보다 문장 길이가 훨씬 길고, 문법적으로 완성된 문장이 많음

RefCOCO 예시

같은 이미지여도 filename이 분리가 되어있고 각각의 file에 대해 가리키는 객체는 하나임

COCO_train2014_000000580957_4.jpg
[ "bowl behind the others can only see part", "Dish in top right corner", "White dish in the top right corner.", "white pot upper right corner" ]


→ 오른쪽 맨 위에 있는 그릇 일부를 가리킴
COCO_train2014_000000580957_2.jpg
[ "front bowl w/carrots in it", "bowl of carrots", "bowl of carrots", "carrots" ]

→ 한 가운데 당근이 담긴 그릇을 가리킴

 

Others

ReasonSeg

  • LISA(Reasoning Segmentation via Large Language Model, CVPR’24)에서 제안
  • 명시적인 객체 이름 대신 논리적 설명이 주어짐
  • the person who appears to have already won in the battle

Flickr30

Visual Genome

  • PhraseCut 논문에서 제안
  • 한 image 당 평균적으로 50개의 region description 존재
  • description은 object, relationship, attribute 포함