Visual Grounding 벤치마크 데이터셋 (RefCOCO/RefCOCO+/RefCOCOg 등)

Visual grounding 관련 논문 세미나를 몇 개 했다. Visual grounding 은 결국 text description이 지칭하는 object를 localization 하는 task이다. 이 localization 방법에 따라 REC, RES로 나뉜다. 우리가 익히 아는 bounding box로 detection을 하면 REC(Referring Expression Comprehension), mask로 segmentation을 하면 RES(Referring Expression Segmentation)이다.

딥러닝 분야는 워낙 빠르게 성장했고 또 빠르게 변화하는 필드라 그런지 비슷한 task에 대해 여러가지 이름이 붙는다. 가령 LLaVA나 Gemini, DeepSeek 이런 것들이 MLLM으로도 불리고 LVLM으로도 불리는 것 처럼 말이다. 정말 하나로 좀 통일했으면 좋겠다.

최근에 RES 의 데이터셋을 정리할 일이 있어서 잠깐 정리해보았다.

참고로 Referring segmentation분야는 One expression, One object를 기본 전제로 하고 있다. 즉, 하나의 문장이 하나의 객체를 지칭하고 있다는 것. 이 한계를 지적하며 나온 GRES도 있긴 하다.

RefCOCO/RefCOCO+/RefCOCOg

RefCOCO: 절대적인 위치(왼쪽, 오른쪽), 색상 정보 포함 (e.g. The man on the left, Blue shirt)

Train/Val/Test
Test A: 사람(People) 객체 중심 이미지만 포함
Test B: 사람이 아닌 일반 사물(Objects) 중심의 이미지만 포함

RefCOCO+: 객체의 외형적 특성이나 속성(Attribute) 위주로 묘사 (e.g. The man wearing glasses, Cat sitting on the sofa)

절대적인 위치 표현, 색상 표현 금지
Test A, Test B 존재

RefCOCOg: 객체 간의 관계나 복잡한 상황 묘사 많이 포함 (e.g. A zebra grazing specifically in the middle of other zebras)

RefCOCO/RefCOCO+ 보다 문장 길이가 훨씬 길고, 문법적으로 완성된 문장이 많음

RefCOCO 예시

같은 이미지여도 filename이 분리가 되어있고 각각의 file에 대해 가리키는 객체는 하나임

	COCO_train2014_000000580957_4.jpg
	[ "bowl behind the others can only see part", "Dish in top right corner", "White dish in the top right corner.", "white pot upper right corner" ] → 오른쪽 맨 위에 있는 그릇 일부를 가리킴
	COCO_train2014_000000580957_2.jpg
	[ "front bowl w/carrots in it", "bowl of carrots", "bowl of carrots", "carrots" ] → 한 가운데 당근이 담긴 그릇을 가리킴

Others

ReasonSeg

LISA(Reasoning Segmentation via Large Language Model, CVPR’24)에서 제안
명시적인 객체 이름 대신 논리적 설명이 주어짐
the person who appears to have already won in the battle

Flickr30

Visual Genome

PhraseCut 논문에서 제안
한 image 당 평균적으로 50개의 region description 존재
description은 object, relationship, attribute 포함

저작자표시 비영리 동일조건 (새창열림)

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

SAM 3 사용해보기: 자유롭게 텍스트로 마스크를 얻어보자 (1)	2025.12.04
[논문 리뷰] DASC: Dense Adaptive Self-Correlation Descriptor for Multi-modal and Multi-spectral Correspondence (CVPR'15) (5)	2025.08.14
비디오 영상 생성 모델(Video generation AI) 평가 방법 (0)	2025.05.19
segmentation metric 중 aAcc pAcc mAcc 차이 + mIoU (0)	2025.03.10
[논문 리뷰] CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor (0)	2025.02.20

딥러닝 케미스트리

Visual Grounding 벤치마크 데이터셋 (RefCOCO/RefCOCO+/RefCOCOg 등)

RefCOCO/RefCOCO+/RefCOCOg

RefCOCO 예시

Others

ReasonSeg

Flickr30

Visual Genome

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

티스토리툴바

Visual Grounding 벤치마크 데이터셋 (RefCOCO/RefCOCO+/RefCOCOg 등)

RefCOCO/RefCOCO+/RefCOCOg

RefCOCO 예시

Others

ReasonSeg

Flickr30

Visual Genome

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

'인공지능/컴퓨터비전' Related Articles

티스토리툴바