Visual grounding 관련 논문 세미나를 몇 개 했다. Visual grounding 은 결국 text description이 지칭하는 object를 localization 하는 task이다. 이 localization 방법에 따라 REC, RES로 나뉜다. 우리가 익히 아는 bounding box로 detection을 하면 REC(Referring Expression Comprehension), mask로 segmentation을 하면 RES(Referring Expression Segmentation)이다.
딥러닝 분야는 워낙 빠르게 성장했고 또 빠르게 변화하는 필드라 그런지 비슷한 task에 대해 여러가지 이름이 붙는다. 가령 LLaVA나 Gemini, DeepSeek 이런 것들이 MLLM으로도 불리고 LVLM으로도 불리는 것 처럼 말이다. 정말 하나로 좀 통일했으면 좋겠다.
최근에 RES 의 데이터셋을 정리할 일이 있어서 잠깐 정리해보았다.
참고로 Referring segmentation분야는 One expression, One object를 기본 전제로 하고 있다. 즉, 하나의 문장이 하나의 객체를 지칭하고 있다는 것. 이 한계를 지적하며 나온 GRES도 있긴 하다.
RefCOCO/RefCOCO+/RefCOCOg
RefCOCO: 절대적인 위치(왼쪽, 오른쪽), 색상 정보 포함 (e.g. The man on the left, Blue shirt)
- Train/Val/Test
- Test A: 사람(People) 객체 중심 이미지만 포함
- Test B: 사람이 아닌 일반 사물(Objects) 중심의 이미지만 포함
RefCOCO+: 객체의 외형적 특성이나 속성(Attribute) 위주로 묘사 (e.g. The man wearing glasses, Cat sitting on the sofa)
- 절대적인 위치 표현, 색상 표현 금지
- Test A, Test B 존재
RefCOCOg: 객체 간의 관계나 복잡한 상황 묘사 많이 포함 (e.g. A zebra grazing specifically in the middle of other zebras)
- RefCOCO/RefCOCO+ 보다 문장 길이가 훨씬 길고, 문법적으로 완성된 문장이 많음
RefCOCO 예시
같은 이미지여도 filename이 분리가 되어있고 각각의 file에 대해 가리키는 객체는 하나임
![]() |
COCO_train2014_000000580957_4.jpg |
| [ "bowl behind the others can only see part", "Dish in top right corner", "White dish in the top right corner.", "white pot upper right corner" ] → 오른쪽 맨 위에 있는 그릇 일부를 가리킴 |
|
![]() |
COCO_train2014_000000580957_2.jpg |
| [ "front bowl w/carrots in it", "bowl of carrots", "bowl of carrots", "carrots" ] → 한 가운데 당근이 담긴 그릇을 가리킴 |
Others
ReasonSeg
- LISA(Reasoning Segmentation via Large Language Model, CVPR’24)에서 제안
- 명시적인 객체 이름 대신 논리적 설명이 주어짐
- the person who appears to have already won in the battle

Flickr30
Visual Genome
- PhraseCut 논문에서 제안
- 한 image 당 평균적으로 50개의 region description 존재
- description은 object, relationship, attribute 포함
'인공지능 > 컴퓨터비전' 카테고리의 다른 글
| SAM 3 사용해보기: 자유롭게 텍스트로 마스크를 얻어보자 (1) | 2025.12.04 |
|---|---|
| [논문 리뷰] DASC: Dense Adaptive Self-Correlation Descriptor for Multi-modal and Multi-spectral Correspondence (CVPR'15) (5) | 2025.08.14 |
| 비디오 영상 생성 모델(Video generation AI) 평가 방법 (0) | 2025.05.19 |
| segmentation metric 중 aAcc pAcc mAcc 차이 + mIoU (0) | 2025.03.10 |
| [논문 리뷰] CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor (0) | 2025.02.20 |

