Segment Anything을 Edge detection에 활용해보겠다🕵️♀️
https://github.com/ymgw55/SCESAME
GitHub - ymgw55/SCESAME: Zero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model Es
Zero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model Estimation - ymgw55/SCESAME
github.com
https://arxiv.org/abs/2308.13779
📌 기존 연구의 문제점
SCESAME는 Segment Anything Model (SAM)의 Automatic Mask Generation (AMG)을 기반으로 하며, 기존 AMG 기반의 엣지 검출 기법이 가진 다음과 같은 한계를 지적합니다:
- 과도한 엣지 검출 (Over-detection):
- AMG는 이미지를 자동으로 마스크화하는 과정에서 과도하게 많은 마스크를 생성함.
- 이러한 마스크들은 작은 영역까지 포함하여, 배경과 그림자와 같은 불필요한 엣지를 검출하는 문제가 발생함.
- 마스크 중복 및 비효율적인 결합:
- AMG는 서로 중첩되거나 유사한 마스크를 독립적으로 생성함.
- 이로 인해 마스크가 불필요하게 세분화되고, 엣지 검출의 일관성이 떨어짐.
- 경계 아티팩트 (Boundary Artifacts):
- 마스크 경계에서 엣지가 과도하게 강조되는 현상이 발생함.
- 특히 이미지 경계에서 불필요한 엣지 아티팩트가 다수 발생함.
📌 SCESAME의 해결 방안
SCESAME는 위의 문제를 세 단계로 해결합니다:
- 작은 마스크 제거 (Removal of Small Noise Masks):
- AMG가 생성한 마스크를 크기 순서로 정렬한 후, 상위 일부 (top 1/t) 마스크만 유지하는 Top Mask Selection (TMS)을 적용함.
- 이를 통해 작은 노이즈 마스크를 제거하고 과도한 엣지 검출을 완화함.
- 스펙트럼 클러스터링을 이용한 마스크 결합 (Mask Ensemble using Spectral Clustering):
- 크기만 고려하는 기존 필터링 방식을 개선하기 위해 스펙트럼 클러스터링을 사용.
- 마스크의 위치, 중첩 비율을 고려한 affinity matrix를 생성하고, 이를 기반으로 스펙트럼 클러스터링을 수행함.
- 이 과정에서 유사한 마스크를 결합하여 더 큰 의미 있는 마스크를 생성함.
- 경계 아티팩트 제거 (Boundary Artifact Removal):
- 이미지의 경계에서 발생하는 불필요한 아티팩트를 제거하기 위해 Boundary Zero Padding (BZP) 적용.
- 이미지 경계에서 일정 픽셀 내의 값을 0으로 설정하여 경계 아티팩트를 제거함.
📌 SCESAME의 Contribution
SCESAME의 주요 기여점은 다음과 같습니다:
- Zero-shot 엣지 검출의 개선:
- SCESAME는 SAM의 AMG를 활용하면서도 기존보다 더 안정적이고 정확한 엣지 검출을 제공함.
- 스펙트럼 클러스터링 도입:
- 마스크의 위치와 중첩을 고려한 스펙트럼 클러스터링을 최초로 도입하여 마스크 결합 성능을 개선함.
- 효율적인 마스크 필터링:
- Top Mask Selection (TMS)와 Boundary Zero Padding (BZP)를 결합하여 노이즈 제거와 경계 아티팩트 문제를 효과적으로 해결함.
- 단순함과 효과성:
- 복잡한 학습 과정 없이, 기존 SAM을 zero-shot 방식으로 활용함에도 CNN 기반 방법과 유사한 성능을 보임.
📌 SCESAME 모델 프레임워크
SCESAME는 크게 세 단계로 구성됩니다:
- Step 1: Top Mask Selection (TMS)
- 입력 이미지를 대상으로 SAM의 AMG를 사용해 마스크를 생성.
- 마스크를 크기 기준으로 정렬하고, 상위 일부만 유지함.
- Step 2: Spectral Clustering (SC)
- TMS를 거친 마스크들의 중심 좌표와 중첩 비율을 이용해 affinity matrix 생성.
- 스펙트럼 클러스터링을 수행하여 유사한 마스크들을 클러스터링하고 결합.
- Step 3: Boundary Zero Padding (BZP)
- 마스크 경계에서 발생하는 불필요한 엣지 아티팩트를 제거하기 위해 경계 픽셀을 0으로 채움.
📌 SCESAME의 평가 결과
- BSDS500 및 NYUDv2 데이터셋에서 성능을 평가.
- 기존 CNN 기반의 엣지 검출 방법과 비교하여 유사한 수준의 성능을 달성함.
- 특히 BSDS500 데이터셋에서는 인간 수준에 가까운 성능을 보임.