본문 바로가기

인공지능/컴퓨터비전

(8)
비디오 영상 생성 모델(Video generation AI) 평가 방법 1. 픽셀, 저수준 품질 지표MSE / PSNRMSE (Mean Squared Error)원본 프레임 $x$와 생성 프레임 $\hat x$의 화소별 차이를 제곱해 평균한 값. 값이 작을수록 원본과 유사하다는 뜻이지만, 지각적 품질과는 반드시 상관관계가 높지 않음$$ \mathrm{MSE} = \frac{1}{N}\sum_{i=1}^N (x_i - \hat x_i)^2 $$PSNR (Peak Signal-to-Noise Ratio)MSE를 로그 스케일로 변환한 지표로, 높을수록(보통 20–40 dB 범위) 원본과의 차이가 적음을 의미dB: 데시벨PSNR이 20 dB라면 “최댓값²이 MSE보다 100배 크다(10²)”는 의미40 dB면 “10 000배 크다(10⁴)”는 뜻$$ \mathrm{PSNR} = 1..
segmentation metric 중 aAcc pAcc mAcc 차이 + mIoU aAcc / pAcc (전체 정확도, Global Accuracy):전체 이미지의 모든 픽셀 중 올바르게 분류된 픽셀의 비율을 나타냄.즉, 클래스의 픽셀 수에 관계없이 전체 픽셀 단위로 평가mAcc (클래스별 평균 정확도, Mean Accuracy):각 클래스별로 올바르게 분류된 픽셀의 비율을 계산하여 평균을 구함따라서 각 클래스의 성능을 개별적으로 평가하여, 픽셀 수가 적은 클래스도 공평하게 반영함이 차이 때문에 클래스 간 픽셀 수의 불균형이 있을 경우 aAcc는 주로 픽셀 수가 많은 클래스에 의해 높게 나타날 수 있고, mAcc는 모든 클래스를 균등하게 고려하므로 상대적으로 낮게 나타날 수 있음예를 들어 아래와 같은 결과가 나왔을 때,aAcc: 45.49 mIoU: 24.48 mAcc: 46.05결과..
[논문 리뷰] CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Training-free open-vocabulary segmentationRNN과 유사한 구조를 도입하여, text와 mask간의 정합성을 점진적으로 개선하는 방식을 탐구https://arxiv.org/abs/2312.07661 CLIP as RNN: Segment Countless Visual Concepts without Training EndeavorExisting open-vocabulary image segmentation methods require a fine-tuning step on mask labels and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in s..
[논문 리뷰] Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation RIM(Relation-aware Intra-modal Matching) 논문은 Open-Vocabulary Semantic Segmentation(OVS) 문제를 해결하기 위해 기존의 Text-to-Image 매칭 방식이 아닌 Image-to-Image 매칭을 활용하는 방법을 연구https://arxiv.org/abs/2404.00262 Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic SegmentationOpen-vocabulary semantic segmentation (OVS) aims to segment images of arbitrary categories specified ..
[논문 리뷰] ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation CLIP은 text로부터 주어진 visual concept 인지는 잘하지만 localization ability가 떨어짐VFMs(e.g. DINO, SAM, etc.)는 공간적으로 일관성 있는 local visual representation 을 얻을 수 있으나 semantic understanding이 떨어짐ProxyCLIP은 이 둘의 강점을 조합해보겠다는 것. 어떻게?VFMs의 spatial feature correspondence를 CLIP의 proxy attention 으로 사용.일관성있는 결과를 위해 adaptive normalization과 masking strategy를 제안함URL: https://arxiv.org/abs/2408.04883 ProxyCLIP: Proxy Attention ..
[논문 리뷰] DDP: Diffusion Model for Dense Visual Prediction Abstractconditional diffusion pipeline에 기초한 dense visual prediction을 위한 framework제시noise-to-map; progressively removing noise from a random Gaussian noise, guided by imagewithout task-specific design and architecture customizationAttractive properties: dynamic inference & uncertainty awarenessCityscapes val에서 83.9 mIoU (24.07.15 기준 #19)IntroductionDense prediction tasks의 중요성컴퓨터 비전 연구의 기초로, 의미적 분..
[논문 리뷰] Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion Segment Anything과 같은 mask 생성기를 Stable Diffusion의 attention map 만으로 Training 과정없이 해보겠다.https://arxiv.org/abs/2308.12469 Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable DiffusionProducing quality segmentation masks for images is a fundamental problem in computer vision. Recent research has explored large-scale supervised training to enable zero-shot segmentation on v..
[논문 리뷰] Zero-Shot Edge Detection with SCEASME: Spectral Clustering-based Ensemble for Segment Anything Model Estimation Segment Anything을 Edge detection에 활용해보겠다🕵️‍♀️https://github.com/ymgw55/SCESAME GitHub - ymgw55/SCESAME: Zero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model EsZero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model Estimation - ymgw55/SCESAMEgithub.comhttps://arxiv.org/abs/2308.13779 📌 기존 연구의 문제점SCESAM..