본문 바로가기

인공지능

(10)
비디오 영상 생성 모델(Video generation AI) 평가 방법 1. 픽셀, 저수준 품질 지표MSE / PSNRMSE (Mean Squared Error)원본 프레임 $x$와 생성 프레임 $\hat x$의 화소별 차이를 제곱해 평균한 값. 값이 작을수록 원본과 유사하다는 뜻이지만, 지각적 품질과는 반드시 상관관계가 높지 않음$$ \mathrm{MSE} = \frac{1}{N}\sum_{i=1}^N (x_i - \hat x_i)^2 $$PSNR (Peak Signal-to-Noise Ratio)MSE를 로그 스케일로 변환한 지표로, 높을수록(보통 20–40 dB 범위) 원본과의 차이가 적음을 의미dB: 데시벨PSNR이 20 dB라면 “최댓값²이 MSE보다 100배 크다(10²)”는 의미40 dB면 “10 000배 크다(10⁴)”는 뜻$$ \mathrm{PSNR} = 1..
pymanopt 는 어떤 라이브러리인가? 매니폴드란? 📌 pymanopt란?pymanopt는 Riemannian Manifold Optimization (리만 매니폴드 최적화)을 위한 Python 라이브러리입니다.즉, 일반적인 유클리드 공간이 아닌 manifold 위에서의 최적화를 수행하는 데 사용됩니다.✅ 주요 기능:manifold 기반 최적화: 유클리드 공간에서 벗어나 매니폴드 위에서 최적화 가능자동 미분 지원: autograd, PyTorch, TensorFlow, JAX 등과 연동 가능여러 최적화 알고리즘 제공: Steepest Descent, Conjugate Gradient, Trust Regions 등 지원다양한 다양체 제공: Stiefel, Grassmann, Sphere 등 다양한 공간을 모델링 가능 📌 매니폴드(Manifold)란?1️..
Spectral Graph Theory | Adjacency Matrix의 거듭제곱의 의미 Question어떤 그래프 $G(V, E)$의 adjacency matrix는 $n×n$ matrix $A = [a_{i,j}]$이다.$$a_{i, j} = \begin{cases} 1, & \text{if } v_i, v_j  \in E(G) \\ 0, & \text{otherwise} \end{cases}$$ 이러한 행렬이 있을 때 이 행렬의 거듭제곱의 의미는 무엇인지 설명해 보시오. 즉 $A_k$ 에서 $a^{(k)}_{i, j}= p$는 무슨 의미인지 설명하시오. Answer$a^{(k)}_{i, j}= p$ 는 정점 $v_i$에서 정점 $v_j$까지 정확히 k 길이의 경로(path)가 p개 존재한다는 의미입니다.그래프 G의 인접행렬 A를 거듭제곱했을 때, $A^k$의 $(i, j)$ 원소(즉 $..
segmentation metric 중 aAcc pAcc mAcc 차이 + mIoU aAcc / pAcc (전체 정확도, Global Accuracy):전체 이미지의 모든 픽셀 중 올바르게 분류된 픽셀의 비율을 나타냄.즉, 클래스의 픽셀 수에 관계없이 전체 픽셀 단위로 평가mAcc (클래스별 평균 정확도, Mean Accuracy):각 클래스별로 올바르게 분류된 픽셀의 비율을 계산하여 평균을 구함따라서 각 클래스의 성능을 개별적으로 평가하여, 픽셀 수가 적은 클래스도 공평하게 반영함이 차이 때문에 클래스 간 픽셀 수의 불균형이 있을 경우 aAcc는 주로 픽셀 수가 많은 클래스에 의해 높게 나타날 수 있고, mAcc는 모든 클래스를 균등하게 고려하므로 상대적으로 낮게 나타날 수 있음예를 들어 아래와 같은 결과가 나왔을 때,aAcc: 45.49 mIoU: 24.48 mAcc: 46.05결과..
[논문 리뷰] CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Training-free open-vocabulary segmentationRNN과 유사한 구조를 도입하여, text와 mask간의 정합성을 점진적으로 개선하는 방식을 탐구https://arxiv.org/abs/2312.07661 CLIP as RNN: Segment Countless Visual Concepts without Training EndeavorExisting open-vocabulary image segmentation methods require a fine-tuning step on mask labels and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in s..
[논문 리뷰] Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation RIM(Relation-aware Intra-modal Matching) 논문은 Open-Vocabulary Semantic Segmentation(OVS) 문제를 해결하기 위해 기존의 Text-to-Image 매칭 방식이 아닌 Image-to-Image 매칭을 활용하는 방법을 연구https://arxiv.org/abs/2404.00262 Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic SegmentationOpen-vocabulary semantic segmentation (OVS) aims to segment images of arbitrary categories specified ..
[논문 리뷰] ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation CLIP은 text로부터 주어진 visual concept 인지는 잘하지만 localization ability가 떨어짐VFMs(e.g. DINO, SAM, etc.)는 공간적으로 일관성 있는 local visual representation 을 얻을 수 있으나 semantic understanding이 떨어짐ProxyCLIP은 이 둘의 강점을 조합해보겠다는 것. 어떻게?VFMs의 spatial feature correspondence를 CLIP의 proxy attention 으로 사용.일관성있는 결과를 위해 adaptive normalization과 masking strategy를 제안함URL: https://arxiv.org/abs/2408.04883 ProxyCLIP: Proxy Attention ..
[논문 리뷰] DDP: Diffusion Model for Dense Visual Prediction Abstractconditional diffusion pipeline에 기초한 dense visual prediction을 위한 framework제시noise-to-map; progressively removing noise from a random Gaussian noise, guided by imagewithout task-specific design and architecture customizationAttractive properties: dynamic inference & uncertainty awarenessCityscapes val에서 83.9 mIoU (24.07.15 기준 #19)IntroductionDense prediction tasks의 중요성컴퓨터 비전 연구의 기초로, 의미적 분..