비디오 영상 생성 모델(Video generation AI) 평가 방법

1. 픽셀, 저수준 품질 지표

MSE / PSNR

MSE (Mean Squared Error)원본 프레임 $x$와 생성 프레임 $\hat x$의 화소별 차이를 제곱해 평균한 값. 값이 작을수록 원본과 유사하다는 뜻이지만, 지각적 품질과는 반드시 상관관계가 높지 않음

$$ \mathrm{MSE} = \frac{1}{N}\sum_{i=1}^N (x_i - \hat x_i)^2 $$

PSNR (Peak Signal-to-Noise Ratio)MSE를 로그 스케일로 변환한 지표로, 높을수록(보통 20–40 dB 범위) 원본과의 차이가 적음을 의미
- dB: 데시벨
  - PSNR이 20 dB라면 “최댓값²이 MSE보다 100배 크다(10²)”는 의미
  - 40 dB면 “10 000배 크다(10⁴)”는 뜻

$$ \mathrm{PSNR} = 10\log_{10}\frac{\mathrm{MAX}^2}{\mathrm{MSE}} $$

2. 분포 및 학습된 특징 기반 지표

FVD: Frechet Video Distance

생성된 비디오와 실제 비디오의 특징 분포 차이를 측정
3D-I3D(Inflated 3D ConvNet)로 특징을 추출한 뒤, 평균과 공분산을 비교

3D-I3D
비디오의 시공간(spatio-temporal) 특징을 효율적으로 학습하기 위해 2D 이미지 분류용 CNN을 3D로 “팽창(inflate)”시킨 아키텍처로 다양한 Video 인식 태스크의 기본 백본 모델로 활용

- 필터 팽창(Inflation): 2D CNN의 $N\times N$ 필터와 풀링 커널을 $N\times N\times N$ 3D 커널로 확장해, 공간뿐 아니라 시간 축의 연속적 정보를 한꺼번에 처리하도록 설계.
- 사전 학습 가속: ImageNet 등 2D 데이터로 학습된 가중치를 3D 필터에 그대로 옮겨 초기화함으로써, 부족한 비디오 레이블 데이터를 보완하고 빠른 수렴을 가능하게 함.
- Two-Stream 구성: RGB 프레임과 optical flow 두 가지 입력 스트림을 병렬로 처리하여, 정적 정보와 동적 모션 정보를 모두 캡처하는 Two-Stream I3D 변형도 널리 사용.

FID(Frechet Inception Distance)의 Video 버전
- 생성 샘플과 실제 샘플의 Inception-V3의 중간 layer 특징을 정규 분포로 가정하고 두 분포간 프레셰 거리(Frechet distance)를 계산. 값이 작을수록(real vs. gen) 분포가 유사
$$ \mathrm{FID} = \|\mu_r - \mu_g\|^2 + \mathrm{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2}) $$

IS: Inception Score

생성된 이미지(또는 비디오 프레임)의 품질과 다양성을 평가
InceptionV3으로 특징을 추출하고 조건부 확률 분포의 엔트로피를 이용해 점수를 산출
1. 생성 샘플을 인셉션으로 분류했을 때 클래스 확률 분포 $p(y|\hat{x})$의 엔트로피는 작고 (선명한 이미지)
2. 전체 $p(y)$의 엔트로피는 커야(다양한 샘플) 좋은 점수

$$ exp(\mathbb{E} [KL(p(y∣\hat{x} )∥p(y))]) $$

3. Perceptual(지각적) 지표

CLIP Score / R-precision

텍스트와 이미지(또는 비디오 프레임)간 의미론 적 유사성 측정
생성된 비디오 또는 프레임을 CLIP 텍스트 인코더와 매칭하여 주어진 프롬프트와의 유사도를 측정
CLIPScore: 코사인 유사도 평균을 계산
R-precision: 올바른 문장/프롬프트가 상위 R개 결과에 포함되는 비율

4. 시간적 일관성 지표

TCM (Temporal Consistency Metric)

개념: 두 연속 프레임 $\hat x_t,\hat x_{t+1}$간의 optical flow 기반 차이가 원본과 유사한지 측정. 값이 작을수록 모션이 원본과 일관

$$ \mathrm{TCM} = \frac{1}{T-1}\sum_t \|\mathrm{Flow}(x_t,x_{t+1}) - \mathrm{Flow}(\hat x_t,\hat x_{t+1})\|_1 $$

tFID / S-VideoFID

FVD 변형으로, 시간별(frames subsequence)로 나누어 개별 FID를 계산한 뒤 평균
모션과 프레임 품질을 동시에 평가

5. 인간 평가 (Human Study)

MOS (Mean Opinion Score): 평가자에게 1–5점 척도로 주관적 품질 점수를 매기도록 함
Pairwise Preference: 두 모델 결과를 A/B 비교하여 선호도를 집계
장점: 객관 지표가 잡아내기 어려운 예술적·창의적 품질도 평가 가능
단점: 비용·시간 소모가 크고, 평가자 편향(bias) 관리가 필요
VBench 기준 평가 항목을 많이 따르는 듯 함: CogVideo-X, Open-Sora Plan

저작자표시 비영리 동일조건 (새창열림)

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

SAM 3 사용해보기: 자유롭게 텍스트로 마스크를 얻어보자 (1)	2025.12.04
[논문 리뷰] DASC: Dense Adaptive Self-Correlation Descriptor for Multi-modal and Multi-spectral Correspondence (CVPR'15) (5)	2025.08.14
segmentation metric 중 aAcc pAcc mAcc 차이 + mIoU (0)	2025.03.10
[논문 리뷰] CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor (0)	2025.02.20
[논문 리뷰] Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation (0)	2025.02.18

딥러닝 케미스트리

비디오 영상 생성 모델(Video generation AI) 평가 방법

1. 픽셀, 저수준 품질 지표

MSE / PSNR

2. 분포 및 학습된 특징 기반 지표

FVD: Frechet Video Distance

IS: Inception Score

3. Perceptual(지각적) 지표

CLIP Score / R-precision

4. 시간적 일관성 지표

TCM (Temporal Consistency Metric)

tFID / S-VideoFID

5. 인간 평가 (Human Study)

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

티스토리툴바

비디오 영상 생성 모델(Video generation AI) 평가 방법

1. 픽셀, 저수준 품질 지표

MSE / PSNR

2. 분포 및 학습된 특징 기반 지표

FVD: Frechet Video Distance

IS: Inception Score

3. Perceptual(지각적) 지표

CLIP Score / R-precision

4. 시간적 일관성 지표

TCM (Temporal Consistency Metric)

tFID / S-VideoFID

5. 인간 평가 (Human Study)

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

'인공지능/컴퓨터비전' Related Articles

티스토리툴바