1. 픽셀, 저수준 품질 지표
MSE / PSNR
- MSE (Mean Squared Error)원본 프레임 $x$와 생성 프레임 $\hat x$의 화소별 차이를 제곱해 평균한 값. 값이 작을수록 원본과 유사하다는 뜻이지만, 지각적 품질과는 반드시 상관관계가 높지 않음
$$ \mathrm{MSE} = \frac{1}{N}\sum_{i=1}^N (x_i - \hat x_i)^2 $$
- PSNR (Peak Signal-to-Noise Ratio)MSE를 로그 스케일로 변환한 지표로, 높을수록(보통 20–40 dB 범위) 원본과의 차이가 적음을 의미
- dB: 데시벨
- PSNR이 20 dB라면 “최댓값²이 MSE보다 100배 크다(10²)”는 의미
- 40 dB면 “10 000배 크다(10⁴)”는 뜻
- dB: 데시벨
$$ \mathrm{PSNR} = 10\log_{10}\frac{\mathrm{MAX}^2}{\mathrm{MSE}} $$
2. 분포 및 학습된 특징 기반 지표
FVD: Frechet Video Distance
- 생성된 비디오와 실제 비디오의 특징 분포 차이를 측정
- 3D-I3D(Inflated 3D ConvNet)로 특징을 추출한 뒤, 평균과 공분산을 비교
3D-I3D
비디오의 시공간(spatio-temporal) 특징을 효율적으로 학습하기 위해 2D 이미지 분류용 CNN을 3D로 “팽창(inflate)”시킨 아키텍처로 다양한 Video 인식 태스크의 기본 백본 모델로 활용
- 필터 팽창(Inflation): 2D CNN의 $N\times N$ 필터와 풀링 커널을 $N\times N\times N$ 3D 커널로 확장해, 공간뿐 아니라 시간 축의 연속적 정보를 한꺼번에 처리하도록 설계.
- 사전 학습 가속: ImageNet 등 2D 데이터로 학습된 가중치를 3D 필터에 그대로 옮겨 초기화함으로써, 부족한 비디오 레이블 데이터를 보완하고 빠른 수렴을 가능하게 함.
- Two-Stream 구성: RGB 프레임과 optical flow 두 가지 입력 스트림을 병렬로 처리하여, 정적 정보와 동적 모션 정보를 모두 캡처하는 Two-Stream I3D 변형도 널리 사용.
- FID(Frechet Inception Distance)의 Video 버전
- 생성 샘플과 실제 샘플의 Inception-V3의 중간 layer 특징을 정규 분포로 가정하고 두 분포간 프레셰 거리(Frechet distance)를 계산. 값이 작을수록(real vs. gen) 분포가 유사
IS: Inception Score
- 생성된 이미지(또는 비디오 프레임)의 품질과 다양성을 평가
- InceptionV3으로 특징을 추출하고 조건부 확률 분포의 엔트로피를 이용해 점수를 산출
- 생성 샘플을 인셉션으로 분류했을 때 클래스 확률 분포 $p(y|\hat{x})$의 엔트로피는 작고 (선명한 이미지)
- 전체 $p(y)$의 엔트로피는 커야(다양한 샘플) 좋은 점수
$$ exp(\mathbb{E} [KL(p(y∣\hat{x} )∥p(y))]) $$
3. Perceptual(지각적) 지표
CLIP Score / R-precision
- 텍스트와 이미지(또는 비디오 프레임)간 의미론 적 유사성 측정
- 생성된 비디오 또는 프레임을 CLIP 텍스트 인코더와 매칭하여 주어진 프롬프트와의 유사도를 측정
- CLIPScore: 코사인 유사도 평균을 계산
- R-precision: 올바른 문장/프롬프트가 상위 R개 결과에 포함되는 비율
4. 시간적 일관성 지표
TCM (Temporal Consistency Metric)
- 개념: 두 연속 프레임 $\hat x_t,\hat x_{t+1}$간의 optical flow 기반 차이가 원본과 유사한지 측정. 값이 작을수록 모션이 원본과 일관
$$ \mathrm{TCM} = \frac{1}{T-1}\sum_t \|\mathrm{Flow}(x_t,x_{t+1}) - \mathrm{Flow}(\hat x_t,\hat x_{t+1})\|_1 $$
tFID / S-VideoFID
- FVD 변형으로, 시간별(frames subsequence)로 나누어 개별 FID를 계산한 뒤 평균
- 모션과 프레임 품질을 동시에 평가
5. 인간 평가 (Human Study)
- MOS (Mean Opinion Score): 평가자에게 1–5점 척도로 주관적 품질 점수를 매기도록 함
- Pairwise Preference: 두 모델 결과를 A/B 비교하여 선호도를 집계
- 장점: 객관 지표가 잡아내기 어려운 예술적·창의적 품질도 평가 가능
- 단점: 비용·시간 소모가 크고, 평가자 편향(bias) 관리가 필요
- VBench 기준 평가 항목을 많이 따르는 듯 함: CogVideo-X, Open-Sora Plan


