본문 바로가기
논문리뷰/기초

[논문리뷰] Denoising Diffusion Probabilistic Models (DDPM)

by 헤이즐넛 좋아하는 개발자 2024. 8. 15.

시작하기 전에

해당 논문은 2020년 12월에 NIPS에서 발행된 논문이다.

(수식이 많은 관계로 핸드폰으로 보기엔 힘들 수 있습니다)

 

Link

논문: https://arxiv.org/pdf/2006.11239

코드: https://github.com/hojonathanho/diffusion


I. Introduction

Figure 1

DDPM이 할 수 있는 것?

이 논문은 Diffusion model의 기초다. Diffusion model은 쉽게 말해, 온전한 이미지(\(x_{0}\))에 Gaussian noise를 추가하는 과정을 반복해 균일한 분포의 이미지(\(x_{T}\))로 변환하고, denoise하는 과정을 반복해 다시 이미지를 생성하게 된다. Denoise하는 과정만 보면 균일한 분포의 이미지, 즉 입력 이미지 없이도 원하는 이미지를 생성할 수 있다.

이 논문의 의의는 Diffusion model의 기초라는 점과 Loss를 굉장히 간단하게 줄였음에 있다. 뒤에 수식 전개가 많이 나올 텐데 길을 잃지 않도록 이 의의를 가지고 가자.


II. Background

Diffusion model에 대해 수식과 함께 알아보자.


Reverse process

Denoise하는 과정이다. 즉, 균일한 분포의 이미지(\(x_{T}\))에서부터 이미지(\(x_{0}\))로 가는 과정이며, 기호로 나타내면 \(p_{\theta}\left(x_{0:T}\right)\)이다. 또한 이미지 \(x_{T}\)가 균일한 분포라는 것은 \(p\left(x_{T}\right) = N\left(x_{T};0,I\right)\) 이러한 정규분포로 이루어져 있음을 의미한다.

 

수식

$$ p_{\theta}\left(x_{0:T}\right) := p\left(x_{T}\right)\prod_{t=1}^{T}p_{\theta}\left(x_{t-1}|x_{t}\right) \tag{1} $$

\(p\left(x_{T}\right)\)부터 \(p_{\theta}\left(x_{t-1}|x_{t}\right)\), denoise를 반복해서 \(p_{\theta}\left(x_{0:T}\right)\)로 도달한다.

 

$$ p_{\theta}\left(x_{t-1}|x_{t}\right) := N\left(x_{t-1};\mu_{\theta}\left(x_{t},t\right)\Sigma_{\theta}\left(x_{t},t\right)\right) \tag{2} $$

각 denoise 과정에서 가우시안 형태로 이루어진다.

 

※ \(x_{0:T}\) 쓰는 이유?

더보기

※ \(p_{\theta}\left(x_{0:T}\right)\)에서 \(x_{0:T}\) 쓰는 이유?

\(p_{\theta}\left(x_{0}\right)\)는, 중간 과정이 어떻게 되는지 신경쓰지 않고 \(x_{0}\)라는 이미지로 도달할 확률이다.

\(p_{\theta}\left(x_{0:T}\right)\)라고 해야 중간 과정이 \(x_{T}\), \(x_{T-1}\), ...를 거쳐 \(x_{0}\) 이미지에 도달했을 때의 확률이 되는 것이다.


Forward process

가우시안 형태의 noise를 추가하는 과정이다. 첫 번째 수식에 해당한다.

 

수식

$$ q\left(x_{1:T}|x_{0}\right) := \prod_{t=1}^{T}q\left(x_{t}|x_{t-1}\right) \tag{3} $$

 

$$ q\left(x_{t}|x_{t-1}\right) := N\left(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}I\right) \tag{4} $$

Noise가 가우시안 형태인 것까지는 이해했고 평균과 분산이 저렇게 나오는 이유를 알아보자.

위 수식의 우항은 이렇게 풀어쓸 수 있다.

$$ x_{t} = \sqrt{1-\beta_{t}}x_{t-1} + \sqrt{\beta_{t}}\epsilon $$

이전 이미지 \(x_{t-1}\)의 비율을 일부로 줄이고 나머지 부분에 일정량의 noise \(\epsilon\)를 더하는 것이다. 또한 \(\sqrt{1-\beta_{t}}^{2} + \sqrt{\beta_{t}}^{2} = 1\)이므로 크기를 unit하게 유지한다.


Training

우리는 denoise하는 과정만 보면 되므로 실제 분포 \(p_{\theta}\left(x_{0}\right)\)를 찾는 것이 목적이다. 따라서 Loss를 계산할 때는 이의 log likelihood를 최대화하는 것이 목적이다.

$$
\begin{align*}
\mathbb{E}\left[-\log p_{\theta}\left(x_{0}\right)\right] &\leq \mathbb{E}_{q}\left[-\log \frac{p_{\theta}\left(x_{0:T}\right)}{q\left(x_{1:T}|x_{0}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p\left(x_{T}\right) - \sum_{t\geq1}\log \frac{p_{\theta}\left(x_{t-1}|x_{t}\right)}{q\left(x_{t}|x_{t-1}\right)}\right] =: L \tag{5}
\end{align*}
$$

 

※ 수식 전개

※ KL Divergence란?

더보기

※ 수식 전개

 

$$
\begin{align*}
\mathbb{E}\left[-\log p_{\theta}\left(x_{0}\right)\right] &\leq \mathbb{E}\left[-\log p_{\theta}\left(x_{0}\right) + D_{KL}\left(q\left(x_{1:T}|x_{0}\right)\|p_{\theta}\left(x_{1:T}|x_{0}\right)\right)\right] \\
&= \mathbb{E}\left[-\log p_{\theta}\left(x_{0}\right)\right] + \mathbb{E}_{x_{1:T} \sim q\left(x_{1:T}|x_{0}\right)}\left[\log \frac{q\left(x_{1:T}|x_{0}\right)}{p_{\theta}\left(x_{0:T}\right) / p_{\theta}\left(x_{0}\right)}\right] \\
&= \mathbb{E}\left[-\log p_{\theta}\left(x_{0}\right)\right] + \mathbb{E}_{x_{1:T} \sim q\left(x_{1:T}|x_{0}\right)}\left[\log \frac{q\left(x_{1:T}|x_{0}\right)}{p_{\theta}\left(x_{0:T}\right)} + \log p_{\theta}\left(x_{0}\right)\right] \\
&= \mathbb{E}_{q}\left[\log \frac{q\left(x_{1:T}|x_{0}\right)}{p_{\theta}\left(x_{0:T}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log \frac{p_{\theta}\left(x_{0:T}\right)}{q\left(x_{1:T}|x_{0}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log \frac{p\left(x_{T}\right)\prod_{t=1}^{T}p_{\theta}\left(x_{t-1}|x_{t}\right)}{\prod_{t=1}^{T}q\left(x_{t}|x_{t-1}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p\left(x_{T}\right) - \sum_{t=1}^{T}\log \frac{p_{\theta}\left(x_{t-1}|x_{t}\right)}{q\left(x_{t}|x_{t-1}\right)}\right]
\end{align*}
$$

 

설명

1번째 줄: \(D_{KL} \geq 0\)이기 때문이다. 그 이유가 궁금하다면 KL Divergence 접은글을 열어보자.

6번째 줄: 수식 (1), (3)이 적용되었다.

더보기

※ KL Divergence란?

두 확률분포의 차이를 의미한다. Cross Entropy랑 같이 살펴보면 이해가 쉽다.

실제 분포 q, 예측 분포 p라고 했을 때 Cross Entropy 값은 아래와 같다.

$$ H_{p}\left(q\right) = -\Sigma_{i=1}^{n}q\left(x_{i}\right)\log p\left(x_{i}\right) $$

예를 들어, 가방에 빨강, 초록, 파랑색의 공이 들어있다. 실제 비율은 0.8, 0.1, 0.1이고 예측은 0.2, 0.2, 0.6이 나왔다. 아래의 \(H\left(q\right)\)는 Entropy이다.

 

$$ H\left(q\right) = -\left[0.8\log 0.8 + 0.1\log 0.1 + 0.1\log 0.1\right] = 0.63 $$
$$ H_{p}\left(q\right) = -\left[0.8\log 0.2 + 0.1\log 0.2 + 0.1\log 0.6\right] = 1.50 $$

그리고 이 차이가 KL Divergence이다.

$$
\begin{align*}
D_{KL}\left(q||p\right) &= -\sum_{c=1}^{C}q\left(y_{c}\right)\left[\log \left(p\left(y_{c}\right)\right) - \log \left(q\left(y_{c}\right)\right)\right] \\
&= H_{p}\left(q\right) - H\left(q\right) \\
&= \text{[Cross Entropy]} - \text{[Entropy]} \\
&= \sum_{i}q_{i}\log \frac{q_{i}}{p_{i}} \quad \text{or} \quad \int q\left(x\right)\log \frac{q\left(x\right)}{p\left(x\right)} dx
\end{align*}
$$

 

또한 KL Divergence는 0보다 크거나 같다는 특성이 있다. [Cross Entropy]가 [Entropy]보다 항상 크거나 같기 때문이다.

 


Forward process 한 번에

임의의 timestamp t에 대해 \(x_{t}\)까지 한 번에 Forward process를 할 수 있다.

\(\alpha_{t} := 1-\beta_{t}\), \(\bar{\alpha}_{t} := \Pi_{s=1}^{t}\alpha_{s}\)라고 할 때,

$$ q\left(x_{t}|x_{0}\right) = N\left(x_{t};\sqrt{\bar{\alpha}_{t}}x_{0},\left(1-\bar{\alpha}_{t}\right)I\right) \tag{6} $$

 

※ 수식 전개

더보기

※ 수식 전개

 

$$
\begin{align*}
x_{t} &= \sqrt{1-\beta_{t}}x_{t-1} + \sqrt{\beta_{t}}\epsilon \\
&= \sqrt{\alpha_{t}}x_{t-1} + \sqrt{1-\alpha_{t}}\epsilon_{t-1} \\
&= \sqrt{\alpha_{t}}\left(\sqrt{\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_{t-1}}\epsilon_{t-2}\right) + \sqrt{1-\alpha_{t}}\epsilon_{t-1} \\
&= \sqrt{\alpha_{t}\alpha_{t-1}}x_{t-2} + \sqrt{\alpha_{t}\left(1-\alpha_{t-1}\right)}\epsilon_{t-2} + \sqrt{1-\alpha_{t}}\epsilon_{t-1} \\
&= \sqrt{\alpha_{t}\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_{t}\alpha_{t-1}}\bar{\epsilon}_{t-2} \\
&= \dots \\
&= \sqrt{\bar{\alpha}_{t}}x_{0} + \sqrt{1-\bar{\alpha}_{t}}\epsilon \\
\therefore q\left(x_{t}|x_{0}\right) &= N\left(x_{t};\sqrt{\bar{\alpha}_{t}}x_{0},\left(1-\bar{\alpha}_{t}\right)I\right)
\end{align*}
$$

 

설명

5번째 줄: \(\epsilon_{t-1}\), \(\epsilon_{t-2}\), ... 모두 \(\sim N\left(0,I\right)\)이므로

\(\sqrt{\alpha_{t}\left(1-\alpha_{t-1}\right)}\epsilon_{t-2} + \sqrt{1-\alpha_{t}}\epsilon_{t-1}\)를 계산했을 때 \(\sim N\left(0, \left[\alpha_{t}\left(1-\alpha_{t-1}\right) + \left(1-\alpha_{t}\right)\right]I\right) = N\left(0,\left(1-\alpha_{t}\alpha_{t-1}\right)I\right)\)이다.


Loss 정리

Loss를 더 정리하면, 아래와 같다.

$$ \mathbb{E}_{q}\left[D_{KL}\left(q\left(x_{T}|x_{0}\right)||p\left(x_{T}\right)\right) + \sum_{t>1}D_{KL}\left(q\left(x_{t-1}|x_{t},x_{0}\right)||p_{\theta}\left(x_{t-1}|x_{t}\right)\right) - \log p_{\theta}\left(x_{0}|x_{1}\right)\right] \tag{7} $$

 

※ 수식 전개

더보기

※ 수식 전개

 

$$
\begin{align*}
L &= \mathbb{E}_{q}\left[-\log \frac{p_{\theta}\left(x_{0:T}\right)}{q\left(x_{1:T}|x_{0}\right)}\right] \\
&= \mathbb{E}_{q\left(x_{0:T}\right)}\left[\log \frac{q\left(x_{1:T}|x_{0}\right)}{p_{\theta}\left(x_{0:T}\right)}\right] \\
&= \mathbb{E}_{q}\left[\log \frac{\prod_{t=1}^{T}q\left(x_{t}|x_{t-1}\right)}{p_{\theta}\left(x_{T}\right)\prod_{t=1}^{T}p_{\theta}\left(x_{t-1}|x_{t}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p_{\theta}\left(x_{T}\right) + \sum_{t=1}^{T}\log \frac{q\left(x_{t}|x_{t-1}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p_{\theta}\left(x_{T}\right) + \sum_{t=2}^{T}\log \frac{q\left(x_{t}|x_{t-1}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)} + \log \frac{q\left(x_{1}|x_{0}\right)}{p_{\theta}\left(x_{0}|x_{1}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p_{\theta}\left(x_{T}\right) + \sum_{t=2}^{T}\log \frac{q\left(x_{t}|x_{t-1},x_{0}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)} + \log \frac{q\left(x_{1}|x_{0}\right)}{p_{\theta}\left(x_{0}|x_{1}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p_{\theta}\left(x_{T}\right) + \sum_{t=2}^{T}\log \left(\frac{q\left(x_{t-1}|x_{t},x_{0}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)} \cdot \frac{q\left(x_{t}|x_{0}\right)}{q\left(x_{t-1}|x_{0}\right)}\right) + \log \frac{q\left(x_{1}|x_{0}\right)}{p_{\theta}\left(x_{0}|x_{1}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p_{\theta}\left(x_{T}\right) + \sum_{t=2}^{T}\log \frac{q\left(x_{t-1}|x_{t},x_{0}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)} + \sum_{t=2}^{T}\log \frac{q\left(x_{t}|x_{0}\right)}{q\left(x_{t-1}|x_{0}\right)} + \log \frac{q\left(x_{1}|x_{0}\right)}{p_{\theta}\left(x_{0}|x_{1}\right)}\right] \\
&= \mathbb{E}_{q}\left[-\log p_{\theta}\left(x_{T}\right) + \sum_{t=2}^{T}\log \frac{q\left(x_{t-1}|x_{t},x_{0}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)} + \log \frac{q\left(x_{T}|x_{0}\right)}{q\left(x_{1}|x_{0}\right)} + \log \frac{q\left(x_{1}|x_{0}\right)}{p_{\theta}\left(x_{0}|x_{1}\right)}\right] \\
&= \mathbb{E}_{q}\left[\log \frac{q\left(x_{T}|x_{0}\right)}{p_{\theta}\left(x_{T}\right)} + \sum_{t=2}^{T}\log \frac{q\left(x_{t-1}|x_{t},x_{0}\right)}{p_{\theta}\left(x_{t-1}|x_{t}\right)} - \log p_{\theta}\left(x_{0}|x_{1}\right)\right] \\
&= \mathbb{E}_{q}\left[D_{KL}\left(q\left(x_{T}|x_{0}\right)||p_{\theta}\left(x_{T}\right)\right) + \sum_{t>1}D_{KL}\left(q\left(x_{t-1}|x_{t},x_{0}\right)||p_{\theta}\left(x_{t-1}|x_{t}\right)\right) - \log p_{\theta}\left(x_{0}|x_{1}\right)\right] \\
&= L_{T} + \sum_{t>1}L_{t-1} + L_{0}
\end{align*}
$$

 

설명

3번째 줄: 수식 (1), (3)이 적용되었다.

6번째 줄: \(x_{0}\) 이미지부터 시작해 \(x_{t}\)까지 noise를 추가한 posterior이기 때문에 \(p_{\theta}\left(x_{t}|x_{t-1}\right)\)를 \(p_{\theta}\left(x_{t}|x_{t-1},x_{0}\right)\)로 변환할 수 있다.

7번째 줄: Bayes Rule이 적용되었다.

$$ P(A \mid B \cap C) = \frac{P(B \mid A \cap C) P(A \mid C)}{P(B \mid C)} $$

9번째 줄: 시그마를 풀어쓰면 소거된다.

10번째 줄: 로그의 특성을 활용하여 전개한다.

11번째 줄: 'KL Divergence란?' 접은글에 \(D_{KL}\)에 대한 설명이 적혀있다.


\(q\left(x_{t-1}|x_{t},x_{0}\right)\) 정리

$$ q\left(x_{t-1} \mid x_{t},x_{0}\right) = N\left(x_{t-1};\tilde{\mu}_{t}\left(x_{t},x_{0}\right),\tilde{\beta}_{t}I\right) \tag{8} $$ $$ \tilde{\mu}_{t}\left(x_{t},x_{0}\right) := \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_{t}}{1-\bar{\alpha}_{t}}x_{0} + \frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}}x_{t} , \tilde{\beta}_{t} := \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}}\beta_{t} \tag{9} $$

이렇게 정리함으로써 수식 (7)의 KL Divergence가 모두 Gaussian 간의 비교가 된다.

 

※ 수식 전개

더보기

※ 수식 전개

 

추후에 정리하겠습니다.


III. Model

Forward process and \(L_{T}\)

노이즈의 비율 \(\beta_{t}\)를 \(\beta_{1} = 10^{-4}\)부터 \(\beta_{T} = 0.02\)까지 선형적으로 증가시킨다. 증가시키는 이유는 초반에는 노이즈를 조금 추가해서 원래의 이미지 정보를 너무 빠르게 잃지 않도록 하기 위함이고, 후반에는 노이즈를 많이 추가해도 되기 때문이다. 선형적인 이유는 모델이 각 시간 단계에서 노이즈가 어떻게 변화하는지 보다 쉽게 학습할 수 있기 때문이다. 따라서 posterior \(q\)에서는 학습가능한 파라미터가 없게 되고, \(L_{T}\)는 훈련 단계에서 상수로 취급되므로 무시할 수 있다.


Data scaling, reverse process decoder, and \(L_{0}\)

\(L_{0} = -\log p_{\theta}\left(x_{0}|x_{1}\right)\)로 결과에 미치는 영향이 적기 때문에 전체 Loss 계산에서 생략할 수 있다.


Reverse process and \(L_{1:T-1}\)

결국 중요한 건 \(L_{1:T-1}\)이다.

 

\(L_{1:T-1}\) 정리

앞에서 \(q\left(x_{t-1}|x_{t},x_{0}\right)\)는 정의했고, 수식 (2)에 따르면 \(1 < t \leq T\)에 대해 \(p_{\theta}\left(x_{t-1} \mid x_{t}\right) = N(x_{t-1}; \mu_{\theta}\left(x_{t}, t\right), \Sigma_{\theta}\left(x_{t}, t\right)) = N(x_{t-1}; \mu_{\theta}\left(x_{t}, t\right), \sigma_{t}^{2}I)\)이다.

 

KL Divergence의 식을 정리하면 아래와 같은 식을 얻게 된다.

$$ L_{t-1} = \mathbb{E}_{q}\left[\frac{1}{2\sigma_{t}^{2}}\left|\tilde{\mu}_{t}\left(x_{t},x_{0}\right) - \mu_{\theta}\left(x_{t},t\right)\right|^{2}\right] + C $$

 

\(x_{t}\left(x_{0},\epsilon\right) = \sqrt{\bar{\alpha}_{t}}x_{0} + \sqrt{1-\bar{\alpha}_{t}}\epsilon\), \(\epsilon \sim N\left(0,I\right)\)임을 활용하면 식을 더 정리할 수 있다.

$$
\begin{align*}
L_{t-1} - C 
&= \mathbb{E}_{x_{0},\epsilon}\left[\frac{1}{2\sigma_{t}^{2}}\left|\tilde{\mu}_{t}\left(x_{t}\left(x_{0},\epsilon\right), \frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(x_{t}\left(x_{0},\epsilon\right) - \sqrt{1-\bar{\alpha}_{t}}\epsilon\right)\right) - \mu_{\theta}\left(x_{t}\left(x_{0},\epsilon\right),t\right)\right|^{2}\right] \\
&= \mathbb{E}_{x_{0},\epsilon}\left[\frac{1}{2\sigma_{t}^{2}}\left|\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}\left(x_{0},\epsilon\right) - \frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}}\epsilon\right) - \mu_{\theta}\left(x_{t}\left(x_{0},\epsilon\right),t\right)\right|^{2}\right] \tag{10}
\end{align*}
$$

 

※ 수식 전개

더보기

※ 수식 전개

 

추후에 정리하겠습니다.


\(\mu_{\theta}\) 정리

우리는 denoise할 때 noise를 예측해가야 한다. 수식 (10)을 보면, \(\tilde{\mu}_{t}\)가 forward process q에서의 평균값이고 \(\mu_{\theta}\)는 이 noise 값을 예측하는 reverse process p에서의 평균값이기 때문에 \(\mu_{\theta}\)는 \(\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t} - \frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}}\epsilon\right)\)
을 예측하는 값이어야 한다.

 

따라서 \(\mu_{\theta}\)에 대한 식을 아래와 같이 표현할 수 있다.

$$ \mu_{\theta}\left(x_{t}, t\right) = \tilde{\mu}_{t}\left(x_{t}, \frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(x_{t} - \sqrt{1 - \bar{\alpha}_{t}} \epsilon_{\theta}\left(x_{t}\right)\right)\right) = \frac{1}{\sqrt{\alpha_{t}}}\left(x_{t} - \frac{\beta_{t}}{\sqrt{1 - \bar{\alpha}_{t}}} \epsilon_{\theta}\left(x_{t}, t\right)\right) \tag{11} $$


전체 Loss 정리

수식 (10)에 수식 (11)을 대입해서 정리하면 전체 Loss 식이 아래와 같다.

$$ \mathbb{E}_{x_{0},\epsilon}\left[\frac{\beta_{t}^{2}}{2\sigma_{t}^{2}\sqrt{1-\bar{\alpha}_{t}}}\left|\epsilon - \epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}}x_{0} + \sqrt{1 - \bar{\alpha}_{t}}\epsilon, t\right)\right|^{2}\right] \tag{12} $$

결과적으로 Diffusion model의 Loss가 \(\epsilon\)을 예측하는 과정이 된다.

 

위의 수식에서 앞에 weighting을 빼는 게 더 결과가 잘 나왔다. 이는 t가 매우 작을 때, 노이즈가 적은 상태의 denoising 작업에 너무 많은 자원을 할애하지 않도록 하여 noise가 많은, 더 어려운 denoising 작업에 집중하도록 하는 효과가 있다. 따라서 최종적인 Loss는 아래와 같다.

$$ L_{simple}\left(\theta\right) := \mathbb{E}_{t,x_{0},\epsilon}\left[\left|\epsilon - \epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}}x_{0} + \sqrt{1-\bar{\alpha}_{t}}\epsilon,t\right)\right|^{2}\right] $$


IV. Experiments

결과는 SOTA로 잘 나왔다는 것으로 마무리하겠다.

'논문리뷰 > 기초' 카테고리의 다른 글

[논문리뷰] Attention is All You Need (Transformer)  (0) 2024.08.17