【論文輪読会】Diffusionモデルってなに？～元祖論文DDPM解説～

今回のコードは【こちら】

Denoising Diffusion Probabilistic Models【こちら】

ひとことまとめ

図0

実画像にノイズを加えていく、その過程はマルコフ連鎖で定義されている。

図1

\begin{cases} q_\theta(X_{1:T}|X_0) := ∏q(X_t|X_{t-1})\\ q_\theta(X_t|X_{t-1}) := N(X_t;\sqrt{1-\beta_t}X_{t-1},\beta_t I) \end{cases}\tag{1}

ここでの $\beta_t$ は加えたノイズの強さと考えてよい

二つのガウス分布 $N(0,\sigma ^2_1 I)$ $N(0,\sigma ^2_2 I)$ を足し合わせると新しいガウス分布 $N(0,(\sigma ^2_1 + \sigma ^2_2) I)$ になることにより

a_t = 1 - \beta_t

X_t\begin{cases} =\sqrt{a_t} X_{t-1}+\sqrt{1- a_t} \epsilon_{t-1}\\ =\sqrt{a_t}(\sqrt{a_{t-1}} X_{t-2}+\sqrt{1- a_{t-1}} \epsilon_{t-2})+\sqrt{1- a_{t-1}} \epsilon_{t-1}\\ =\sqrt{a_ta_{t-1}} X_{t-2}+\sqrt{1- a_ta_{t-1}} \overline \epsilon_{t-2}\\ =...\\ =\sqrt{\overline a_t}X_0+\sqrt{1-\overline a_t}\epsilon \end{cases}\tag{2}

つまり

q(X_t|X_0) = N(X_t;\sqrt{\overline a_t}X_{0},(1-\overline a_t) I)

図2

よって、 $t$ 時の画像の状態は $X_0$ , $t$ だけに依存する
（あとスケールを決めるハイパラだけ）

これで何がうれしいか？

途中時刻ｔの画像のノイズを予測し、ノイズを抜いていく過程。
これもマルコフ連鎖で定義されている。

X_{t-1} \rightarrow X_t -noise

\begin{cases} q_\theta(X_T)=N(X_t;0;I)\\ q_\theta(X_{0:T}|X_0) := q(x_T)∏q_\theta(X_{t-1}|X_{t})\\ q_\theta(X_{t-1}|X_{t}) := N(X_{t-1}; \mu _\theta (X_{t},t), \Sigma(X_t,t)) \end{cases}\tag{3}

図3-1

UNet!です

しかしこれだけじゃ足りない！
ノイズの強さは時刻によるものなので、時刻のembeddingが必要。

図4

図5

$k$ 　～　位置情報
$i$ 　～　i番目のパラメータ
$d$ 　～　dimension
$n$ 　～　定数・Attention is all you needでは10000

図6

図7

今回のコードは【こちら】