Cramér GANでいらすとや画像生成してみる

Cramér GAN
arXiv:https://arxiv.org/abs/1705.10743v1

このGANは数日前(5/30)に投稿されたもの。

これまでGANのベースラインとして，
vanilla GAN，DCGAN，WGAN，WGAN-gpなどが使われてきた．
この中のWGANやWGAN-gpより優れているという主張が論文内でされている．
（abstで it performs significantly better than the related Wasserstein GAN との記述）

また，twitter上では「WGANは死んだ」などの強めのつぶやきが観測されている．

f:id:yusuke_ujitoko:20170603140649p:plain

その強さを見てみたいので，このCramér GANの論文を読み，
実装していらすとや画像を生成してみたというのが本記事の主旨。
ついでにWGAN-gpも実装して比較した。

f:id:yusuke_ujitoko:20170604160034p:plain

論文の概要

機械学習に使う確率分布間の距離指標には，次の3つの性質が必要
- sum invariance
- scale sensitivity
- unbiased sample gradients
最近注目のWasserstein距離はこのうち前2つは満たすが，最後の1つは満たさない．
これは深刻な問題につながる
そこでWasserstein距離の代わりにCramér距離を使うことを提案
- Cramér距離は上記3つの要件を満たす
Cramér距離を使うCramérGANを提案

距離指標の性質

距離指標としてよく使われるKL divergenceとWasserstein距離の定義をまず確認すると，
分布 ${P}$ と ${Q}$ 間のKL divergenceは ${}$ $$ KL(P \mid \mid Q) = \int_{-\infty}^{\infty} \log \frac{P(dx)}{Q(dx)} P(dx) $$ であり，
そして分布 ${P}$ と ${Q}$ 間のWasserstein距離は、累積分布関数を ${F_{p} = \int_{-\infty}^{x} P(dx) }$ とすると、
その逆関数を使って、 ${}$ $$ w_{p}(P,Q) = \left( \int_{0}^{1} \mid F_{P}^{-1}(u) - F_{Q}^{-1}(u) \mid^{p} du \right)^{1/p} $$ と表される。
これらKL divergenceとWasserstein距離の違いとしては，
Wasserstein距離は分布の変化には鋭敏ではないが，出力の幾何関係には鋭敏であること．

さて、ここから距離指標の性質について説明していく．
まずパラメータ定義をする。
距離を ${\boldsymbol{d}}$ ，分布 ${P, Q}$ に従う変数を ${X,Y}$ とする．

${\boldsymbol{d}}$ が scale sensitive であるとは，
全部の ${X,Y}$ に対して，以下を満たす ${\beta>0}$ と ${c>0}$ があること ${}$ $$ \boldsymbol{d} (cX, cY) \leq \, \mid c \mid^{\beta} \boldsymbol{d}(X, Y) \tag{S} $$

${\boldsymbol{d}}$ が sum invariant であるとは，
${X,Y}$ に対して独立な、どのような ${A}$ に対しても以下が成り立つこと ${}$ $$ \boldsymbol{d} (A+X, A+Y) \leq \boldsymbol{d}(X, Y) \tag{I} $$

理想的な距離 ${\boldsymbol{d}}$ は上の(S)と(I)を満たすと言われているらしい（Zolotarev, 1976)．

機械学習向けにはさらに3つ目の性質が距離指標には必要とのこと．
機械学習では ${\boldsymbol{d}}$ をlossとして使う． ${Q_{theta}}$ を ${\theta}$ をパラメータとする分布とすると，
lossとして ${d(P,Q)}$ を考えて，このlossを最小化するような ${\theta}$ を見つけたいのだった．
そのためには，3つ目の性質として unbiased sample gradients が必要となる．

またパラメータを幾つか定義する。
${X_{1},X_{2}, \cdots, X_{m}}$ を ${P}$ からサンプリングした変数、
${\delta_{x}}$ を，異なる ${x}$ に対するディラック関数、
経験分布を ${\hat{P}_{m} = \frac{1}{m}\sum \delta_{X} }$ 、
sample loss を ${\theta \rightarrow d(P, Q)}$ とする．

${\boldsymbol{d}}$ が unbiased sample gradients を持つときとは，
sampleのlossが ${P}$ の真のlossと等しいこと．つまり以下のときのこと。 ${}$ $$ \mathbb{E}_{X_{m} \sim P} \nabla_{\theta} \boldsymbol{d} (\hat{P}_{m}, Q_{\theta}) = \nabla_{\theta} \boldsymbol{d} (P, Q_{\theta}) \tag{U} $$ 上の(U)が満たされない場合には，SGDで間違ったminimumに到達してしまう．
一方，(U)が満たされれば，sample lossがQ=Pとなることが確かに言える．

さてこれまで(U)，(I)，(S)と見てきたが，
KL divergenceとWasserstein距離はこれらを満たしているかというと，

KL divergenceは(U)は満たすが，(S)は満たさない
Wasserstein距離は(I)と(S)は満たすが(U)は満たさない

ということのようだ。（証明も載っているが省く）

Cramér距離

そこでCramér距離が出てくる．
Wasserstein距離は(U)を満たさないが，このCramér距離は(U)を満たすので，
こちらのCramér距離の方が良いということらしい．

Cramér距離の定義は次のようになる．
分布 ${P,Q}$ に対する累積分布関数を ${F_{P}, F_{Q}}$ とすると， ${P}$ と ${Q}$ 間のCramér距離は， ${}$ $$ l_{2}^{2}(P,Q) = \int_{-\infty}^{\infty} (F_{P}(x) - F_{Q}(x))^{2} dx $$ となる。

この平方根 ${l_{2}}$ は距離指標として使える。また、この ${l_{2}}$ は次の ${l_{p}}$ familyに属する指標でもある。 ${}$ $$ l_{p}(P,Q) = \left( \int_{\infty}^{\infty} \mid F_{P}(x) - F_{Q}(x) \mid ^{p} dx \right)^{1/p} $$ p=1において，この ${l_{p}}$ とWasserstein距離は同一になる．
しかし，p≠1では異なる．
Wassestein距離と同じく，この ${l_{p}}$ の指標も次のdual formをもつ．
(Dedecker and Merlevede ,2007) ${}$ $$ l_{p}(P,Q) = \sup_{f \in \mathbb{F}_{q}} \mid \mathbb{E}_{x \sim P} f(x) - \mathbb{E}_{x \sim Q} f(x) \mid $$

Cramér距離は性質として(U)(I)(S)を満たす。具体的には、

${1 \leq p \leq \infty}$ において(I)(S)が成り立ち
${p=2}$ のときのみ(U)が成り立つ

Cramér距離はWasserstein距離とKL divergenceのいいとこ取りした指標と言える．論文ではCramér距離が(U)(I)(S)を満たすことの証明があり，
その後に別の指標として energy distance が導入されている．

この energy distance (Szekely, 2002)はCramér距離の拡張になっている．
具体的には， energy distance の1/2がCramér距離に相当する．
そのため energy distance も(U)(I)(S)を満たすことがわかり，実装アルゴリズムではこちらの energy distance が使われている。