DRAGAN + SRResNetでいらすとや画像生成する

MakeGirlsMoeは 驚異的な生成画像の質で、お盆休み中の世間を驚かせた。
このMakeGirlsMoeの

  • ネットワーク構造(SRResNet)
  • 目的関数(DRAGAN)

を使っていらすとや画像を生成してみる。

DRAGANについては、以前に記事を書いている。 当時あまり注目されていないながらも、私の手元のデータセットに関してはCramerGANやWGAN-gpよりも当時性能が出ていてビックリした。

SRResNetに関しては、https://arxiv.org/abs/1609.04802のネットワークをそのまま利用した。

f:id:yusuke_ujitoko:20170926224811p:plain

通常のGANだと、アップサンプリングはdeconvolutionで行うが、SRResNetではPixelCNNを使う。
ResNetが深いので、メモリが4~8GしかないGPUだとあまりバッチサイズを大きく出来ず学習は厳しかった。

画像生成:ブロンド外国人による支配

これまでにない、とても鮮明な画像を生成できている。
しかしながら、生成画像に多様性はない。
何度か試したものの、いずれも 途中でブロンド外国人にmode collapseしてしまった。

conditional GANにしないとそもそも多様性は保てない?のかもしれない。 cGANにすればコントロールは少なくともできるかも。 論文ではAC-GANを使っていたので次はそちらを試す予定。

パターン1

完全にブロンド少年しか生成しなくなった。
(↓に行くほど学習が進んだ時の生成画像)

f:id:yusuke_ujitoko:20170926223713p:plain

f:id:yusuke_ujitoko:20170926001234p:plain

f:id:yusuke_ujitoko:20170926001142p:plain

f:id:yusuke_ujitoko:20170926001153p:plain

パターン2

パラメータを少し変えた別の学習では、女性率高めになった f:id:yusuke_ujitoko:20170926224105p:plain

パターン3

目がチカチカする。 f:id:yusuke_ujitoko:20170926224044p:plain

pix2pixで車載画像の昼夜の変換を試す

最近、業務の忙しさと、
別件で進行しているモデルのパラメータチューニングの収束しなさから、
ブログ更新をしばらく行っていなかった。

一旦、更新が途絶えてしまうと、なかなかモチベーション的に再開しづらいので、
以前も試したことのあってお手軽なpix2pixを再び試してみようと思う。
(お手軽と言っても学習に数日は掛けた)

さて、pix2pixの変換事例はいろいろ紹介されているが、
Image-to-Image Demo - Affine Layer

論文の中の昼と夜の画像変換については、datasetが公開されておらず、
ネットを探しても先行事例は見つからなかった。
more datasets available? · Issue #8 · phillipi/pix2pix · GitHub
↑のように昼夜画像データセット難民は多いようだ。

pix2pixにはペアの訓練画像が必要なのだが、
これがなかなか見つからない。
色々探しているうちに車載動画のdatasetを見つけた。
Alderley Day/Night Dataset - Robotics@QUT - Confluence f:id:yusuke_ujitoko:20170925231115p:plain

昼夜の訓練ペア画像は1.5万弱。
これらに対して学習を行った。
学習後の訓練ペア画像への変換結果は以下のようになった。

昼→夜

f:id:yusuke_ujitoko:20170925232215j:plain

夜→昼

f:id:yusuke_ujitoko:20170925232218j:plain

別の車載画像を試す

KITTI Vision Benchmark Suiteへ、上記で学習済みのpix2pixを掛けてみた。

f:id:yusuke_ujitoko:20170925232859j:plain

不自然な煙?のようなものがいずれの画像にも見えて、失敗している。
上のデータセットの影響を大きく受けているのがわかる。
より汎化を目指すためには巨大なペア画像データセットが必要なのだが、
現状公開されていないために難しい。

こうなるとペア画像でなくてもよいcycleGANが使いやすくて、こちらの発展を期待してしまう。

pix2pixの枠組みを利用した動画の異常検知

  • 異常検知の難しさ
    • 既存の異常データセットのサンプルサイズが小さいこと
    • 異常の定義がはっきりしていないこと

  • これらの課題に対して、正常なパターンのみ学習させた生成モデルで対処
    • 学習時には(集めやすい)正常データのみ用意
    • 正常データとの距離により異常を判定

  • 生成モデルとしてGANを利用
  • GANを使った異常検知としては, https://arxiv.org/abs/1703.05921 もあったが,こちらとは異なる利用方法をしている

動画内の正常パターンを学習

時刻tにおけるフレーム{F_{t}}とそのときのオプティカルフロー{O_{t}}をデータとし,
pix2pixと同じ枠組みのネットワークを構築し正常パターンを学習させる.

2つのネットワークを組み,以下の変換をそれぞれ学習させる

  • {G^{F \rightarrow O}} ({F_{t} \rightarrow O_{t}})
  • {G^{O \rightarrow F}} ({O_{t} \rightarrow F_{t}})

正常の場合のみのデータで学習させておけば、
異常データとして{F}{O}を入力したときには、変換が上手く行かないはず。

f:id:yusuke_ujitoko:20170907002839p:plain

上の画像がその例になっている。
上部では{G^{F \rightarrow O}}によって、車を含むフレーム {F} (異常パターン)からオプティカルフロー {O} を再構成しようとしているが、 車の部分のオプティカルフローがうまく再構成できていない。
下部では{G^{O \rightarrow F}}によって、車を含むオプティカルフロー{O}からフレーム{F}を再構成しようとしているが,こちらも変な塊ができてしまっている。

テスト動画の判定はどのように行うかというと,テスト動画の各フレームからオプティカルフローを計算し, フレームとオプティカルフローの組を作る.
そして,2つのネットワークでそれぞれ変換し,変換後のフレームとオプティカルフローと変換前の両者の差分から判定する.

具体的には,以下の2つを組み合わせて行う.

f:id:yusuke_ujitoko:20170907003343p:plain

教師なし学習で生成画像を制御できそうなinfoGANを試す

教師なし学習で生成画像を制御できそうなinfoGANを試してみる。
生成してみた画像がこちら

f:id:yusuke_ujitoko:20170830204845p:plain

背景

  • GANの学習ではG(Generator)とD(Discriminator)がせめぎ合いながら、ナッシュ均衡を目指す。
    結果として、
    • DはGによる生成画像と真の画像を区別するよう最適化される。
    • GはDを騙すように最適化される。

  • Gはノイズ{z}をもとに画像を生成
    この潜在変数群{z}は画像生成の種のようなもので、
    画像生成に使われる全情報を含んでいる。
  • GANが収束したとき、{z}の各変数は生成画像の特徴に対応しているはず
    • 光源の強さや線の太さなどの意味が分かりやすい特徴に対応していてほしい
    • 実際にはそうなっておらず、人間には紐解けない

  • CGANやAC-GANなどのConditional GAN
    • ラベルをノイズ{z}と合わせてGへ入力し、ラベルに対応した画像とセットで学習させる
    • 生成画像の条件をラベルで指定可能なGを構築できる。
    • しかし、画像とラベルを対応付ける手間が発生する。
  • こういった教師あり学習ではなく、教師なし学習で生成画像の特徴をコントロールできるGを構築できると面白い。
    そしてそれを試みるのがinfoGAN。

infoGAN

infoGANの構造は以下のように構築する。

f:id:yusuke_ujitoko:20170830203155p:plain:w200
  • Gに入力するノイズ{z}を、意味を獲得させる要素としてのlatent variables {c}とそれ以外の要素noise{z}に分ける。
    例えばMNISTの場合には、次のように分けると上手く行く(と書いてある)
    • noise {z} (通常のGANの場合よりも要素数を小さくする)
    • latent variables {c}
      • (0〜9)の離散値を表現するcategorical variables
      • 線の太さ、傾きなど連続値を表現するcontinuous variables

  • 通常のGANの要領で学習させると、上で述べたlatent variablesを無視して、 noiseとして生成画像を作るようになってしまう。それを避けるために、Gの生成画像とlatent variables {c}相互情報量最大を目指すようNNの構造と誤差関数を設計する。

  • 実装は割と単純
  • Dの出力として以下を用意
    • 通常の画像が本物か偽物かを示す値
    • latent variablesに対応した値
  • Gに入力したlatent variablesとの誤差を計算

生成画像を確認

infoGANはパラメータチューニングが大変。
(0〜9)を区別して生成するのすらできなかった。

縦軸:categorical variables, 横軸: continuous variables 1

f:id:yusuke_ujitoko:20170830204815p:plain

一応右にいくほど文字が太くなっていっているので、
continuous variables 1が文字の太さを示すよう学習できている…?っぽい

縦軸:categorical variables, 横軸: continuous variables 2

f:id:yusuke_ujitoko:20170830204845p:plain

continuous variables 2が文字の傾きを示すよう学習できている…?っぽい

その他

このinfoGANの発表の後,
semi-supervisedなinfoGANも提案されている.

https://arxiv.org/abs/1707.04487

GANによる医療画像の異常検知

f:id:yusuke_ujitoko:20170809215230p:plain

まず下準備として,正常な画像を訓練データとして使い,GANを学習させる. 学習後のGANの{G(z)} はlatent space representations {z} から正常な画像 {x} への写像を学習している.

そしてテスト画像 {x}に対する異常さを評価するために, {x = G(z)}とみて,{x} から {z}を探す. でも{G(z)} の逆写像は簡単にはできない.

そこで{G(z)} から {z}を探すために, {z_{1}}をランダムにサンプリングして,{G(z_{1})} を生成し,{x}との誤差が小さくなるよう {z}を学習させる. このときはもちろんGやDのパラメータは固定. 学習させて収束した後の誤差をテスト画像{x}の異常さの度合いとして評価する。

その他

誕生日のパラドックスを使ってGANの多様性を評価する研究とアイデアが似ている。

また、この論文では前半部のGの学習はできていて、Gが正常画像の分布を生成できる前提のもとで、後半の異常検知の話が進んでいるが、 そもそも論文で使っているDCGANだとあまり訓練データの多様な分布を生成できないのではと感じた。

この論文は会社の方に教えていただいたもの.
今のところ仕事として機械学習には関わったことがないが, 趣味として勉強している様子が遠回りで会社の方に伝わったようで最終的に繋がりが持てたのは嬉しい. と、ブログっぽいことを書いてみる。