pix2pixで車載画像の昼夜の変換を試す

最近、業務の忙しさと、
別件で進行しているモデルのパラメータチューニングの収束しなさから、
ブログ更新をしばらく行っていなかった。

一旦、更新が途絶えてしまうと、なかなかモチベーション的に再開しづらいので、
以前も試したことのあってお手軽なpix2pixを再び試してみようと思う。
(お手軽と言っても学習に数日は掛けた)

さて、pix2pixの変換事例はいろいろ紹介されているが、
Image-to-Image Demo - Affine Layer

論文の中の昼と夜の画像変換については、datasetが公開されておらず、
ネットを探しても先行事例は見つからなかった。
more datasets available? · Issue #8 · phillipi/pix2pix · GitHub
↑のように昼夜画像データセット難民は多いようだ。

pix2pixにはペアの訓練画像が必要なのだが、
これがなかなか見つからない。
色々探しているうちに車載動画のdatasetを見つけた。
Alderley Day/Night Dataset - Robotics@QUT - Confluence f:id:yusuke_ujitoko:20170925231115p:plain

昼夜の訓練ペア画像は1.5万弱。
これらに対して学習を行った。
学習後の訓練ペア画像への変換結果は以下のようになった。

昼→夜

f:id:yusuke_ujitoko:20170925232215j:plain

夜→昼

f:id:yusuke_ujitoko:20170925232218j:plain

別の車載画像を試す

KITTI Vision Benchmark Suiteへ、上記で学習済みのpix2pixを掛けてみた。

f:id:yusuke_ujitoko:20170925232859j:plain

不自然な煙?のようなものがいずれの画像にも見えて、失敗している。
上のデータセットの影響を大きく受けているのがわかる。
より汎化を目指すためには巨大なペア画像データセットが必要なのだが、
現状公開されていないために難しい。

こうなるとペア画像でなくてもよいcycleGANが使いやすくて、こちらの発展を期待してしまう。

pix2pixの枠組みを利用した動画の異常検知

  • 異常検知の難しさ
    • 既存の異常データセットのサンプルサイズが小さいこと
    • 異常の定義がはっきりしていないこと

  • これらの課題に対して、正常なパターンのみ学習させた生成モデルで対処
    • 学習時には(集めやすい)正常データのみ用意
    • 正常データとの距離により異常を判定

  • 生成モデルとしてGANを利用
  • GANを使った異常検知としては, https://arxiv.org/abs/1703.05921 もあったが,こちらとは異なる利用方法をしている

動画内の正常パターンを学習

時刻tにおけるフレーム{F_{t}}とそのときのオプティカルフロー{O_{t}}をデータとし,
pix2pixと同じ枠組みのネットワークを構築し正常パターンを学習させる.

2つのネットワークを組み,以下の変換をそれぞれ学習させる

  • {G^{F \rightarrow O}} ({F_{t} \rightarrow O_{t}})
  • {G^{O \rightarrow F}} ({O_{t} \rightarrow F_{t}})

正常の場合のみのデータで学習させておけば、
異常データとして{F}{O}を入力したときには、変換が上手く行かないはず。

f:id:yusuke_ujitoko:20170907002839p:plain

上の画像がその例になっている。
上部では{G^{F \rightarrow O}}によって、車を含むフレーム {F} (異常パターン)からオプティカルフロー {O} を再構成しようとしているが、 車の部分のオプティカルフローがうまく再構成できていない。
下部では{G^{O \rightarrow F}}によって、車を含むオプティカルフロー{O}からフレーム{F}を再構成しようとしているが,こちらも変な塊ができてしまっている。

テスト動画の判定はどのように行うかというと,テスト動画の各フレームからオプティカルフローを計算し, フレームとオプティカルフローの組を作る.
そして,2つのネットワークでそれぞれ変換し,変換後のフレームとオプティカルフローと変換前の両者の差分から判定する.

具体的には,以下の2つを組み合わせて行う.

f:id:yusuke_ujitoko:20170907003343p:plain

教師なし学習で生成画像を制御できそうなinfoGANを試す

教師なし学習で生成画像を制御できそうなinfoGANを試してみる。
生成してみた画像がこちら

f:id:yusuke_ujitoko:20170830204845p:plain

背景

  • GANの学習ではG(Generator)とD(Discriminator)がせめぎ合いながら、ナッシュ均衡を目指す。
    結果として、
    • DはGによる生成画像と真の画像を区別するよう最適化される。
    • GはDを騙すように最適化される。

  • Gはノイズ{z}をもとに画像を生成
    この潜在変数群{z}は画像生成の種のようなもので、
    画像生成に使われる全情報を含んでいる。
  • GANが収束したとき、{z}の各変数は生成画像の特徴に対応しているはず
    • 光源の強さや線の太さなどの意味が分かりやすい特徴に対応していてほしい
    • 実際にはそうなっておらず、人間には紐解けない

  • CGANやAC-GANなどのConditional GAN
    • ラベルをノイズ{z}と合わせてGへ入力し、ラベルに対応した画像とセットで学習させる
    • 生成画像の条件をラベルで指定可能なGを構築できる。
    • しかし、画像とラベルを対応付ける手間が発生する。
  • こういった教師あり学習ではなく、教師なし学習で生成画像の特徴をコントロールできるGを構築できると面白い。
    そしてそれを試みるのがinfoGAN。

infoGAN

infoGANの構造は以下のように構築する。

f:id:yusuke_ujitoko:20170830203155p:plain:w200
  • Gに入力するノイズ{z}を、意味を獲得させる要素としてのlatent variables {c}とそれ以外の要素noise{z}に分ける。
    例えばMNISTの場合には、次のように分けると上手く行く(と書いてある)
    • noise {z} (通常のGANの場合よりも要素数を小さくする)
    • latent variables {c}
      • (0〜9)の離散値を表現するcategorical variables
      • 線の太さ、傾きなど連続値を表現するcontinuous variables

  • 通常のGANの要領で学習させると、上で述べたlatent variablesを無視して、 noiseとして生成画像を作るようになってしまう。それを避けるために、Gの生成画像とlatent variables {c}相互情報量最大を目指すようNNの構造と誤差関数を設計する。

  • 実装は割と単純
  • Dの出力として以下を用意
    • 通常の画像が本物か偽物かを示す値
    • latent variablesに対応した値
  • Gに入力したlatent variablesとの誤差を計算

生成画像を確認

infoGANはパラメータチューニングが大変。
(0〜9)を区別して生成するのすらできなかった。

縦軸:categorical variables, 横軸: continuous variables 1

f:id:yusuke_ujitoko:20170830204815p:plain

一応右にいくほど文字が太くなっていっているので、
continuous variables 1が文字の太さを示すよう学習できている…?っぽい

縦軸:categorical variables, 横軸: continuous variables 2

f:id:yusuke_ujitoko:20170830204845p:plain

continuous variables 2が文字の傾きを示すよう学習できている…?っぽい

その他

このinfoGANの発表の後,
semi-supervisedなinfoGANも提案されている.

https://arxiv.org/abs/1707.04487

GANによる医療画像の異常検知

f:id:yusuke_ujitoko:20170809215230p:plain

まず下準備として,正常な画像を訓練データとして使い,GANを学習させる. 学習後のGANの{G(z)} はlatent space representations {z} から正常な画像 {x} への写像を学習している.

そしてテスト画像 {x}に対する異常さを評価するために, {x = G(z)}とみて,{x} から {z}を探す. でも{G(z)} の逆写像は簡単にはできない.

そこで{G(z)} から {z}を探すために, {z_{1}}をランダムにサンプリングして,{G(z_{1})} を生成し,{x}との誤差が小さくなるよう {z}を学習させる. このときはもちろんGやDのパラメータは固定. 学習させて収束した後の誤差をテスト画像{x}の異常さの度合いとして評価する。

その他

誕生日のパラドックスを使ってGANの多様性を評価する研究とアイデアが似ている。

また、この論文では前半部のGの学習はできていて、Gが正常画像の分布を生成できる前提のもとで、後半の異常検知の話が進んでいるが、 そもそも論文で使っているDCGANだとあまり訓練データの多様な分布を生成できないのではと感じた。

この論文は会社の方に教えていただいたもの.
今のところ仕事として機械学習には関わったことがないが, 趣味として勉強している様子が遠回りで会社の方に伝わったようで最終的に繋がりが持てたのは嬉しい. と、ブログっぽいことを書いてみる。

シミュレータで生成した画像に現実感を付与する(SimGAN)

概要

学習のための画像がない場合や不足している場合,シミュレータ等を使い人工的に画像を生成することがある. しかしシミュレータで生成した画像(以下シミュレータ画像と呼称)は,現実の画像に現実感の観点で及ばない. そのためシミュレータ画像に過学習してしまうと,実際の画像に対して効果を発揮しないことがある.

だからと言ってシミュレータ画像の質をチマチマ向上させるのは大変. そこでラベルなしの現実画像を訓練画像として使い,GANの枠組みでシミュレータ画像を洗練させる. その際,シミュレータ画像に付随するannotationの情報は保持するように, 大きな改変にはペナルティをかける(self-regularization loss)など工夫を施す.

f:id:yusuke_ujitoko:20170808235033p:plain:w400

SimGAN

SimGANの目的は現実の画像 {y_{i}} を使って, シミュレータ画像を{x} を洗練させて現実感を付与する変換 {R_{\theta}(x)} を学習させること.

adversarial loss with self-regularization

その際の要件として,シミュレータ生成した際のannotation情報は保持させるというものがある.

例えば,視線推定のための画像データを拡張する場合には, シミュレータで画像生成する際に視線方向のannotationは与えておくが, そのannotationした情報は{R_{\theta}(x)} で変換した後も保持していないと,教師データとして視線推定に使えない.

そこで通常のGANのLossに加えて, self-regularization lossを加えることを提案. self-regularization lossは,ピクセルごとの変換前後のL1距離とする.

local adversarial loss

SimGANのdiscriminatorの学習の際, ある画像特徴量を過度に評価してしまうようになると,ゴミを生成することとなる.

画像を局所領域に分割したときの各領域ごとdiscriminatorに区別させた. 各局所領域においてもSimGANで変換した画像に現実感が付与されている状態では,現実の画像の局所領域と区別がつかないはず.

f:id:yusuke_ujitoko:20170809000248p:plain:w400

いくつかの特徴量による評価が組み合わさるので,ある1つの特徴量への依存が小さくなる.(ここは自信がない)

検証

視線推定タスク

視線推定の学習に使うデータセットは質が低い. そこでSimGANでannotation付きデータを大量生成して学習させたところ, sota達成

f:id:yusuke_ujitoko:20170809000354p:plain

データセットに対するuser studyも行った. 50個の現実のデータと50個のSimGANによる生成データをrandomに提示してどちらが本物か答えさせたら正答率は51.7%だった.

距離画像による手姿勢推定タスク

通常,現実の距離画像にはノイズが入っている. そのノイズがシミュレータ画像にはないので,変換してノイズを再現.

f:id:yusuke_ujitoko:20170809000649p:plain