2017-07-18

Multi-Resolution Heatmap Regressorによる姿勢推定メモ

機械学習

Efficient Object Localization Using Convolutional Networks
https://arxiv.org/abs/1411.4280

Multi-Resolution Heatmap Regressor

Coarse Heat-Map Regression Model

異なる解像度の入力画像をConvNetに入力する，
https://arxiv.org/abs/1406.2984のモデルの拡張
- 関節ごとに関節位置の尤もらしさをピクセルごとのヒートマップで出力

さらに工夫を加えた点として

Spatial Dropout
- 通常のdropoutだと過学習を防げなかった
  - natural imageを入力としており，feature map activationの各ニューロンの関連度が強いため通常のdropoutが上手く行かなかったという説明
  - 右図のf2aとf2bの関連度が強い場合，f2bのactivationが0(dropouted)になってもf2aが残り，意味がない
- feature map全体を0とするかactiveとするSpatialDropoutを使う

Loss
- 真のヒートマップと予測したヒートマップのMSEとする
- 真ヒートマップは関節位置(x,y)を中心とする2D Gaussian

Fine Heat-Map Regression Model

ネットワークを直列でつなぐときに各stageのパラメータを別とするDeepPoseと異なり，本研究ではパラメータを再利用する．
- パラメータ数の軽減
- coarseとfineモデルを両方学習することでregularizationとなる

f:id:yusuke_ujitoko:20170717235205p:plain

関節の推定
- coarse heat-map modelにおいて，関節位置(x,y)を推定し，
  その関節位置まわりを最初の2つの畳み込み層でcropする
- fine heat-map modelにおいて，微小位置変位(Δx, Δy)を推定し，
  coarse modelで推定した関節位置(x,y)に加える

このcascaded architectureはいくつも繋げても良いが，１つだけでも十分な精度が出た．

問題

人体の関節の階層構造を利用していない
coarseモデルの時点でcropされた部分に真の関節が含まれてしまう問題（DeepPoseと同じ問題）

2017-07-17

DeepPose論文メモ

機械学習

DeepPose: Human Pose Estimation via Deep Neural Networks
http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Toshev_DeepPose_Human_Pose_2014_CVPR_paper.pdf

手法

f:id:yusuke_ujitoko:20170717195026p:plain

モデルの構造はAlexNetを流用
- 入力：画像(220x220)
- 出力：各関節ごとの位置（2次元）

loss
- 関節ごとの予測位置と真の位置のL2距離の和

上記ネットワークを直列につなぎ多段stage化する。後ろのstageになるほど精密に関節位置を推定していく。(異なるstageのネットワークは異なるパラメータを持つ)
- 一番目のstageでは、入力画像のうちで全関節の位置を特定する
- 中間のstageでは各関節ごとに処理が分かれる
  - 各関節ごとに画像cropし高精細化する
  - 一つ前のstageで推定した関節位置と真の関節位置の差分を予測する。

f:id:yusuke_ujitoko:20170717204302p:plain

f:id:yusuke_ujitoko:20170717204310p:plain

制限
- stageの最初の方で真の位置との乖離が大きいと、予測がうまく行かなそう
- 1つの画像に対して、関節位置候補が1つのみ

参考

以下の資料は素晴らしいです．
これを読めば論文読む必要はないです．
DeepPose: Human Pose Estimation via Deep Neural Networks

2017-07-17

【cs231n】深度画像をもとにCNNで姿勢推定する手法メモ

機械学習

cs231nの授業レポートを読んだ。 http://cs231n.stanford.edu/reports/2016/pdfs/426_Report.pdf

Li 2014のモデルをほぼそのまま使っている

f:id:yusuke_ujitoko:20170717140512p:plain

上記との違う点は
- 入力が3チャンネルではなく、1チャンネルであること
- conv2の後の正規化をしないこと
- 出力は各関節位置

誤差関数の設計
- 出力の各関節位置のL2距離だけを誤差関数とすると，
  人間の階層的情報を活かしきれてない．
- 本研究では以下の3つの和を使う
  3つの最適な重みを実験で調べている
  - ${L_{d}}$ :四肢の位置のL2距離
  - ${L_{s}}$ :四肢の長さのL2距離
  - ${L_{r}}$ :関節角度のコサイン類似度

2017-07-15

深層学習の認識タスクにおいて、データ量を増やすと精度がどの程度向上するか

機械学習

Revisiting Unreasonable Effectiveness of Data in Deep Learning Era
https://arxiv.org/abs/1707.02968

データを増やすとどうなるか

(a)モデルサイズや(b)計算力は向上しているが、(c）データセットサイズの変化は小さい。

f:id:yusuke_ujitoko:20170715003003p:plain:w400

データセットが大きくなれば、はたして精度は向上するだろうか。訓練データ数を10倍にしたら、精度は倍くらいになる？訓練データ数を100倍や1000倍にしたらどうなる？

Googleは巨大なデータセットを自動で集め、 300Mの画像からなるデータセットとしてJFT-300Mを構築した。ラベルは自動でつけており、計375Mのラベルがある。（1画像につき複数のラベルがつく）。

実験

以下のタスクに対してデータセットを変化させて精度の変化を調べた。

image classification
object detection
semantic segmentation
human pose estimation

実験の結果、タスクによらず,精度はデータセットのlog-scaleに比例することがわかった。

f:id:yusuke_ujitoko:20170715003851p:plain

ただし、実験の中ではハイパーパラメータは最適値にしていない。

redditの反応

実験では50KのGPUを2ヶ月使ったと書いてある。そしてそれでも101層のResNetが収束しなかった様子。またハイパーパラメータも最適値を求めていない。 Googleの連中でもその調子なら、せいぜいTitan 5,6個しか使えない一般人はどうすればよいのか。

2017-07-11

DRAGANでいらすとや画像を生成してみる

機械学習

DRAGAN
arXiv:https://arxiv.org/abs/1705.07215

“How to train your DRAGAN"というタイトルの論文で、変なタイトルだなぁ..と思っていたが、このタイトルの元ネタとして、アメリカの3DCGアニメがあるのを知った。
（日本名はヒックとドラゴンというらしい。この名前も初耳）

www.youtube.com

このDRAGANを使って以下のようないらすとや画像を生成したというのが本記事の主旨。
この生成画像は非常に綺麗。

f:id:yusuke_ujitoko:20170602003311p:plain

この記事自体はお蔵入り予定だったが，
本日リリースされたchainerのGANライブラリの中に，
決して有名でないDRAGANが入っていて驚き，
この記事を公開する意味もなくはないか，と気持ちを改め，
これを機に成仏させることにした．

この論文の概要

GANでは目的関数がnon-convexなので局所的なナッシュ均衡点に到達してしまい失敗する →non-convexぽくないようにすればよい。
DRAGANを提案
- 訓練データの周りの領域においてのみ，勾配に制約をかけることで上記の問題を緩和
- 実験により有効性を実証

以下で論文の内容をサクッと紹介する。
前回あまりにもそのまま書き下してしまったので省略気味に。

提案手法（ざっくり）

最近ではリプシッツ性の制約を加えたGANが提案されている
- LS-GAN(weight decayにより制約をかける)
- WGAN(weight clippingにより制約をかける)
- WGAN-gp(gradient penaltyにより制約をかける)

でもこの制約は厳しすぎて，Generatorの表現力を抑えてしまう．
そこで、Dの目的関数にペナルティ項として， ${\lambda \mathbb{E} \mathbb{E} (|| \nabla_{x} D_{\theta}(x + \delta) -1 ||_{2} -1)^{2} }$ を加える。

これにより，訓練データ近くのデータに限り、勾配がほぼ1に近づく．勾配を1に近づけることにより、Dの目的関数を線形に近づけて、鞍点を減らすことを目的にしている。ホントかどうかわからないが、実験によればmode collpseが減ったのでうまく行く方法である、という主張が書いてある。

提案アルゴリズムの実装

この論文では理論の説明の前に、DRAGAN実装の説明が来ていた。
DRAGANのアルゴリズムは以下のようなもの。
f:id:yusuke_ujitoko:20170530000517p:plain

Vanilla GANとの大きな違いはDiscriminatorの更新方法である。
Dの目的関数に注目すると，目的関数にはペナルティ項が加わっている。
この項の効果は，
訓練データの周りの局所領域のみ の勾配をなるべく1に近づけるというもの．

その他のポイントとしては以下のようなものがある．

ノイズ入り訓練データのミニバッチを作る際には、C=0.5とした以下の式を使う．
OptimizerにはAdamを用いる。
また、 ${\lambda}$ は10とする。
BatchNormalizationを使っていない。
BatchNormalizationを施すとミニバッチ内のサンプル同士を関連付けてしまうことになり、
局所的な制約をつけるという方針に影響を与えてしまう。これを避けたい。